用户登录
用户注册

分享至

大数据 mapreduce

  • 作者: 我是隔壁老王他老子
  • 来源: 51数据库
  • 2020-09-27
hadoop是一个开源的大数据分析软件,或者说编程模式。它是通过分布式的方式处理大数据的,因为开元的原因现在很多的企业或多或少的在运用hadoop的技术来解决一些大数据的问题,在数据仓库方面hadoop是非常强大的。但在数据集市以及实时的分析展现层面,hadoop也有着明显的不足,现在一个比较好的解决方案是架设hadoop的数据仓库而数据集市以及实时分析展现层面使用永洪科技的大数据产品,能够很好地解决hadoop的分时间长以及其他的问题。



  因为当数据非常巨大时,如 xxx tb 甚至 xxx pb, 区区一台服务器就很难处理过来了。
所以就需要使用 n 台服务器,组成一个群集,共同处理庞大的数据,这样就能极大提升效率了。
hadoop其实就是一个分布式的文件系统,数据会分布到 n 台服务器中,一旦需要处理数据,则 n 台服务器共同进行处理,再把各个中间结果汇总成最后的结果。
当然,这需要特别的算法,不能再使用传统的算法了,这就要使用 mapreduce 框架了。
我们万能的淘宝就是使用了 hadoop 的,你想想上年双十一那 一千亿交易额,其中累积起来的数据可是很惊人的。
软件
前端设计
程序设计
Java相关