用户登录
用户注册

分享至

mapreduce框架的主要技术

  • 作者: iparanoia
  • 来源: 51数据库
  • 2020-10-04
Hadoop本身是一个生态圈. 整个生态圈里包含了底层的分布式存储HDFS, 计算框架Mapreduce, 集群调度管理工具Zookeeper,集群资源管理工具YARN, 分布式数据库HBASE等等. 我拿淘宝的店铺淘生意举一个例子吧, 可能不是那么准确:
比如一个店铺一天有10万的访客量, 你想分析的诸如这些访客来自哪里,性别,年龄,访问过什么商品,买过什么商品等等都会在访问网站的时候留下相关的痕迹文件(简称日志),比如这些文件一天就有1TB,那么你怎么存大文件?一个客户可能对应的特性就有上万条,你怎么在数据库里存大表,又怎么分析用户特性?这些都依赖于Hadoop的框架.
现在假设你有一个10台机器的集群:
HDFS:可以将你每天生成的1TB文件拆分存储在这个集群内. Zookeeper可以监控你的文件系统以及其他主从框架的服务是否正常在线. YARN则可在集群内协调你的CPU/内存资源,当有任务的时候可以合理分配资源进行计算,Mapreduce则是执行分析计算的基本框架,HBASE则可以将你分析后的数据保存在整个分布式集群内. 以供其它应用来进行进一步的分析展示. 其它的Spark/Storm/HIVE/Impala/cassandra 等等在这就不说了.
总之,涉及超大数据进行存储分析等领域,都是以Hadoop为基本框架的,至少底层都是HDFS 纯手打,忘采纳.



  1. 存储。ibm貌似才刚推出关于存储的计划。这样读写的速度更快,并且高容错,同时也可采用一般机器进行水平扩展,而不需要大型机这样的高性能机器。
2. 网页索引资料库。貌似搜索领域现在运用hadoop比较多。国内估计bat都在用吧,国外的典型应该是yahoo了。
3. 日志分析。类似日志分析这样的数据挖掘领域貌似也应用的较多。
4. 商品推荐。amazon用来进行协同过滤的商品推荐,个性化广告的推送也应该属于此类。
5. 垃圾邮件的识别与过滤。
软件
前端设计
程序设计
Java相关