mapreduce框架的主要技术

作者: iparanoia
来源: 51数据库
2020-10-04

Hadoop本身是一个生态圈. 整个生态圈里包含了底层的分布式存储HDFS, 计算框架Mapreduce, 集群调度管理工具Zookeeper,集群资源管理工具YARN，分布式数据库HBASE等等. 我拿淘宝的店铺淘生意举一个例子吧, 可能不是那么准确:
比如一个店铺一天有10万的访客量, 你想分析的诸如这些访客来自哪里，性别，年龄，访问过什么商品，买过什么商品等等都会在访问网站的时候留下相关的痕迹文件（简称日志），比如这些文件一天就有1TB，那么你怎么存大文件？一个客户可能对应的特性就有上万条，你怎么在数据库里存大表，又怎么分析用户特性？这些都依赖于Hadoop的框架.
现在假设你有一个10台机器的集群：
HDFS：可以将你每天生成的1TB文件拆分存储在这个集群内. Zookeeper可以监控你的文件系统以及其他主从框架的服务是否正常在线. YARN则可在集群内协调你的CPU/内存资源，当有任务的时候可以合理分配资源进行计算，Mapreduce则是执行分析计算的基本框架，HBASE则可以将你分析后的数据保存在整个分布式集群内. 以供其它应用来进行进一步的分析展示. 其它的Spark/Storm/HIVE/Impala/cassandra 等等在这就不说了.
总之，涉及超大数据进行存储分析等领域，都是以Hadoop为基本框架的，至少底层都是HDFS 纯手打，忘采纳.

　　1. 存储。ibm貌似才刚推出关于存储的计划。这样读写的速度更快，并且高容错，同时也可采用一般机器进行水平扩展，而不需要大型机这样的高性能机器。
2. 网页索引资料库。貌似搜索领域现在运用hadoop比较多。国内估计bat都在用吧，国外的典型应该是yahoo了。
3. 日志分析。类似日志分析这样的数据挖掘领域貌似也应用的较多。
4. 商品推荐。amazon用来进行协同过滤的商品推荐，个性化广告的推送也应该属于此类。
5. 垃圾邮件的识别与过滤。