mapreduce 优点

作者: 马桥红柳
来源: 51数据库
2020-10-04

1. 不适合事务/单一请求处理
MapReduce绝对是一个离线批处理系统，对于批处理数据应用得很好：MapReduce（不论是Google的还是Hadoop的）是用于处理不适合传统数据库的海量数据的理想技术。但它又不适合事务/单一请求处理。（HBase使用了来自Hadoop核心的HDFS，在其常用操作中并没有使用MapReduce。）

2. 不能随即读取

3. 以蛮力代替索引
在索引是更好的存取机制时，MapReduce将劣势尽显。

4. low-level语言和操作

“直接开始你想要的 -- 而不是展示一个算法，解释如何工作的。” (关系型数据库的观点) -- High level（DBMS）

“展示数据存取的算法。” (Codasyl 的观点) -- Low level（MapReduce）
5. 性能问题
想想N个map实例产生M个输出文件-每个最后由不同的reduce 实例处理, 这些文件写到运行map实例机器的本地硬盘. 如果N是1,000, M是500, map阶段产生500,000个本地文件. 当reduce阶段开始, 500个reduce实例每个需要读入1,000文件，并用类似FTP协议把它要的输入文件从map实例运行的节点上pull取过来. 假如同时有数量级为100的reduce实例运行,

　　(1)hadoop
是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。
hadoop=hdfs（文件系统，数据存储技术相关）+
mapreduce（数据处理），hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的
处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成mapreduce代替sql，sql是查
询语句，而mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯sql的hadoop有开源工具hive代替。

(2)hadoop就是一个分布式计算的解决方案.