mapreduce链式

作者: 猥琐寓言
来源: 51数据库
2020-09-27

mapreduce 是一种编程模型， map是映射， reduce是规约。
也就是说，有一批数据zhidao， map会将这些数据分成好多片小的内数据集，然后进行处理，然后将所有的结果都合在一起到reduce中去处理，只不过 spark中不需要像 hadoop中那样每次都是强制性的 mapreduce了，而是可以容灵活地 map.map.map.reduce。

　　mapreduce中的每个task分别在自己的进程中运行，当该task运行完的时候，该进程也就结束了。和mapreduce不一样的是，spark中多个task可以运行在一个进程里面，而且这个进程的生命周期和application一样，即使没有job在运行。
　　这个模型有什么好处呢？可以加快spark的运行速度！tasks可以快速地启动，并且处理内存中的数据。但是这个模型有的缺点就是粗粒度的资源管理，每个application拥有固定数量的executor和固定数量的内存。

推荐阅读