spark mapreduce 比较

作者: 大湿胸的初恋
来源: 51数据库
2020-09-30

mapreduce 是一种编程模型， map是映射， reduce是规约。
也就是说，有一批数据， map会将这些数据分成好多片小的数据集，然后进行处理，然后将所有的结果都合在一起到reduce中去处理，只不过 spark中不需要像 hadoop中那样每次都是强制性的 mapreduce了，而是可以灵活地 map.map.map.reduce。

　　a.由于mapreduce的shuffle过程需写磁盘，比较影响性能；而spark利用rdd技术，计算在内存中进行.b.mapreduce计算框架(api)比较局限,而spark则是具备灵活性的并行计算框架.c.再说说sparkapi方面-scala:scalablelanguage,据说是进行并行计算的最好的语言.与java相比，极大的减少代码量.

推荐阅读