google mapreduce论文

作者: 抹不掉的回忆5811339
来源: 51数据库
2020-10-03

恕我直言，那些把MapReduce喷的一无是处的人真正读过MR的原始论文么？google 发布 mr 从来都不是为了强调 high performance 和 expressive , 而是scalability. 更重要的是，给我们普及了工业届对真正意义上的「大数据」的理解。屌丝们知足吧，在04年论文出来之前，搞并行计算的人压根连「容错」的概念都没有。站在今天这个时代去批判一个历史技术，无异于耍流氓。除此之外，大部分人都是通过 Hadoop 这个系统了解 MapReduce 的，但是hadoop 在现在看来无疑是一个非常糟糕的系统，无论是系统的设计还是编程语言的选择。hadoop中充满了各种 over engineering，比如说你一个计算框架搞什么资源调度？！搞什么job tracker？！这难道不是集群管理系统应该做的么？直到现在，hadoop社区才意识到这个问题，然后再去搞了一个Yarn. 可是人家 Mesos 几年前早就搞出来了。我亲自参与开发过 c++ 版本 mapreduce 的实现，我们的系统甚至可以比 spark 更快。而google 现在内部使用的 mapreduce，也早就不知道演变成了什么样子。

每个系统都有自己的历史地位，一篇论文，一个系统带给我们更多的是一种思路，以及更深层次的，philosophy 层面的东西。而不是一个具体的系统实现。