mapreduce map内存

作者: __落花流水
来源: 51数据库
2020-10-04

在Map阶段处理数据时，由于内存的限制，会把数据先写到文件中，最终会根据数据的多少生成多个文件，每个文件中会按照Reduce的个数分区，每个分区的数据都按照key值顺序排放，Map结束后将多个文件合并为同一个文件，合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据，然后会根据数据的多少写到文件和内存中，每个Map的数据为一个文件或一段内存，最后对内存和文件的数据进行合并计算输出最后的结果，合并的方式与Map合并方式一致。因此在Map和Reduce阶段都存在把多个文件或多段内存中的数据合并计算输出一个文件。

　　mapreduce是一种编程模型，用于大规模数据集（大于1tb）的并行运算。概念"map（映射）"和"reduce（归约）"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。