mapreduce全排序
- 作者: 小鲁33936726
- 来源: 51数据库
- 2020-10-03
首先可能会出现这样的问题:
1.可能上一个job为多个reduce,也就是会产生多个结果文件,因为一个reduce就会生成一个结果文件,结果存放在上一个job输出目录下类似part-r-00的文件里。
2.需要排序的文件内容很大,所以需要考虑多个reduce的情况。
:(partition)分区出现的必要性,如何使用hadoop产生一个全局排序的文件?最简单的方法就是使用一个分区,但是该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了mapreduce所提供的并行架构的优势。
1.可能上一个job为多个reduce,也就是会产生多个结果文件,因为一个reduce就会生成一个结果文件,结果存放在上一个job输出目录下类似part-r-00的文件里。
2.需要排序的文件内容很大,所以需要考虑多个reduce的情况。
:(partition)分区出现的必要性,如何使用hadoop产生一个全局排序的文件?最简单的方法就是使用一个分区,但是该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了mapreduce所提供的并行架构的优势。
推荐阅读