用户登录
用户注册

分享至

mapreduce全排序

  • 作者: 小鲁33936726
  • 来源: 51数据库
  • 2020-10-03
首先可能会出现这样的问题:
1.可能上一个job为多个reduce,也就是会产生多个结果文件,因为一个reduce就会生成一个结果文件,结果存放在上一个job输出目录下类似part-r-00的文件里。
2.需要排序的文件内容很大,所以需要考虑多个reduce的情况。



  :(partition)分区出现的必要性,如何使用hadoop产生一个全局排序的文件?最简单的方法就是使用一个分区,但是该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了mapreduce所提供的并行架构的优势。
软件
前端设计
程序设计
Java相关