用户登录
用户注册

分享至

hadoop 排序

  • 作者: 雏-
  • 来源: 51数据库
  • 2020-09-23
为了提高reduce阶段的并行度,TeraSort作业对以上算法进行改进:在map阶段,每个map task都会将数据划分成R个数据块(R为reduce task个数)
其中第i(i>0)个数据块的所有数据都会比第i+1个中的数据大;
在reduce阶段,第i个reduce task处理(进行排序)所有map task的第i块,这样第i个reduce task产生的结果均会比第i+1个大,最后将1~R个reduce task的排序结果顺序输出,即为最终的排序结果。



  调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器,然后在配置文件中指定相应的调度器
软件
前端设计
程序设计
Java相关