Hadoop Apache Pig Apache Kafka Apache Storm

Impala Zookeeper SAS TensorFlow 人工智能基础 Apache Kylin Openstack Flink MapReduce 大数据云计算

用户登录

还没有账号?立即注册

用户注册

点击换图

mapreduce全排序

作者: 小鲁33936726
来源: 51数据库
2020-10-03

首先可能会出现这样的问题：
1.可能上一个job为多个reduce，也就是会产生多个结果文件，因为一个reduce就会生成一个结果文件，结果存放在上一个job输出目录下类似part-r-00的文件里。
2.需要排序的文件内容很大，所以需要考虑多个reduce的情况。

　　：(partition)分区出现的必要性，如何使用hadoop产生一个全局排序的文件？最简单的方法就是使用一个分区，但是该方法在处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了mapreduce所提供的并行架构的优势。

推荐阅读

热点文章

mapreduce中的序列化

mapreduce实现分页

mapreduce 清洗日志

mapreduce字典

mapreduce 函数式编程

mapreduce 函数式编程

MapReduce是一个框架吗

MapReduce是一个框架吗

mapreduce 数据集

mapreduce编码

mapreduce设计模式培训

mapreduce设计模式培训

软件

前端设计

程序设计

Java相关