mapreduce topn

作者: 求关注o
来源: 51数据库
2020-10-04

reduce side join是一种最简单的join方式，其主要思想如下：
在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签（tag）,比如：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签。
在reduce阶段，reduce函数获取key相同的来自File1和File2文件的value list，然后对于同一个key，对File1和File2中的数据进行join（笛卡尔乘积）。即：reduce阶段进行实际的连接操作。
REF：hadoop join之reduce side join

　　hive中的join可概括为map端join和reduce端join，两种join的原理不同，使用mapreduce处理的方式也不同，需要了解其中的原理之后，就可以将其自己翻译成mapreduce程序。可以搜索"lxw的大数据田地"，里面有对hive中join类型和原理的详细描述。

推荐阅读