用户登录
用户注册

分享至

mapreduce topn

  • 作者: 求关注o
  • 来源: 51数据库
  • 2020-10-04
reduce side join是一种最简单的join方式,其主要思想如下:
在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag),比如:tag=0表示来自文件File1,tag=2表示来自文件File2。即:map阶段的主要任务是对不同文件中的数据打标签。
在reduce阶段,reduce函数获取key相同的来自File1和File2文件的value list, 然后对于同一个key,对File1和File2中的数据进行join(笛卡尔乘积)。即:reduce阶段进行实际的连接操作。
REF:hadoop join之reduce side join



  hive中的join可概括为map端join和reduce端join,两种join的原理不同,使用mapreduce处理的方式也不同,需要了解其中的原理之后,就可以将其自己翻译成mapreduce程序。可以搜索"lxw的大数据田地",里面有对hive中join类型和原理的详细描述。
软件
前端设计
程序设计
Java相关