mapreduce 源代码

作者: 人家都说名字起的太长不太容易被记住
来源: 51数据库
2020-10-04

一、首先要知道此前提转载若在windows的Eclipse工程中直接启动mapreduc程序，需要先把hadoop集群的配置目录下的xml都拷贝到src目录下，让程序自动读取集群的地址后去进行分布式运行(您也可以自己写java代码去设置job的configuration属性)。

　　apriori，主体分两步走：
a. 根据原始数据得到1 - k项集,再根据support（支持度）得到频繁1项集，频繁2项集，频繁3项集...... 一直到频繁k项集，这一步是运算量最大的，也是hadoop集群的瓶颈。
b. 根据置信度 confidence ，得到所有强规则。
因为 b 步骤太简单，为了省事，我没写在算法里，算法里只求出了所有频繁集。而这一步骤也分为两步：
a. 迭代得到k项集，具体迭代方法就是将上一次迭代的结果k-1项集和1项集进行组合，从而得到k项集。
b. 根据支持度，得到频繁k项集，不断迭代a,b步骤，直到k为最大为止。

推荐阅读