用户登录
用户注册

分享至

mapreduce 源代码

  • 作者: 人家都说名字起的太长不太容易被记住
  • 来源: 51数据库
  • 2020-10-04
一、 首先要知道此前提 转载 若在windows的Eclipse工程中直接启动mapreduc程序,需要先把hadoop集群的配置目录下的xml都拷贝到src目录下,让程序自动读取集群的地址后去进行分布式运行(您也可以自己写java代码去设置job的configuration属性)。



  apriori,主体分两步走:
a. 根据 原始数据 得到1 - k项集,再根据support(支持度)得到频繁1项集,频繁2项集,频繁3项集...... 一直到频繁k项集,这一步是运算量最大的,也是hadoop集群的瓶颈。
b. 根据 置信度 confidence ,得到所有强规则。
因为 b 步骤太简单,为了省事,我没写在算法里,算法里只求出了所有频繁集。而这一步骤也分为两步:
a. 迭代得到k项集,具体迭代方法就是将上一次迭代的结果k-1项集和1项集进行组合,从而得到k项集。
b. 根据支持度,得到频繁k项集,不断迭代a,b步骤,直到k为最大为止。
软件
前端设计
程序设计
Java相关