用户登录
用户注册

分享至

cassandra实战

  • 作者: 小二是你么
  • 来源: 51数据库
  • 2020-09-25
不是很容易,但是推荐一些Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

一、学习路线图
Hadoop家族学习路线图 开篇必读

Hive学习路线图

Mahout学习路线图

二、编程实践
Hadoop历史版本安装

用Maven构建Hadoop项目

Hadoop编程调用HDFS

用Maven构建Mahout项目

Mahout推荐算法API详解

用MapReduce实现矩阵乘法

从源代码剖析Mahout推荐引擎

Mahout分步式程序开发 基于物品的协同过滤ItemCF

Mahout分步式程序开发 聚类Kmeans

PageRank算法并行实现

三、案例分析
海量Web日志分析 用Hadoop提取KPI统计指标

用Hadoop构建电影推荐系统

用Mahout构建职位推荐引擎

Mahout构建图书推荐系统

PeopleRank从社交网络中发现个体价值



  如果是掌握hadoop的使用,java基础好就可以,看看hadoop权威指南。
想深入学习源码的话,就需要些网络编程的知识了。

具体步骤:
1.选择一个hadoop的版本,然后阅读文档了解hadoop:what's hadoop, why hadoop exists;
2.安装hadoop,三种方式都试下;
3.在hadoop文档里面有hadoop command的资料,i.hdfs command,尽量试试这两方面的命令;
4.hadoop files,看看hadoop文件的概念,关注它的分布式特点,然后看reduce函数输出文件;
5.自己写wordcount与advanced wordcount;
6.写sort程序;
7.使用randomtextwriter;
8.模仿sequencefileinputformat、sequencefileoutputformat、写自己的;
9.yahoo有一个hadoop的教程,英文版的,里面的内容很好;
10.《hadoop权威指南》当参考书,自己就可以实战了!
软件
前端设计
程序设计
Java相关