spark 客户端

作者: 我真是汪了个星了
来源: 51数据库
2020-09-23

Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。优势应该在于分布式架构比较相似能快速上手吧

　　是的。
1、下载spark。

下载的是不含hadoop的版本：spark-1.6.0-bin-without-hadoop
2、将spark安装到各机器上的/usr/lib目录下。

安装后路径为： /usr/lib/spark-1.6.0-without-hadoop
3、在各机器上创建spark用户，用户组设置为hadoop。

sudo useradd spark -g hadoop -m

推荐阅读