用户登录
用户注册

分享至

spark 客户端

  • 作者: 我真是汪了个星了
  • 来源: 51数据库
  • 2020-09-23
Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。优势应该在于分布式架构比较相似能快速上手吧



  是的。
1、下载spark。

下载的是不含hadoop的版本:spark-1.6.0-bin-without-hadoop
2、将spark安装到各机器上的/usr/lib目录下。

安装后路径为: /usr/lib/spark-1.6.0-without-hadoop
3、在各机器上创建spark用户,用户组设置为hadoop。

sudo useradd spark -g hadoop -m
软件
前端设计
程序设计
Java相关