spark 分布式
- 作者: 你隔壁的王叔叔105
- 来源: 51数据库
- 2020-09-20
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算.Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小。
spark是一个高效的分布式计算系统,相比hadoop,它在性能上比hadoop要高100倍。spark提供比hadoop更上层的api,同样的算法在spark中实现往往只有hadoop的1/10或者1/100的长度。
spark是一个高效的分布式计算系统,相比hadoop,它在性能上比hadoop要高100倍。spark提供比hadoop更上层的api,同样的算法在spark中实现往往只有hadoop的1/10或者1/100的长度。
推荐阅读
