spark数据库

作者: 仰望丶陨昕10991556
来源: 51数据库
2020-09-24

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS
因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

　　shark和sparksql 但是，随着spark的发展，其中sparksql作为spark生态的一员继续发展，而不再受限于hive，只是兼容hive；而hive on spark是一个hive的发展计划，该计划将spark作为hive的底层引擎之一，也就是说，hive将不再受限于一个引擎，可以采用map-reduce、tez、spark等引擎。

推荐阅读