用户登录
用户注册

分享至

spark数据库

  • 作者: 仰望丶陨昕10991556
  • 来源: 51数据库
  • 2020-09-24
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS
因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。



  shark和sparksql 但是,随着spark的发展,其中sparksql作为spark生态的一员继续发展,而不再受限于hive,只是兼容hive;而hive on spark是一个hive的发展计划,该计划将spark作为hive的底层引擎之一,也就是说,hive将不再受限于一个引擎,可以采用map-reduce、tez、spark等引擎。
软件
前端设计
程序设计
Java相关