spark库

作者: 似曾相识燕归来20795590
来源: 51数据库
2020-09-24

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。
1、轻：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，2.0为22万行；
2、快：Spark对小数据集能达到亚秒级的延迟，这对于Hadoop MapReduce（以下简称MapReduce）是无法想象的（由于“心跳”间隔机制，仅任务启动就有数秒的延迟）；
3、灵：Spark提供了不同层面的灵活性。在实现层，它完美演绎了Scala trait动态混入（mixin）策略（如可更换的集群调度器、序列化库）；
4、巧：巧在借势和借力。Spark借Hadoop之势，与Hadoop无缝结合；接着Shark（Spark上的数据仓库实现）借了Hive的势。

　　你说呢...

推荐阅读