hive impala spark

作者: 让心海掠过飓风
来源: 51数据库
2020-09-25

历史上存在的原理，以前都是使用hive来构建数据仓库，所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlSQL都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器，修改了执行器，使之物理执行过程是跑在spark上；而sparkSQL是使用了自身的语法解析器、优化器和执行器，同时sparkSQL还扩展了接口，不单单支持hive数据的查询，可以进行多种数据源的数据查询。

　　spark是一种分布式内存计算模型
hadoop是一种大数据分布式处理方案，包括hdfs（分布式存储系统），mapreduce（分布式计算框架），yarn（资源调度系统）
hive是基于hadoop的一个数据仓库，构建成类似传统关系型数据库。能够用sql执行mr任务
spark与hadoop关系，spark是内存计算框架，意味着他主要是用来进行计算，用来取代hadoop的mapreduce任务效率太低。但是计算结果，数据源，最终还是存在hadoop上的

推荐阅读