spark hbase

作者: 这么近丶那么远-_-
来源: 51数据库
2020-09-25

spark读hbase，生成task受所查询table的region个数限制，任务数有限，例如查询的40G数据，10G一个region，很可能就4~6个region，初始的task数就只有4~6个左右，RDD后续可以partition设置task数；
spark读parquet按默认的bolck个数生成task个数，例如128M一个bolck，差不多就是300多个task，初始载入情况就比hbase快，而且直接载入parquet文件到spark的内存，而hbase还需要同regionserver交互把数据传到spark的内存也是需要消耗时间的。
总体来说，读parquet更快

　　HBase非常适合海量数据的K-V查询。如果是根据K来查询的话，性能非常好。

推荐阅读