用户登录
用户注册

分享至

spark hbase

  • 作者: 这么近丶那么远-_-
  • 来源: 51数据库
  • 2020-09-25
spark读hbase,生成task受所查询table的region个数限制,任务数有限,例如查询的40G数据,10G一个region,很可能就4~6个region,初始的task数就只有4~6个左右,RDD后续可以partition设置task数;
spark读parquet按默认的bolck个数生成task个数,例如128M一个bolck,差不多就是300多个task,初始载入情况就比hbase快,而且直接载入parquet文件到spark的内存,而hbase还需要同regionserver交互把数据传到spark的内存也是需要消耗时间的。
总体来说,读parquet更快



  HBase非常适合海量数据的K-V查询。如果是根据K来查询的话,性能非常好。
软件
前端设计
程序设计
Java相关