用户登录
用户注册

分享至

hadoop存储数据

  • 作者: 黑色834867236
  • 来源: 51数据库
  • 2020-10-02
Hadoop本身是分布式框架,如果在hadoop框架下,需要配合hbase,hive等工具来进行大数据计算。如果具体深入还要了解HDFS,Map/Reduce,任务机制等等。如果要分析还要考虑其他分析展现工具。

大数据还有分析才有价值

用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈:1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。3、NoSQL,membase、MongoDb商用大数据生态圈:1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。



  存放到hdfs 一般都是要分析的数据。分析完成的数据直接存储到mysql 或者oracle 中。这种处理方式是离线处理。如日志文件存储到hdfs 分析出网站的流量 uv pv 等等。一般都是用pig hive 和mr 等进行分析的。

存放到hbase 一般都是数据拿过来直接用的。而且他是实时的。也就是说数据就是成型的而且不需要进行分析就能得到结果的数据。

大致就是这么个意思。有点啰嗦了。
软件
前端设计
程序设计
Java相关