mapreduce hbase 性能

作者: 追夢男孩
来源: 51数据库
2020-10-05

使用MapReduce把Nutch提取的Segment中data文件里信息保存到Hbase里。
刚刚接触MapReduce和Nutch，练习的处理一个功能。所以有很多不足之处。例如获取编码和获取域名
分享出来想请大家指点，纠正一下。请不要喷我，谢谢！
本人运行时在Linux环境hadoop命令中。
前提是已经把Segment中data全保存在一个文件夹中。
因为是敲进来得代码，有误请见谅。

　　应该是hadoop在hbase和hive中的作用吧。 hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。而hbase是作为分布式数据库，而hive是作为分布式数据仓库。当然hive还是借用hadoop的mapreduce来完成一些hive中的命令的执行。而hbase与hive都是单独安装的。你需要哪个安装哪个，所以不存在重复信息。

hadoop作为底层存储是说hdfs吗 hdfs和hbase 还有hive到底谁担任数据库呢具体怎么分工?
我的意思是如果有多个数据库的话数据库资料不会重复吗?

hdfs作为底层存储，hdfs是存放文件的系统，而hbase负责组织文件。hive需要用到hdfs存储文件，需要用到mapreduce计算框架。多个数据库（hbase）的资料，肯定是单独组织的。不会共享。

推荐阅读