虚拟机搭建hadoop集群

作者: 用户35175328
来源: 51数据库
2020-10-05

原创文档，转载请保留原文url地址
hadoop俗称分布式计算，最早作为一个开源项目，最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样，虽然Hadoop最初十分简单，但随着近些年来大数据的兴起，其也获得了一个充分体现价值的舞台。这也正是业内普遍将Hadoop看做是下一个Linux的原因。
本文介绍基于多台vmware虚拟机来安装hadoop集群的过程及方法，通过这个小的集群让您在本地电脑上就可以研究hadoop的相关工作过程，有人会有疑问在小的虚拟机集群上研究的结果，写的程序能否在大集群上工作正常？可以肯定的没问题的。
Hadoop的一个特性是线性增长特性，即当前数量情况下，处理时间是1，若是数据量加倍，后处理时间加倍，若是在这种情况下，处理能力也加倍则处理时间也是1.
正常情况hadoop需要较多的服务器才能搭建，但是我们在家里学习如何去找那么服务器，解决办法可以找几台pc机，在pc机上安装linux系统就可以了。
当然我们还有更简单的办法，就是找一台高性能的电脑，在电脑上安装虚拟机软件，里面创建若干台虚拟机，然后让这些虚拟机构成一个小的内部局域网络，在这个网络上我们安装linux软件， java软件，安装hadoop程序，我们就可以创建一个简单hadoop的研究系统，进行软件的开发调试，在这个小的分布式集群上开发的程序可以无缝移植到相同版本的hadoop（不同hadoop的版本兼容性不是很好，特别是低版本同高版本，他们的api也有些许变化）集群中。

　　前段时间用3台虚拟机搭了，20g的存储1g的内存。
01装master,上面起个namenode；02,03装slave,各自起datanode，zk集群最小部署要3台，每台机器都装。