安装hadoop

作者: 找个陈美嘉那样的女人
来源: 51数据库
2020-09-20

在Linux上安装Hadoop之前，需要先安装两个程序：
　　1. JDK 1.6或更高版本;
　　2. SSH(安全外壳协议)，推荐安装OpenSSH。
　　下面简述一下安装这两个程序的原因：
　　1. Hadoop是用Java开发的，Hadoop的编译及MapReduce的运行都需要使用JDK。
　　2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程，因此SSH也是必须安装的，即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式，Hadoop会采用与集群相同的处理方式，即依次序启动文件conf/slaves中记载的主机上的进程，只不过伪分布式中salve为localhost(即为自身)，所以对于伪分布式Hadoop，SSH一样是必须的。
　　一、安装JDK 1.6
　　安装JDK的过程很简单，下面以Ubuntu为例。
　　(1)下载和安装JDK
　　确保可以连接到互联网，输入命令：
sudo apt-get install sun-java6-jdk
　　输入密码，确认，然后就可以安装JDK了。
　　这里先解释一下sudo与apt这两个命令，sudo这个命令允许普通用户执行某些或全部需要root权限命令，它提供了详尽的日志，可以记录下每个用户使用这个命令做了些什么操作;同时sudo也提供了灵活的管理方式，可以限制用户使用命令。sudo的配置文件为/etc/sudoers。
　　apt的全称为the Advanced Packaging Tool，是Debian计划的一部分，是Ubuntu的软件包管理软件，通过apt安装软件无须考虑软件的依赖关系，可以直接安装所需要的软件，apt会自动下载有依赖关系的包，并按顺序安装，在Ubuntu中安装有apt的一个图形化界面程序synaptic(中文译名为“新立得”)，大家如果有兴趣也可以使用这个程序来安装所需要的软件。(如果大家想了解更多，可以查看一下关于Debian计划的资料。)
　　(2)配置环境变量
　　输入命令：
sudo gedit /etc/profile
　　输入密码，打开profile文件。
　　在文件的最下面输入如下内容：
#set Java Environment
export JAVA_HOME= （你的JDK安装位置，一般为/usr/lib/jvm/java-6-sun）
export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
export PATH="$JAVA_HOME/:$PATH"
　　这一步的意义是配置环境变量，使你的系统可以找到JDK。
　　(3)验证JDK是否安装成功
　　输入命令：
java -version
　　查看信息：
java version "1.6.0_14"
Java(TM) SE Runtime Environment (build 1.6.0_14-b08)
Java HotSpot(TM) Server VM (build 14.0-b16, mixed mode)
　二、配置SSH免密码登录
　　同样以Ubuntu为例，假设用户名为u。
　　1)确认已经连接上互联网，输入命令
sudo apt-get install ssh
　　2)配置为可以无密码登录本机。
　　首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”，这是一个隐藏文件夹)，输入命令：
ls -a /home/u
　　一般来说，安装SSH时会自动在当前用户下创建这个隐藏文件夹，如果没有，可以手动创建一个。
　　接下来，输入命令：
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
　　解释一下，ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思，即密钥类型;-P用于提供密语;-f指定生成的密钥文件。(关于密钥密语的相关知识这里就不详细介绍了，里面会涉及SSH的一些知识，如果读者有兴趣，可以自行查阅资料。)
　　在Ubuntu中，~代表当前用户文件夹，这里即/home/u。
　　这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub，这是SSH的一对私钥和公钥，类似于钥匙及锁，把id_dsa.pub(公钥)追加到授权的key里面去。
　　输入命令：
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
　　这段话的意思是把公钥加到用于认证的公钥文件中，这里的authorized_keys是用于认证的公钥文件。
　　至此无密码登录本机已设置完毕。

　　1、安装cygwin
下载cygwin的setup.exe，双击运行：

选择从internet安装：

设置安装目录：

设置安装包目录：

设置“internet connection”的方式，选择“direct connection”：

选择一个下载站点：

“下一步”之后，可能会弹出下图的“setup alert”对话框，直接“确定”即可

在“select packages”对话框中，必须保证“net category”下的“openssl”被安装：

如果还打算在eclipse 上编译hadoop，则还必须安装“base category”下的“sed”：

“devel category”下的subversion 建议安装：

下载并安装：

当下载完后，会自动进入到“setup”的对话框：

在上图所示的对话框中，选中“create icon on desktop”，以方便直接从桌面上启动
cygwin，然后点击“完成”按钮。至此，cgywin 已经安装完成。

2、配置环境变量
需要配置的环境变量包括path 和java_home：将jdk 的bin 目录、cygwin 的bin 目录
以及cygwin 的usr\bin（sbin）目录都添加到path 环境变量中；java_home 指向jre 安装目录。

3、windows系统上运行hadoop集群，伪分布式模式安装步骤：
①启动cygwin，解压hadoop安装包。通过cygdrive（位于cygwin根目录中）可以直接映射到windows下的各个逻辑磁盘分区。例如hadoop安装包放在分区d：\下，则解压的命令为＄ tar -zxvf /cygdrive/d/hadoop-0.20.2.tar.gz,解压后可使用ls命令查看，如下图：
默认的解压目录为用户根目录，即d：\cygwin\home\lsq（用户帐户）。
②编辑conf/hadoop-env.sh文件，将java_home变量设置为java的安装目录。例如java安装在目录c：\program files\java\jdk1.6.0_13,如果路径没空格，直接配置即可。存在空格，需将program files缩写成progra_1,如下图：

③依次编辑conf目录下的core-site.xml、mapred-site.xml和hdfs-site.xml文件，如下图：

④安装配置ssh

点击桌面上的cygwin图标，启动cygwin，执行ssh-host-config命令，然后按下图上的选择输入：

当提示do you want to use a different name?输入yes，这步是配置安装的sshd服务，以哪个用户登录，默认是cyg_server这个用户，这里就不事先新建cyg_server这个用户，用当前本机的超管本地用户：chenx，后续根据提示，2次输入这个账户的密码

出现host configuration finished. have fun! 一般安装顺利完成。如下图：

输入命令$ net start sshd，启动ssh，如下图：

注：sshd服务安装完之后，不会默认启动，如果启动报登录失败，不能启动，可在服务属性-log on窗口手工修改，在前述的过程之中，cygwin不会校验密码是否正确，应该只是校验了2次的输入是否一致，然后再手工启动。不知道为什么，sshd服务如果选择local system的登录方式，后续会有问题，所以sshd服务最好设置成当前的登录用户。

⑤配置ssh登录
执行ssh-keygen命令生成密钥文件

输入如下命令：
cd ~/.ssh
ls -l
cat id_rsa.pub >> authorized_keys

完成上述操作后，执行exit命令先退出cygwin窗口，如果不执行这一步操作，下面的操作可能会遇到错误。接下来，重新运行cygwin，执行ssh localhost命令，在第一次执行ssh localhost时，会有“are you sure you want to continue connection?”提示，输入yes，然后回车即可。当出现下图提示，即顺利完成该步：

⑥hadoop运行
格式化namenode
打开cygwin窗口，输入如下命令：
cd hadoop-0.20.2
mkdir logs
bin/hadoop namenode –format

启动hadoop
在cygwin 中，进入hadoop 的bin 目录，
运行./start-all.sh 启动hadoop；
可以执行./hadoop fs -ls /命令，查看hadoop 的根目录；
可以执行jps 查看相关进程；
如下图：（如果显示和下图类似，一般hadoop安装/启动成功）