用户登录
用户注册

分享至

hadoop for linux

  • 作者: 亖呉?盀
  • 来源: 51数据库
  • 2020-10-06
Windows下运行Hadoop,通常有两种方式:一种是用VM方式安装一个Linux操作系统,这样基本可以实现全Linux环境的Hadoop运行;另一种是通过Cygwin模拟Linux环境。后者的好处是使用比较方便,安装过程也简单。在这里咱们就来看看第二种方案:如何再Windows下快速安装一个Hadoop环境,并结合Eclipse开发环境研究和调整Hadoop代码。整个安装过程包括以下三大步骤:安装和配置Cygwin(http://cygwin.com/install.html)安装和配置Hadoop-1.2.1(http://hadoop.apache.org/docs/stable/cluster_setup.html)安装和配置Eclipse开发环境1安装和配置Cygwin在Windows下通过安装Cygwin模拟Linux环境,然后再安装Hadoop,是一种简单方便的方式,为Hadoop准备的模拟Linux环境安装过程如下:1.1下载安装文件针对不同系统类型下载相应的安装文件,下载地址:http://cygwin.com/install.html。我这里的系统是window 7所以下载的是setup-x86.exe1.2安装Cygwin刚刚下载的文件是模拟Linux系统所依赖的软件包下载和管理工具,以后想要在模拟Linux环境中安装或更新软件都需要通过这个工具来完成,下面我们就先运行起来这个工具如下:左键双击setup-x86.exe文件运行安装向导:cygwin安装点击【下一步】按钮进入程序引导安装页,这里有三个选项,选择第一项网络安装:网络安装:通过网络下载并安装软件包下载但不安装:通过网络下载软件包本地安装:是用本地软件包安装cygwin安装点击【下一步】进入选择模拟Linux系统的根目录和用户的向导页。在Linux的文件系统中有且只有一个根目录,在这里选择目录就是Linux中的那个根目录了,这里选择默认:c:\cygwin;用户选择第一项:本系统的所有有效用户。cygwin安装点击【下一步】选择本地软件包目录,该工具会自动记住并将以后下载的所有软件包都会放到这里指定的目录。我这里选择:C:\Users\Administrator\Desktop\1,如果选择不存在目录,就好提示是否创建目录选Yes就OK。cygwin安装点击【下一步】选择您的网络连接,我这里使用的是代理服务器上网,所以我选择第二项:使用IE浏览器代理设置。经测试选择第三项输入代理服务器地址和端口,不能正常访问网络,原因不明。cygwin安装点击【下一步】,等待下载镜像站点列表,下载完成后出现选择下载软件包的站点。如图:cygwin安装根据自己的情况选择合适的下载地址,我这里选择了国内的163站点,点击【下一步】,这个工具就会自动下载软件包信息列表下载完成后进入安装软件包选择页,如下图:cygwin安装这一步比较重要,以下软件包要确保被安装:cygwin安装注:这个软件包列表由前到后包括:分类、当前安装版本,最新版本,安装可执行文件?,安装源代码文件?,大小,包名称和说明。基础软件包:Base及其下面的所有软件包,操作方法:点击Base后面的Default为Install。SSH相关软件包:Net下的OpenSSL和和OpenSSH,用于Hadoop需要的SSH访问,操作方法:点击【+】展开Net节点,点击各个软件包前的最新版本号列的Keep为版本号即为选中安装。其他软件包根据自己的需要选中是否安装即可,我这里还选中了Emacs、VIM、Perl、Python、Ruby、Science、subversion等常用工具。选择完软件包点击【下一步】,进入自动下载与安装,如下图:cygwin安装点击【下一步】进入向导结束页,勾选创建桌面快捷方式点击【完成即可】,如图:cygwin安装到这里,您已经完成了模拟Linux环境的安装,左键双击桌面上的图标打开这个模拟Linux的终端窗口输入几个常用Linux命令体验下这个模拟的Linux系统吧,除了可以执行Linux常用命令外,还可以执行Windows的命令例如:net start service_name等。体验完成后继续下面的配置工作。1.3配置Cygwin的SSH服务Cygwin安装完成后,需要先配置SSH服务,以满足Hadoop提出的SSH无密码登入,过程如下:打开模拟Linux的终端,进入Linux环境执行命令:ssh-host-config如图:Hadoop安装第一次询问:“Should privilege separation be used? (yes/no)”,输入no回车。第二次询问:“Do you want to install sshd a service?”,输入yes回车。第三次提示:“Enter the value of CYGWIN for the demon: []”,直接回车。第四次询问:“Do you want to use a different name? (yes/no)”,输入no回车。第五次提示:“Please enter the password for user ‘cyg_server’:”,输入密码回车,在此输入密码回车。最后提示配置完成。1.4启动SSH服务在Linux终端或Windows命令行执行net start sshd或命令cygrunsrv –S sshd启动SSH服务。测试ssh登入本机:在终端执行命令:ssh localhost提示输入密码:输入密码回车,如下图:Hadoop安装 1.5配置SSH免密码登入在终端执行命令:ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa生成秘钥。执行命令:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys生成认证文件。执行命令:ssh localhost测试是否无需输入密码即可登入。Hadoop安装1.6Cygwin使用积累1.6.1在cygwin里访问Windows盘cd /cygdrive/c1.6.2整合cygwin命令到Windows中假设cygwin安装在d:/develop/cygwin,则将d:/develop/cygwin/bin添加到系统变量PATH中(最好加在windows前面,这样的话,有些相同的命令的话,是先执行cygwin的命令,而不是windows命令,比如find)。添加完后就可以直接在cmd.exe下面执行tar czvf xxx.tgz ./基本上所有的命令都可以用了,包括ls,more,less,find,grep等。1.6.3使用TGZ备份将cygwin的BIN加入到PATH建一个BAT文件:@echo offd:cd d:/website/8thmanagetar czvf 8thmanage.tgz 8thmanage1.6.4Windows使用SHELL脚本将cygwin的BIN加入到PATH在$CYGWIN的目录/var/下面建一脚本t.sh,注意,t.sh里面的路径,都是相对于$CYGWIN的,里面需要访问C盘的,请用/cygdrive/c/在Windows下执行:d:/cygwin/bin/bash d:/cygwin/var/t.sh(可以定期执行)1.6.5同步Windows系统用户mkpasswd -l > /etc/passwdmkgroup -l > /etc/group如果有Domain的话,需要加上-d domainname1.6.6安装系统服务cygrunsrv1.6.7cygwing下使用rsync安装rsync组件进入cygwin,配置服务器vi /etc/rsyncd.conf…screts file=/etc/tom.ipaddr.pas配置文件,参考我写的另外一篇rsync的文章,注意:密码文件权限必须是0400chmod 0400 /etc/tom.ipaddr.pas启动服务端rsync –daemon客户端同步在客户端的cygwin下面,运行rsync同步,具体命令,请参考另外一篇rsync的文章。1.6.8cygwin下使用SSHD需要安装了cygrunsrc,openssh运行ssh-host-config -y一路回车,直到出现CYGWIN=时,输入tty ntsec,再回车,(或者,增加一系统环境变量CUGWIN=nesec tty)已经安装好SSHD服务到你的Windows服务中,可以直接在服务中启动,关闭。(cygrunsrc -S sshd或者net start sshd)1.6.9中文显示vi ~/.bashrc# 让ls和dir命令显示中文和颜色alias ls=’ls –show-control-chars –color’alias dir=’dir -N –color’# 设置为中文环境,使提示成为中文export LANG=”zh_CN.GBK”# 输出为中文编码export OUTPUT_CHARSET=”GBK”~/.inputrc为set completion-ignore-case onset meta-flag onset output-meta. onset convert-meta. offcygwin.bat脚本为:@echo offset MAKE_MODE=UNIX



  hadoop2.2.0已经是相对稳定的版本,而且已经不用以前的mapreduce,用hive或者pig latin就可以完成mapreduce任务。hadoop2.2.0也没有eclipse插件了,用jvm自带的远程连接调试,不过我没有用。
软件
前端设计
程序设计
Java相关