Hadoop2.2.0单节点安装及相关说明

本帖最后由 nettman 于 2014-2-24 01:16 编辑
Hadoop2.2.0与 Hadoop1.X对比
1.格式命令有什么区别？
2.start-dfs.sh是什么意思？
3.Hadoop2.2.0启动集群的命令是什么？

一：环境准备：
基于Windows下的VMware Player4.0.3中的ubuntu12.04-64server.

下载免费的VMware Player并安装好;
下载免费的Ubuntu 12.04 server版并在VMware中安装好；
下载可以查看下面帖子
Linux服务器版、桌面版及VMware workstation下载及操作指导

二：基础安装：

执行如下命令升级部分软件和把ssh安装好：
  (1) sudo apt-get update;

  (2) sudo apt-get upgrade;

  (3) sudo apt-get install openssh-server;

有两种方法可以安装Oracle JDK(本文采用第一种)。
方法一：通过webupd8team自动安装，执行命令如下：

(1) sudo apt-get install python-software-properties

(2) sudo add-apt-repository ppa:webupd8team/java

(3) sudo apt-get update

(4) sudo apt-get install oracle-java6-installer

方法二：手动安装JDK1.6

(1) 下载jdk1.6http://www.oracle.com/technetwor ... nloads-1859587.html，选择jdk-6u37-linux-x64.bin。

(2) 执行chmod +x jdk-6u37-linux-x64.bin增加可执行权限；

(3) ./ jdk-6u37-linux-x64.bin直接解压即可，建议放在/opt目录下。

(4) 然后将解压后的bin目录加入到PATH环境变量中即可。

创建hadoop用户。
(1) sudo addgroup hadoop

(2) sudo adduser --ingroup hadoop hduser

建立SSH信任关系，登录localhost就不需要密码
$ cd /home/hduser

$ ssh-keygen -t rsa -P "" #直接回车

$cat .ssh/id_rsa.pub >>.ssh/authorized_keys

      注：可通过ssh localhost命令验证。

对于这些命令不明白可以查看云技术基础：集群搭建SSH的作用及这些命令的含义

三：正式安装：

注：以下操作以hduser登录进行操作。

下载hadoop2.2版本。地址：http://apache.dataguru.cn/hadoop ... hadoop-2.2.0.tar.gz。
执行tar zxf hadoop-2.2.0.tar.gz解压至当前目录/home/hduser目录下。

为了方便记忆重命名

mv hadoop-2.2.0 hadoop
复制代码

四：配置hadoop:

编辑/home/hduser/hadoop/etc/hadoop/hadoop-env.sh

替换exportJAVA_HOME=${JAVA_HOME}为如下：

exportJAVA_HOME=/usr/lib/jvm/java-6-oracle
复制代码

//（路径为JDK的位置）

编辑/home/hduser/hadoop/etc/hadoop/core-site.xml，在<configuration>中添加如下：

<property>
复制代码

注意：配置了/home/hduser/hadoop/tmp/这个目录，必须执行mkdir /home/hduser/hadoop/tmp/创建它，否则后面运行会报错。

编辑/home/hduser/hadoop/etc/hadoop/mapred-site.xml：
(1) mv /home/hduser/hadoop/etc/hadoop/mapred-site.xml.template/home/hduser/hadoop/etc/hadoop/mapred-site.xml

(2) 在<configuration>中添加如下:

<property>
复制代码

编辑/home/hduser/hadoop/etc/hadoop/hdfs-site.xml，在<configuration>中添加如下：

<property>

<name>dfs.replication</name>

<value>1</value>

<description>Default block replication.

The actual number of replications can be specified when the file iscreated.

The default is used if replication is not specified in create time.

  </description>

</property>
复制代码

五：运行Hadoop

在初次运行Hadoop的时候需要初始化Hadoop文件系统，命令如下：

$cd /home/hduser/hadoop/bin

$./hdfs namenode -format
复制代码

如果执行成功，你会在日志中(倒数几行)找到如下成功的提示信息：

common.Storage: Storage directory/home/hduser/hadoop/tmp/hadoop-hduser/dfs/name has been successfully formatted.
复制代码

运行命令如下：

$cd /home/hduser/hadoop/sbin/

$./start-dfs.sh
复制代码

注：该过程需要多次输入密码, 如果不想多次输入密码，可先用ssh建立信任。

hduser@ubuntu:~/hadoop/sbin$ jps

4266 SecondaryNameNode

4116 DataNode

4002 NameNode
复制代码

注：用jps查看启动了三个进程。

$./start-yarn.sh

hduser@ubuntu:~/hadoop/sbin$ jps

4688 NodeManager

4266 SecondaryNameNode

4116 DataNode

4002 NameNode

4413 ResourceManager
复制代码

六：查看Hadoop资源管理器

http://192.168.128.129:8088/，将其中的192.168.128.129替换为你的实际IP地址。

七：测试Hadoop

cd /home/hduser

$wget http://www.gutenberg.org/cache/epub/20417/pg20417.txt

$cd hadoop

$ bin/hdfs dfs -mkdir /tmp

$ bin/hdfs dfs -copyFromLocal /home/hduser/pg20417.txt /tmp

bin/hdfs dfs -ls /tmp

$bin/hadoop jar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /tmp//tmp-output
复制代码

如果一切正常的话，会输入相应的结果，可以从屏幕输出看到。

八：停止Hadoop

若停止hadoop，依次运行如下命令：

$./stop-yarn.sh

$./stop-dfs.sh

图文精华

Hadoop2.2.0单节点安装及相关说明

推荐 /2