转载

【每日一博】Apache Hadoop 2.6.0 安装部署

注：本文档参考官方文档编写,原文链接： http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html

1.硬件环境

共有 3 台机器,均使用的 linux 系统,Java 使用的是 jdk1.6.0。配置如下:

hadoop1.example.com:172.20.115.1(NameNode)

hadoop2.example.com:172.20.1152(DataNode)

hadoop3.example.com:172.115.20.3 (DataNode)

hadoop4.example.com:172.20.115.4

主机与IP之间有正确解析

对于 Hadoop 来说,在 HDFS 看来,节点分为 Namenode 和 Datanode,其中Namenode 只有一个, Datanode 可以是很多;在 MapReduce 看来,节点又分为Jobtracker 和 Tasktracker,其

中 Jobtracker 只有一个,Tasktracker 可以是很多。我是将 namenode 和 jobtracker 部署在 hadoop1 上, hadoop2, hadoop3 作为 datanode和 tasktracker 。当然你也可以将

namenode ,datanode ,jobtracker,tasktracker 全部部署在一台机器上（这样就是伪分布式）。

2.目录结构

由于 Hadoop 要求所有机器上 hadoop 的部署目录结构要相同,并且都有一个相同的用户名的帐户。

我的三台机器上是这样的 : 都有一个 hadoop 的帐户 , 主目录是/home/hadoop。

添加用户hadoop

#useradd -u 800 hadoop

#passwd hadoop 给用户hadoop创建密码

下载hadoop-2.6.0.tar.gz

解压 #tar zxf hadoop-2.6.0.tar.gz

#mv hadoop-2.6.0/ /home/hadoop/

#cd /home/hadoop

#ln -s hadoop-2.6.0/ hadoop

切到hadoop用户 #su - hadoop

下载jdk-6u32-linux-x64.bin到家目录下

$sh jdk-6u32-linux-x64.bin

$cd /home/hadoop/

$mv jdk1.6.0_32 hadoop-1.2.1/

$cd hadoop-2.6.0/

创建软链接，以便与日后的更新、升级

$ln -s jdk1.6.0_32 jdk

再次切换到root

#chown -R hadoop.hadoop hadoop-2.6.0/

3.SSH设置

在 Hadoop 启动以后,Namenode 是通过 SSH(Secure Shell)来启动和停止各个节点上的各种守护进程的,这就需要在节点之间执行指令的时候是不需要输入密码的方式,故我们需要配置 SSH 使用无密码公钥认证的方式。

首先要保证每台机器上都装了 SSH 服务器,且都正常启动。实际中我们用的都是 OpenSSH,这是 SSH 协议的一个免费开源实现。

以本文中的 3 台机器为例,现在 hadoop1 是主节点,它需要主动发起 SSH连接到 hadoop2 ,对于 SSH 服务来说, hadoop1 就是 SSH 客户端,而hadoop2,hadoop3 则是 SSH 服务端,因此在 hadoop2,hadoop3 上需要确定 sshd 服务已经启动。简单的说,在 hadoop1 上需要生成一个密钥对,即一个私钥,一个公钥。将公钥拷贝到 hadoop2 上,这样,比如当 hadoop1 向 hadoop2 发起 ssh 连接的时候,hadoop2 上就会生成一个随机数并用 hadoop1 的公钥对这个随机数进行加密并发送给 hadoop1,hadoop1 收到这个加密的数以后用私钥进行解密,并将解密后的数发送回hadoop2,hadoop2 确认解密的数无误后就允许 hadoop1 进行连接了。这就完成了一次公钥认证过程。

对于本文中的 3 台机器,首先在 hadoop1 上生成密钥对:

#su - hadoop

$ssh-keygen

这个命令将为 hadoop1 上的用户 hadoop 生成其密钥对。生成的密钥对id_rsa,id_rsa.pub,在/home/hadoop/.ssh 目录下。

$ssh-copy-id localhost

$ssh-copy-id 172.20.115.2

$ssh-copy-id 172.20.115.3

发布密钥到你本地和hadoop2、hadoop3

试着登录本地和hadoop2、hadoop3看是否有密码验证，无密码即验证成功

4.环境变量（此版本中的配置目录发生很大变化，大家要注意哦！）

在 /home/hadoop/hadoop-2.6.0/etc/hadoop/ 目录下的 hadoop-env.sh 中设置Hadoop 需要的环境变量 , 其中 JAVA_HOME 是必须设定的变量。

HADOOP_HOME 变量可以设定也可以不设定,如果不设定, HADOOP_HOME默认的是 bin 目录的父目录,即本文中的/home/hadoop/hadoop。

vim /home/hadoop/hadoop-2.6.0/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/home/hadoop/hadoop/jdk(大概在第25行)

先进行简单测试：
$cd /home/hadoop/hadoop/
$mkdir input
$cp /etc/hadoop/* input/
$bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
$cd output
$cat *
统计文件中的单词：
$bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount input test
$cd test/
$cat *
5.hadoop配置文件
$cd /home/hadoop/hadoop/etc/hadoop/
配置HDFS

/core-site.xml:

configuration>      <property>          <name>fs.default.name</name>          <value>hdfs://hadoop1.example.com:9000</value>      </property></configuration>

/hdfs-site.xml:

<configuration>      <property>          <name>dfs.replication</name>          <value>1</value>      </property></configuration>

伪分布式测试：

$mkdir /home/hadoop/bin

$ln -s /home/hadoop/hadoop/jdk/bin/jps /home/hadoop/bin/

$cd /home/hadoop/hadoop/

$sbin/hdfs namenode -format 先进行初始化

$sbin/start-dfs.sh

The hadoop daemon log output is written to the $HADOOP_LOG_DIR directory (defaults to $HADOOP_HOME/logs).(写入到日志文件)

web测试http://172.20.115.1：50070/

$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/<username>

$bin/hdfs dfs -put etc/hadoop input

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'

$ bin/hdfs dfs -get output output

$ cat output/*

配置YARN

cd /home/hadoop/hadoop/

etc/hadoop/mapred-site.xml:

<configuration>     <property>         <name>mapreduce.framework.name</name>         <value>yarn</value>     </property> </configuration>

etc/hadoop/yarn-site.xml:

<configuration>     <property>         <name>yarn.nodemanager.aux-services</name>         <value>mapreduce_shuffle</value>     </property> </configuration>

Start ResourceManager daemon and NodeManager daemon:
$ sbin/start-yarn.sh
访问：http：//172.20.115.1：8088

【每日一博】Apache Hadoop 2.6.0 安装部署

如果达到这种效果就说明你已经成功部署伪分布式

6.部署Hadoop集群

前面讲的这么多 Hadoop 的环境变量和配置文件都是在 hadoop1 这台机器上的,现在需要将 hadoop 部署到其他的机器上,保证目录结构一致。

$scp -r /home/hadoop/hadoop hadoop2.example.com:/home/hadoop/

$scp -r /home/hadoop/hadoop hadoop3.example.com:/home/hadoop/

$scp -r .ssh/ hadoop2.example.com:

$scp -r .ssh/ hadoop3.example.com:

注意还要修改以下文件：

$cd /home/hadoop/hadoop/etc/hadoop

/masters

hadoop1.example.com

/slaves

hadoop2.example.com

hadoop3.example.com

$ln -s hadoop-1.2.1/ hadoop

$mkdir /home/hadoop/bin

$ln -s /home/hadoop/hadoop/jdk/bin/jps /home/hadoop/bin

至此,可以说,Hadoop 已经在各个机器上部署完毕了,下面就让我们开始启动 Hadoop 吧。

7. 启动 Hadoop

启动之前,我们先要格式化 namenode,先进入~/hadoop/目录,执行下面的命令:

$bin/hadoop namenode –format

不出意外,应该会提示格式化成功。如果不成功,就去 hadoop/logs/目录下去查看日志文件。

下面就该正式启动 hadoop 啦,在 sbin/下面有很多启动脚本,可以根据自己的需要来启动。

* start-all.sh 启动所有的 Hadoop 守护。包括 namenode, datanode, jobtracker,tasktrack

* stop-all.sh 停止所有的 Hadoop

* start-mapred.sh 启动 Map/Reduce 守护。包括 Jobtracker 和 Tasktrack

* stop-mapred.sh 停止 Map/Reduce 守护

* start-dfs.sh 启动 Hadoop DFS 守护.Namenode 和 Datanode
* stop-dfs.sh 停止 DFS 守护
在这里,简单启动所有守护:
[hadoop@hadoop1:hadoop]$sbin/start-all.sh
$jps
查看JobTracker，Jps，SecondaryNameNode，NameNode是否启动成功。
同样,如果要停止 hadoop,则
[hadoop@hadoop1:hadoop]$sbin/stop-all.sh
8. HDFS 操作
运行 sbin/目录的 hadoop 命令,可以查看 Haoop 所有支持的操作及其用法,这里以几个简单的操作为例。
建立目录:
[hadoop@hadoop1 hadoop]$sbin/hadoop dfs -mkdir testdir
在 HDFS 中建立一个名为 testdir 的目录,复制文件:
[hadoop@hadoop1 hadoop]$sbin/hadoop dfs -put /home/large.zip testfile.zip
把本地文件 large.zip 拷贝到 HDFS 的根目录 /user/hadoop/ 下 , 文件名为testfile.zip,查看现有文件：
[hadoop@hadoop1 hadoop]$sbin/hadoop dfs -ls
9.hadoop 在线更新节点:
新增节点：
1）. 在新增节点上安装 jdk,并创建相同的 hadoop 用户,uid 等保持一致
2）. 在 conf/slaves 文件中添加新增节点的 ip
3）. 同步 master 上 hadoop 所有数据到新增节点上,路径保持一致
4）. 在新增节点上启动服务:
$ sbin/hadoop-daemon.sh start datanode
$ sbin/hadoop-daemon.sh start tasktracker
5）. 均衡数据:
$ sbin/start-balancer.sh
（1)如果不执行均衡,那么 cluster 会把新的数据都存放在新的 datanode 上,这样会降低 mapred的工作效率
（2)设置平衡阈值,默认是 10%,值越低各节点越平衡,但消耗时间也更长
$ sbin/start-balancer.sh -threshold 5
在线删除datanode节点:
1）. 在 master 上修改/mapred-site.xml

<property>   <name>dfs.hosts.exclude</name>  <value>/home/hadoop/hadoop-1.2.1//datanode-excludes</value>  </property>

2）. 创建 datanode-excludes 文件,并添加需要删除的主机,一行一个
172.20.115.4
3）. 在 master 上在线刷新节点
$ sbin/hadoop dfsadmin -refreshNodes
此操作会在后台迁移数据,等此节点的状态显示为 Decommissioned,就可以安全关闭了。
4）. 你可以通过以下命令查看 datanode 状态
$ sbin/hadoop dfsadmin -report
在做数据迁移时,此节点不要参与 tasktracker,否则会出现异常。
在线删除tasktracker 节点:
1）. 在 master 上修改/mapred-site.xml

<property>  <name>mapred.hosts.exclude</name>  <value>/home/hadoop/hadoop-1.2.1/etc/hadoop/tasktracker-excludes</value>  </property>

2. 创建 tasktracker-excludes 文件,并添加需要删除的主机名,一行一个
hadoop4.example.com
3. 在 master 上在线刷新节点
$ sbin/hadoop mradmin -refreshNodes
4. 登录 jobtracker 的网络接口,进行查看。
--@leeypp.foxmail.com

正文到此结束