Hadoop入门（1）——单机配置

xiaoxiao2021-04-11 35

流程

1，安装JDK 2，设置SSH无密码登录 3，Hadoop的下载安装和环境变量配置 4，Hadoop配置文件的设置 5，启动Hadoop 6，浏览Hadoop Web页面

PS:所有操作在Linux-Ubuntu 14.04 64bit系统云服务器下完成

安装JDK

1，下载JDK的压缩包，复制到要放置的位置

可以在windows电脑上下载好然后使用WinSCP从Wndows计算机上传到服务器上，或者在Linux上使用wget命令获取

wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u111-b14/jdk-8u111-linux-x64.tar.gz

2 ，解压JDK

我将JDK安装在/usr/java/目录下：

cd /usr/ mkdir java mv ***JDK安装包所在路径***/jdk-8u111-linux-x64.tar.gz /usr/java cd java/ tar -zxvf jdk-80111-linux-x64.tar.gz

/usr目录下会产生jdk-1.8.0.111的文件夹。

我习惯于不要版本号，比较方便,因此对其重命名，这一步可省略

mv jdk-1.8.0.111 jdk

3 ，设置Java环境变量：

使用VIM编辑环境变量，VIM操作在这里不说了，不会的需要查一下。

vim /etc/profile

在文件尾加入：

JAVA_HOME=jdk文件夹所在位置/jdk1.8.0_101 PATH=$JAVA_HOME/bin:$PATH:. CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME PATH CLASSPATH

保存并关闭，在终端输入source /etc/profile刷新配置表。

4，验证JDK安装成功

在终端输入Java -version，如果打印出版本信息，说明JDK安装成功。

设置SSH免密码登录

首先说明Linux远程控制使用ssh，命令格式如下：

ssh username@hostIP

如果不设置免密码设置，输入这条命令后需要输入密码验证。

连接localhost同样需要验证。

1，尝试ssh连接localhost ssh localhost 如果本机没有ssh，先按提示安装ssh,记得是sudo apt-get install openssh-server

初始情况，ssh连接localhost会要求输入密码，我们需要设置免密码，这一步非常重要，因为Hadoop集群相互之间通信不可能每次都要输入密码，因此要设置彼此间的免密码通信，这样才能发挥出分布式存储计算的优势。

PS：如果使用Ubuntu用户版而不是服务器系统的话，在这一步可能遇到的问题是ssh链接失败，Permission Denied，密码明明正确却登陆不上。这是因为ssh默认设置不允许root用户登陆localhost，解决方式如下：

进入root权限

修改ssh配置

vim /etc/ssh/sshd_config

找到如下一段：

# Authentication: LoginGraceTime 120 PermitRootLogin yes StrictModes yes

默认情况下PermitRooLogin不是yes，改成yes，保存退出。

重启ssh服务

/etc/init.d/ssh restart

重试ssh

ssh localhost

这时应该可以连接了。

2，设置免密码登录：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

三句指令的意思：第一句是生成本机的秘钥；第二步是将生成的秘钥传递到本机秘钥管理的文件夹下，如果是跨主机设置免密码通信，就要将秘钥文件传到目标主机的对应目录下；第三步，是对该秘钥授权，如果是跨主机则在目标主机进行操作

3，验证再次键入ssh localhost，如果能够直接进入，说明配置成功。

Hadoop的下载安装和环境变量配置

1，下载安装Hadoop 到Hadoop官网http://hadoop.apache.org/选择想用版本的Hadoop安装包(目前的最新稳定版是2.7.3)，Ubuntu64bit操作系统选择.tar.gz后缀的压缩包。使用winscp上传到服务器，移动到想要放的位置，我存放在了/opt/目录下，解压缩：

tar zxvf hadoop-2.7.3.tar.gz

依然，按照我的习惯，去掉版本号：

mv hadoop-2.7.3 hadoop

就算安装好了

2，环境变量设置：

vim /etc/profile

文件尾键入

export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar

键入source /etc/profile更新环境变量在任意目录下键入hadoop，会出现hadoop命令相关提示，说明设置成功。

Hadoop配置文件的设置

我们要修改的文件都在hadoop安装目录下的etc目录下。

1,编辑hadoop-env.sh

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

修改JAVA_HOME，原本文本中是：

export JAVE_HOME=${JAVA_HOME}

修改为：

export JAVA_HOME=/usr/java/jdk

2,修改core-site.xml

vim $HADOOP_HOME/etc/hadoop/core-site.xml

在configuration键值对中添加新内容，结果如下：

<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>

3,设置yarn-site.xml

vim $HADOOP_HOME/etc/hadoop/yarn-site.xml

在configuration键值对中添加新内容，结果如下：

<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>

3,修改hdfs-site.xml

vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml

在configuration键值对中添加新内容，结果如下：

<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/opt/hadoop/hadoop_data/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/opt/hadoop/hadoop_data/hdfs/datanode</value> </property> </configuration>

三个属性分别设置Blocks备份的份数，Namenode数据存储目录和DataNode数据存储目录，可以自行修改，目录需要新建

mkdir $HADOOP_HOME/hadoop_data/hdfs/namenode mkdir $HADOOP_HOME/hadoop_data/hdfs/datanode

4，编辑mapred-site.xml

这个文件没有现成的，但有一个模板文件mapred-site.xml.template，复制一份

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

修改如下：

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>

设置mapreduce的框架是yarn。

四个配置文件分别针对hadoop核心core和hadoop的三大组件：yarn，hdfs和mapreduce

启动Hadoop

首先进行格式化：

hadoop namenode -format

启动hdfs

sh $HADOOP_HOME/sbin/start-dfs.sh

启动Yarn

sh $HADOOP_HOME/sbin/start-yarn.sh

或者两个同时启动：

sh $HADOOP_HOME/sbin/start-all.sh

在终端可以看到一个个组件启动起来。

Hadoop Web界面

启动起来Hadoop之后，可以通过网页端浏览管理hadoop

地址是：

Resource Manager

http://localhost:8088

NameNode:

http://localhost:50070

细节不表，至此Hadoop单机配置成功完成。

转载请注明原文地址: https://ju.6miu.com/read-666415.html

技术

最新回复(0)