UBUNTU环境安装hadoop集群

    xiaoxiao2021-03-25  85

    UBUNTU环境 ubuntu-16.10-desktop-amd64.iso 虚拟机使用VMWare 12.5.2,可以把窗口关闭后台运行,VirturelBox每一个虚拟机启动后都弹出来一个新窗口,有窗口干净强迫症的我实在受不了。 网络NAT模式,共享网络,处于独立网段,可以固定IP,不影响对外连接 下载最新的安装程序,我当前版本 jdk-8u121-linux-x64.tar.gz hadoop-2.7.3.tar.gz 1.定义主机,修改HOST文件 #为了防止主机名识别错误导致的问题,建议把默认的内容全部删除 $ sudo vi /etc/hosts 192.168.254.130 master 192.168.254.131 slave1 192.168.254.132 slave2 192.168.254.133 slave3 2、修改操作系统限制 #为了防止大并发的时候导致进程和打开文件数超出而出的问题,建议值改大一点,最大65536 $vi /etc/security/limits.conf hadoop soft nofile 65536 hadoop hard nofile 65536 hadoop soft nproc 16384 hadoop hard nproc 16384 2.创建用户 $ sudo mkdir -p /data/hadoop $ sudo groupadd hadoop $ sudo useradd hadoop -d /data/hadoop -g hadoop $ sudo chown -R hadoop:hadoop /data/hadoop/ $ sudo passwd hadoop 3安装SSH(默认不安装) $ sudo apt-get install openssh-server $ ps -ef|grep sshd 配置无密码登陆 $ ssh-keygen -t rsa   #遇到提示一路回车,四台机器都做    ①在master上将公钥放到authorized_keys里。命令: $ cat id_rsa.pub  >authorized_keys    ②将master上的authorized_keys放到其他linux的~/.ssh目录下。(只需要把master的公钥分发出去即可)         命令:   scp authorized_keys 远程主机用户名@远程主机名或ip:存放路径。                         $ scp authorized_keys hadoop@slave1:~/.ssh             $ scp authorized_keys hadoop@slave2:~/.ssh             $ scp authorized_keys hadoop@slave3:~/.ssh     ③修改authorized_keys权限,命令: $chmod 644 authorized_keys    ④测试是否成功    #没有提示密码,而直接进入,说明成功,每个都试一下,第一次会反一个确认信息,如果不确认,后后面启动的时候也会提示某个host认证失败       $ ssh hadoop@localhost       $ ssh hadoop@master       $ ssh hadoop@slave1       $ ssh hadoop@slave2       $ ssh hadoop@slave3 4配置环境 安装JDK $ scp jdk-8u121-linux-x64.tar.gz hadoop@slave1:/data/hadoop/ $ scp jdk-8u121-linux-x64.tar.gz hadoop@slave2:/data/hadoop/ $ scp jdk-8u121-linux-x64.tar.gz hadoop@slave3:/data/hadoop/ $ tar -zxvf jdk-8u121-linux-x64.tar.gz $ scp hadoop-2.7.3.tar.gz hadoop@slave1:/data/hadoop/ $ scp hadoop-2.7.3.tar.gz hadoop@slave2:/data/hadoop/ $ scp hadoop-2.7.3.tar.gz hadoop@slave3:/data/hadoop/ 配置环境变量 $ vi .profile # ~/.profile: executed by the command interpreter for login shells. # This file is not read by bash(1), if ~/.bash_profile or ~/.bash_login # exists. # see /usr/share/doc/bash/examples/startup-files for examples. # the files are located in the bash-doc package. # the default umask is set in /etc/profile; for setting the umask # for ssh logins, install and configure the libpam-umask package. #umask 022 # if running bash if [ -n "$BASH_VERSION" ]; then     # include .bashrc if it exists     if [ -f "$HOME/.bashrc" ]; then         . "$HOME/.bashrc"     fi fi # set PATH so it includes user's private bin directories JAVA_HOME=/data/hadoop/jdk1.8.0_121 export JAVA_HOME HADOOP_HOME=/data/hadoop/hadoop-2.7.3 export HADOOP_HOME PATH="$HADOOP_HOME/bin:$JAVA_HOME/bin:$HOME/bin:$HOME/.local/bin:$PATH" export PATH $ chmod 644 .profile $source   ./.profile $ java -version 5修改hadoop配置 配置文件基本都在~/hadoop-2.7.2/etc/hadoop hadoop-env.sh     export JAVA_HOME=${JAVA_HOME}   #环境变量如果有配置JAVA_HOME,省略此过程,建议再配置一下 core-site.xml <configuration>     <!-- 指定HDFS老大(namenode)的通信地址 -->     <property>         <name>fs.defaultFS</name>         <value>hdfs://master:9000</value>     </property>     <!-- 指定hadoop运行时产生文件的存储路径 -->     <property>         <name>hadoop.tmp.dir</name>         <value>/data/hadoop/hadoop-2.7.3/tmp</value>     </property> </configuration> hdfs-site.xml     <!-- 设置namenode的http通讯地址 -->     <property>         <name>dfs.namenode.http-address</name>         <value>master:50070</value>     </property>     <!-- 设置secondarynamenode的http通讯地址,只需要配置一个,当主节点死了,自动转到从节点上,如果不配置就只有一个节点(可以不配置) -->     <property>             <name>dfs.namenode.secondary.http-address</name>             <value>slave1:50090</value>     </property>     <!-- 设置hdfs副本数量 -->     <property>         <name>dfs.replication</name>         <value>1</value>     </property>     <!-- 设置namenode存放的路径 -->     <property>         <name>dfs.namenode.name.dir</name>         <value>file:///data/hadoop/hadoop-2.7.3/name</value>     </property>     <!-- 设置datanode存放的路径 -->     <property>         <name>dfs.datanode.data.dir</name>         <value>file:///data/hadoop/hadoop-2.7.3/data</value>     </property> </configuration> mapred-site.xml 必须先 $mv mapred-site.xml.template mapred-site.xml <configuration>     <!-- 通知框架MR使用YARN -->     <property>         <name>mapreduce.framework.name</name>         <value>yarn</value>     </property> </configuration> yarn-site.xml <configuration>     <!-- 设置 resourcemanager 在哪个节点-->     <property>         <name>yarn.resourcemanager.hostname</name>         <value>master</value>     </property>     <!-- reducer取数据的方式是mapreduce_shuffle -->     <property>         <name>yarn.nodemanager.aux-services</name>         <value>mapreduce_shuffle</value>     </property>     <property>          <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>          <value>org.apache.hadoop.mapred.ShuffleHandler</value>     </property> </configuration> 配置第二主节点(默认没有)    新建一个masters的文件,这里指定的是secondary namenode 的主机 #vi masters

           slave1

    配置从节点(仅master节点) #vi slaves      slave1      slave2      slave3 分发配置文件 $scp core-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp core-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp core-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp hdfs-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp hdfs-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp hdfs-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp mapred-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp mapred-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp mapred-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp yarn-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp yarn-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/ $scp yarn-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/ 启动(只需要操作主节点) $ cd $HADOOP_HOME $ mkdir name data tmp                  #创建必要的数据目录 $./bin/hdfs namenode -format   #格式化namenode $./sbin/start-dfs.sh                        #启动DFS                     $./sbin/start-yarn.sh                      #启动yarn              查看服务状态 $jps 通过浏览器测试hdfs: http://192.168.254.130:50070 http://192.168.254.131:50090
    转载请注明原文地址: https://ju.6miu.com/read-22919.html

    最新回复(0)