本次实验参考了官方文档如下:
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html
版本说明:
操作系统:rhel-linux-64
hadoop版本:hadoop-3.0.0-alpha1 下载地址:http://hadoop.apache.org/releases.html
Java版本:jdk 1.8 下载地址:https://www.java.com/en/download/manual.jsp#lin
伪分布式搭建(Hadoop的伪分布式就是可以运行在一个节点上但hadoop守护进程运行在每个独立的java进程中)
1、修改core-site.xml文件 hadoop-3.0.0-alpha1/etc/hadoop/core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> 2、修改hdfs-site.xml文件 hadoop-3.0.0-alpha1/etc/hadoop/ hdfs-site.xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> 3、设置ssh信任 [hadoop@test2 ~]$ ssh-keygen -t rsa [hadoop@test2 ~]$ cat .ssh/id_rsa.pub >> .ssh/authorized_keys [hadoop@test2 ~]$ cd .ssh [hadoop@test2 .ssh]$ chmod 0600 authorized_keys 无需密码既能返回日期即表示成功 [hadoop@test2 .ssh]$ ssh localhost date Fri Nov 18 10:17:14 CST 2016 4、格式化文件系统 [hadoop@test2 hadoop-3.0.0-alpha1]$ ./bin/hdfs namenode -format 5、启动NameNode和DataNode [hadoop@test2 hadoop-3.0.0-alpha1]$./sbin/start-dfs.sh 注:hadoop的日志写入到 $HADOOP_LOG_DIR 目录 (默认是 $HADOOP_LOG_DIR /logs)6、NameNode 的默认地址:http://localhost:9870/
(本次测试服务器的IP是192.168.56.59)
7、生成HDFS的目录以便执行MapReduce任务 [hadoop@test2 hadoop-3.0.0-alpha1]$./bin/hdfs dfs -mkdir /user [hadoop@test2 hadoop-3.0.0-alpha1]$./bin/hdfs dfs -mkdir /user/hadoopuser 8、把输入文件拷贝一份到分布式文件系统中 [hadoop@test2 hadoop-3.0.0-alpha1]$./bin/hdfs dfs -mkdir /user/hadoopuser/input [hadoop@test2 hadoop-3.0.0-alpha1]$./bin/hdfs dfs -put etc/hadoop/*.xml /user/hadoopuser/input 9、运行一些示例程序 [hadoop@test2 hadoop-3.0.0-alpha1]$./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha1.jar grep /user/hadoopuser/input output 'dfs[a-z.]+' 10、查看输出文件,将输出文件从分布式文件系统拷贝到本地然后查看 [hadoop@test2 hadoop-3.0.0-alpha1]$./bin/hdfs dfs -get output output [hadoop@test2 hadoop-3.0.0-alpha1]$ cat output/* 或者在分布式文件系统上查看输出文件 [hadoop@test2 hadoop-3.0.0-alpha1]$./bin/hdfs dfs -cat output/* 11、停止服务进程 [hadoop@test2 hadoop-3.0.0-alpha1]$ ./sbin/stop-dfs.sh
4、资源管理的默认地址:http://localhost:8088/
(本次测试服务器的IP是192.168.56.59)
5、关闭资源管理和节点管理 [hadoop@test2 hadoop-3.0.0-alpha1]$./sbin/stop-yarn.sh