大数据-Hadoop学习笔记01

xiaoxiao2021-03-25 100

1.安装Hadoop前置条件：

如果想搭建个人集群，硬件需要准备合适的PC机，软件需要JDK、Hadoop安装包，VMvare虚拟机安装包、以及linux系统安装包，下面分别对应下载路径 JDK（选择1.8）：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html Hadoop：http://hadoop.apache.org Ubuntu：http://www.ubuntu.org.cn/download 通过虚拟机安装多个Ubuntu操作网上有各种方法，可以按需求安装多个，也可以拷贝虚拟机，如果是拷贝的虚拟机因为是安全一样的系统所以需注意ip相关的配置。 ps：在虚拟机中，大多数时候并不需要桌面，更多的是命令行，愿意的话所以可以切换至命令行模式 ctrl + alt + F6//文本模式 ctrl + alt + F7//桌面模式

2.Hadoop基本认识：

2.1 什么是大数据: 体量大样式多速度快价值密度低 1.数据规模：、海量数据，常以PB级以上数据作为基础 2.存储方式：分布式存储 3.计算方式：分布式计算 ps：（分布式是由分布在不同主机上的进程协同在一起，才能构成整个应用） 2.2 什么是Hadoop 可靠、可伸缩、分布式计算的开源软件 1.HDFS：分布式文件存储框架（Hadoop distributed file system） 2.去IOE：（IBM + Oracle + EMC） 3.MapReduce： MR//映射和化简，编程模型

3.Hadoop的安装

3.1:安装JDK a.复制并tar开 jdk-xx.tar.gz 到指定目录下，并创建符号链接 $>ln -s /soft/jdk-xxx jdk便于指定路径 b.配置环境变量JAVA_HOME以及PATH，这里可以将环境变量配置在某一用户目下（~/.bash_profile）或者配置在系统环境变量中Ubuntu下（/etc/enviroment），source 后通过 $>java -version检查是否安装成功 3.2:安装Hadoop a.复制并tar开hadoop-xx.tar.gz到指定目录下，创建符号链接$>ln -s /soft/hadoop-xx hadoop便于指定路径 b.配置环境变量HADOOP_HOME以及PATH（包括hadoop目录下的bin目录以及sbin目录），source后通过$>hadoop version检查是否安装成功 ps：以上安装如果source后环境变量不生效重启即可

4.Hadoop模块

4.1 common模块支持其他模块的工具模块 4.2 HDFS模块分布式文件系统，提供了对应用程序数据的高吞吐量访问【进程】 NameNode：存放目录节点//名称节点 DataNode：存放数据节点//数据节点 SecondaryNamedoe：备份目录节点//辅助名称节点 4.3 Yarn模块作业调度与集群资源管理框架【进程】 ResourceManager//资源管理器 NodeManager//节点管理器 4.4 MapReduce 基于yarn系统的对大数据集进行并行处理技术

5.配置Hadoop

hadoop支持三种模式分别为： 1.独立／本地模式（不用配置，适用于开发以及测试环境）独立模式下不会启动相关进程，hdfs目录即本地系统目录 2.伪分布式（和完全分布式很像，但是是单一节点）【配置过程】目录：../hadoop/etc/hadoop/ a.core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020/</value> </property> b.hdfs-site.xml <property> <name>dfs.replication</name> <value>1</value> </property> c.mapred-site.xml (将template文件复制cp一份为mapred-site.xml) <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> d.yarn-site.xml <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> e.配置SSH无密安全登陆 1.下载ssh $>sudo apt-get install open-server 2.确认ssh是否启动 $>ps -ef | grep ssh,如果有sshd说明服务已启动否则执行 $>/etc/init.d/ssh restart 然后查看服务是否启动 3.生成公私密钥 $> ssh-keygen -t rsa 然后一直回车，此命令会在当前用户目录下生成公私密钥 id_rsa和id_rsa.pub,私钥自己保管，公钥需要添加在本地机 ~/.ssh/authorized_keys中，如果没有此文件可手动生成一个 $>echo id_rsa.pub >> authorized_keys，并且设置权限为600，$>chmod 600 authorized_keys 并将id_rsa.pub添加在需要登陆的其他机器的authorized_keys中，并且可以配置hosts文件 $>sudo vim /etc/hosts,在最后一行添加需要登陆机器的 ip hostname，这样可以通过dns解析，直接连接hostname即可。配置好后可以通过 $>ssh hostname 尝试登陆机器，输入yes后即可无密登录对应机器。 f.格式化hdfs $>hadoop namenode -format g.启动所有进程（包括上述5个进程） $>start-all.sh 并通过jps查看五个进程是否启动成功包括NM NN 2NN RM NM h.初始化创建hdfs目录 $>hadoop fs -mkdir -P /xx/xx ps:HDFS的端口号为8020，WebUI的端口为50070 3.完全分布式

转载请注明原文地址: https://ju.6miu.com/read-16063.html

技术

最新回复(0)