大数据-Hadoop学习笔记01

    xiaoxiao2021-03-25  94

    1.安装Hadoop前置条件:

    如果想搭建个人集群,硬件需要准备合适的PC机,软件需要JDK、Hadoop安装包,VMvare虚拟机安装包、以及linux系统安装包,下面分别对应下载路径 JDK(选择1.8):http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html Hadoop:http://hadoop.apache.org Ubuntu:http://www.ubuntu.org.cn/download 通过虚拟机安装多个Ubuntu操作网上有各种方法,可以按需求安装多个,也可以拷贝虚拟机,如果是拷贝的虚拟机因为是安全一样的系统所以需注意ip相关的配置。 ps:在虚拟机中,大多数时候并不需要桌面,更多的是命令行,愿意的话所以可以切换至命令行模式 ctrl  + alt + F6//文本模式 ctrl  + alt + F7//桌面模式

    2.Hadoop基本认识:

    2.1 什么是大数据: 体量大 样式多 速度快 价值密度低 1.数据规模:、海量数据,常以PB级以上数据作为基础 2.存储方式:分布式存储 3.计算方式:分布式计算 ps:(分布式是由分布在不同主机上的进程协同在一起,才能构成整个应用) 2.2 什么是Hadoop 可靠、可伸缩、分布式计算的开源软件 1.HDFS: 分布式文件存储框架(Hadoop distributed file system) 2.去IOE:      (IBM + Oracle + EMC) 3.MapReduce: MR//映射和化简,编程模型

    3.Hadoop的安装

    3.1:安装JDK a.复制并tar开 jdk-xx.tar.gz 到指定目录下,并创建符号链接 $>ln -s /soft/jdk-xxx jdk便于指定路径 b.配置环境变量JAVA_HOME以及PATH,这里可以将环境变量配置在某一用户目下(~/.bash_profile)或者配置在系统环境变量中Ubuntu下(/etc/enviroment),source   后通过 $>java -version检查是否安装成功 3.2:安装Hadoop a.复制并tar开hadoop-xx.tar.gz到指定目录下,创建符号链接$>ln -s /soft/hadoop-xx hadoop便于指定路径 b.配置环境变量HADOOP_HOME以及PATH(包括hadoop目录下的bin目录以及sbin目录),source后通过$>hadoop version检查是否安装成功    ps:以上安装如果source后环境变量不生效重启即可

    4.Hadoop模块

    4.1 common模块 支持其他模块的工具模块 4.2 HDFS模块 分布式文件系统,提供了对应用程序数据的高吞吐量访问 【进程】 NameNode:存放目录节点//名称节点 DataNode:存放数据节点//数据节点 SecondaryNamedoe:备份目录节点//辅助名称节点 4.3 Yarn模块 作业调度与集群资源管理框架 【进程】 ResourceManager//资源管理器 NodeManager//节点管理器 4.4 MapReduce 基于yarn系统的对大数据集进行并行处理技术

    5.配置Hadoop

    hadoop支持三种模式分别为: 1.独立/本地模式(不用配置,适用于开发以及测试环境) 独立模式下不会启动相关进程,hdfs目录即本地系统目录 2.伪分布式(和完全分布式很像,但是是单一节点) 【配置过程】目录:../hadoop/etc/hadoop/ a.core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020/</value> </property> b.hdfs-site.xml <property> <name>dfs.replication</name> <value>1</value> </property> c.mapred-site.xml (将template文件复制cp一份为mapred-site.xml) <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> d.yarn-site.xml <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> e.配置SSH无密安全登陆 1.下载ssh $>sudo apt-get install open-server 2.确认ssh是否启动 $>ps -ef | grep ssh,如果有sshd说明服务已启动否则执行 $>/etc/init.d/ssh restart 然后查看服务是否启动 3.生成公私密钥 $> ssh-keygen -t rsa 然后一直回车,此命令会在当前用户目录下生成公私密钥 id_rsa和id_rsa.pub,私钥自己保管,公钥需要添加在本地机    ~/.ssh/authorized_keys中,如果没有此文件可手动生成一个 $>echo id_rsa.pub >> authorized_keys,并且设置权限为600,$>chmod 600 authorized_keys   并将id_rsa.pub添加在需要登陆的其他机器的authorized_keys中,并且可以配置hosts文件 $>sudo vim /etc/hosts,在最后一行添加需要登陆机器的   ip hostname,这样可以通过dns解析,直接连接hostname即可。配置好后可以通过 $>ssh hostname 尝试登陆机器,输入yes后即可无密登录对应机器。 f.格式化hdfs $>hadoop namenode -format g.启动所有进程(包括上述5个进程) $>start-all.sh 并通过jps查看五个进程是否启动成功包括NM NN 2NN RM NM h.初始化创建hdfs目录 $>hadoop fs -mkdir -P /xx/xx ps:HDFS的端口号为8020,WebUI的端口为50070 3.完全分布式
    转载请注明原文地址: https://ju.6miu.com/read-16063.html

    最新回复(0)