HaDoop2.6下安装并配置Spark1.6.3

    xiaoxiao2021-03-25  127

    Spark是Hadoop MapReduce的通用并行框架,不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法;

    1.下载安装Scala

    1.1 到Scala官网下载想要的版本:

    1.2 下载后上传到安装目录下 使用:tar -zxvf scala-2.12.0.tgz 解压后的文件为:scala-2.12.0 1.3 添加环境变量 vi /etc/profile export SCALA_HOME=/opt/scala-2.12.0 export PATH=... :$SCALA_HOME/bin:$PATH 1.4 验证

    2.下载安装Spark

    2.1 到官网下载对应hadoop的版本,hadoop2.7及更新的版本对应spark2.0,hadoop2.7以下对应1.X.X

    2.2 下载后上传到安装目录 使用:`tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz` 解压后的文件为:`spark-1.6.3-bin-hadoop2.6` 2.3 配置spark-env.sh 进入到conf目录下:`cd /opt/spark-1.6.3-bin-hadoop2.6/conf` 复制spark-env.sh文件:`cp spark-env.sh.template spark-env.sh` 修改文件中的内容:`vi spark-env.sh` 在最后添加以下内容: export JAVA_HOME=/opt/jdk1.8.0_91 export HADOOP_HOME=/opt/hadoop-2.6.0 export SPARK_HOME=/opt/spark-1.6.3-bin-hadoop2.6 export SCALA_HOME=/opt/scala-2.12.0 export HADOOP_CONF_DIR=/opt/hadoop-2.6.0/etc/hadoop SPARK_LOCAL_IP=本机ip或主机名 SPARK_MASTER_IP=本机ip或主机名 SPARK_MASTER_WEBUI_PORT=8080 SPARK_WORKER_WEBUI_PORT=7070 SPARK_LOCAL_DIRS=$SPARK_HOME/local_dirs SPARK_WORKER_DIR=$SPARK_HOME/worker_dirs SPARK_LOG_DIR=$SPARK_HOME/log_dirs SPARK_WORKER_CORES=1 SPARK_WORKER_MEMORY=512M export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1" export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800" export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://crxy118:9000/historyserverforspark" 2.4 配置slaves 复制slaves文件:`cp slaves.template slaves` 修改slaves文件:`vi slaves` 将localhost更改为其他的主机名 2.5 配置spark-defaults.conf 复制spark-defaults.conf文件:`cp spark-defaults.conf.template spark-defaults.conf` 修改spark-defaults.conf:`vi spark-defaults.conf` 在后面添加: spark.eventLog.enabled true spark.eventLog.compress true spark.eventLog.dir hdfs://主机名:9000/historyserverforspark spark.broadcast.blockSize 8m spark.executor.cores 1 spark.executor.memory 512m spark.executor.heartbeatInterval 20s spark.files.fetchTimeout 120s spark.task.maxFailures 6 spark.serializer org.apache.spark.serializer.KryoSerializer spark.kryoserializer.buffer.max 256m spark.akka.frameSize 128 spark.default.parallelism 20 spark.network.timeout 300s spark.speculation true

    3.开启进程 进入到spark安装目录下 开启Master和Worker进程,使用命令:sbin/start-all.sh 开启HistoryServer进程,使用命令:sbin/start-history-server.sh 使用jps查看进程,会发现多出:Master、Worker、HistoryServer进程

    4. Web界面查看

    使用浏览器查看:主机名:8080

    使用浏览器查看:主机名:7070

    使用浏览器查看:主机名:18080

    转载请注明原文地址: https://ju.6miu.com/read-16508.html

    最新回复(0)