HaDoop2.6下安装并配置Spark1.6.3

xiaoxiao2021-03-25 133

Spark是Hadoop MapReduce的通用并行框架，不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法；

1.下载安装Scala

1.1 到Scala官网下载想要的版本：

1.2 下载后上传到安装目录下使用：tar -zxvf scala-2.12.0.tgz 解压后的文件为：scala-2.12.0 1.3 添加环境变量 vi /etc/profile export SCALA_HOME=/opt/scala-2.12.0 export PATH=... :$SCALA_HOME/bin:$PATH 1.4 验证

2.下载安装Spark

2.1 到官网下载对应hadoop的版本，hadoop2.7及更新的版本对应spark2.0,hadoop2.7以下对应1.X.X

2.2 下载后上传到安装目录使用：`tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz` 解压后的文件为：`spark-1.6.3-bin-hadoop2.6` 2.3 配置spark-env.sh 进入到conf目录下：`cd /opt/spark-1.6.3-bin-hadoop2.6/conf` 复制spark-env.sh文件：`cp spark-env.sh.template spark-env.sh` 修改文件中的内容：`vi spark-env.sh` 在最后添加以下内容： export JAVA_HOME=/opt/jdk1.8.0_91 export HADOOP_HOME=/opt/hadoop-2.6.0 export SPARK_HOME=/opt/spark-1.6.3-bin-hadoop2.6 export SCALA_HOME=/opt/scala-2.12.0 export HADOOP_CONF_DIR=/opt/hadoop-2.6.0/etc/hadoop SPARK_LOCAL_IP=本机ip或主机名 SPARK_MASTER_IP=本机ip或主机名 SPARK_MASTER_WEBUI_PORT=8080 SPARK_WORKER_WEBUI_PORT=7070 SPARK_LOCAL_DIRS=$SPARK_HOME/local_dirs SPARK_WORKER_DIR=$SPARK_HOME/worker_dirs SPARK_LOG_DIR=$SPARK_HOME/log_dirs SPARK_WORKER_CORES=1 SPARK_WORKER_MEMORY=512M export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1" export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800" export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://crxy118:9000/historyserverforspark" 2.4 配置slaves 复制slaves文件：`cp slaves.template slaves` 修改slaves文件：`vi slaves` 将localhost更改为其他的主机名 2.5 配置spark-defaults.conf 复制spark-defaults.conf文件：`cp spark-defaults.conf.template spark-defaults.conf` 修改spark-defaults.conf：`vi spark-defaults.conf` 在后面添加： spark.eventLog.enabled true spark.eventLog.compress true spark.eventLog.dir hdfs://主机名:9000/historyserverforspark spark.broadcast.blockSize 8m spark.executor.cores 1 spark.executor.memory 512m spark.executor.heartbeatInterval 20s spark.files.fetchTimeout 120s spark.task.maxFailures 6 spark.serializer org.apache.spark.serializer.KryoSerializer spark.kryoserializer.buffer.max 256m spark.akka.frameSize 128 spark.default.parallelism 20 spark.network.timeout 300s spark.speculation true

3.开启进程进入到spark安装目录下开启Master和Worker进程，使用命令：sbin/start-all.sh 开启HistoryServer进程，使用命令：sbin/start-history-server.sh 使用jps查看进程，会发现多出：Master、Worker、HistoryServer进程

4. Web界面查看

使用浏览器查看：主机名：8080

使用浏览器查看：主机名：7070

使用浏览器查看：主机名：18080

转载请注明原文地址: https://ju.6miu.com/read-16508.html

技术

最新回复(0)