ipython 集成 SPARK

xiaoxiao2025-04-04 12

ipython 集成 SPARK

Python 数据分析环境安装

python 数据分析环境安装前面已经单独写过博文，这里不再重复

Spark 环境安装

spark 下载页面，选择最新的 Spark 版本 2.0.0，使用包类型 Pre-built for Hadoop 2.7 and later，开始下载：

wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

安装：

tar xf spark-2.0.0-bin-hadoop2.7.tgz mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark

启动 pyspark 命令交互模式：

/usr/local/spark/bin/pyspark

就会看到一个类似于 python 命令交互模式的界面

在 /usr/local/spark 下：

bin 目录是可执行文件，pyspark 是 python 命令行支持，spark-shell 是 scala 命令行支持，sparkR 是 R 语言命令行支持sbin 是 Spark 系统脚本conf 目录是配置文件python 目录是 python 库，如果需要 Python 程序调用 Spark，需要将该目录导入到 Python 库搜索目录中R 目录是 R 语言库，与 Python 调用 Spark 类似，R 语言要调用 Spark 也需要将该库放到 R 语言库搜索目录中其它就不再赘述

以上即完成了一个单机版 Spark 环境的搭建

Ipython 使用 Spark

我使用的是 Ipython notebook 的环境，该环境为了系统安全，是启动在一个 notebook 账户下的。Ipython notebook 的配置和启动已经在 python 数据分析环境安装中介绍，这里重点介绍怎么在 Ipython notebook 中使用 Spark

在 notebook 环境中，添加环境变量：

export PYTHONPATH=/usr/local/spark/python:/usr/local/spark/python/lib export SPARK_HOME=/usr/local/spark

进入到 spark/python/lib 下，处理相应的依赖库：

cd /usr/local/spark/python/lib/ unzip py4j-0.10.1-src.zip unzip pyspark.zip

完成以上操作后，在 notebook 账户下重置环境变量并启动 ipython notebook，就可以使用 spark 了

转载请注明原文地址: https://ju.6miu.com/read-1297717.html

最新回复(0)