Build Apache Spark on Ubuntu
Spark安装@Ubuntu
Step1. JDK
Step2. Scala
Step3. Spark
Step1-3完成后,Spark已经可以使用了。
Step4. Scala 语言
在Spark主目录下运行:
./bin/spark-shell
不同的安装版本出来的结果不太一样:
- 有些自带sqlContext
- 有些需要自己设置sqlContext
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
Step5.Python语言
在Spark主目录下运行:
./bin/pyspark
import numpy和matplotlib发现并没有这两个包 ,需要自己安装。
$ sudo pip install numpy
$ sudo apt-get install python-matplotlib
Step1-5完成后,Spark已经完整可以使用了。
Step6. 启动Spark环境的IPython
用来更好对数据进行处理和可视化
- 先安装Ipython notebook
$ pip install ipython $ pip install notebook
-
成功啦!接下来,想要包含spark的ipython界面时:
$ ipython --profile=pyspark
Step7. 启动Spark环境的IPython Notebook
打开IPython Notebook:
$ ipython notebook --profile=pyspark 或者 $ jupyter notebook
并没有弄清楚如何可以将IPython Notebook直接变成Spark环境,因此,每次写之前,都要写加载Spark环境的代码(记得设置SPARK_HOME):
import os
import sys
spark_home=os.environ.get('SPARK_HOME',None)
if not spark_home:
raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.8.2.1-src.zip'))
execfile(os.path.join(spark_home,'python/pyspark/shell.py'))
#--------------Above : load PySpark environment---------------#
from pyspark import SparkContext
print(type(sc))