Build Apache Spark on Ubuntu

Spark安装@Ubuntu

Step1. JDK

Step2. Scala

Step3. Spark

Step1-3完成后，Spark已经可以使用了。

Step4. Scala 语言

在Spark主目录下运行:

./bin/spark-shell

不同的安装版本出来的结果不太一样：

有些自带sqlContext

有些需要自己设置sqlContext

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

Step5.Python语言

在Spark主目录下运行：

./bin/pyspark

import numpy和matplotlib发现并没有这两个包，需要自己安装。

$ sudo pip install numpy
$ sudo apt-get install python-matplotlib

Step1-5完成后，Spark已经完整可以使用了。

Step6. 启动Spark环境的IPython

用来更好对数据进行处理和可视化

先安装Ipython notebook

$ pip install ipython
$ pip install notebook

PySpark 的 IPython配置环境

成功啦！接下来，想要包含spark的ipython界面时：
```
$ ipython --profile=pyspark
```

Step7. 启动Spark环境的IPython Notebook

打开IPython Notebook:

$ ipython notebook --profile=pyspark 
或者 
$ jupyter notebook

并没有弄清楚如何可以将IPython Notebook直接变成Spark环境，因此，每次写之前，都要写加载Spark环境的代码（记得设置SPARK_HOME）：

import os
import sys

spark_home=os.environ.get('SPARK_HOME',None)
if not spark_home:
  raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.8.2.1-src.zip'))
execfile(os.path.join(spark_home,'python/pyspark/shell.py'))

#--------------Above : load PySpark environment---------------#

from pyspark import SparkContext
print(type(sc))

Build Apache Spark on Ubuntu

Build Apache Spark on Ubuntu

Spark安装@Ubuntu

Step1. JDK

Step2. Scala

Step3. Spark

Step4. Scala 语言

Step5.Python语言

Step6. 启动Spark环境的IPython

Step7. 启动Spark环境的IPython Notebook

results matching ""

No results matching ""