Build Apache Spark on Ubuntu

Spark安装@Ubuntu

Step1. JDK

Step2. Scala

Step3. Spark

Step1-3完成后,Spark已经可以使用了。

Step4. Scala 语言

在Spark主目录下运行:

./bin/spark-shell

不同的安装版本出来的结果不太一样:

  • 有些自带sqlContext
  • 有些需要自己设置sqlContext
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    

Step5.Python语言

在Spark主目录下运行:

./bin/pyspark

import numpy和matplotlib发现并没有这两个包 ,需要自己安装。

$ sudo pip install numpy
$ sudo apt-get install python-matplotlib

Step1-5完成后,Spark已经完整可以使用了。

Step6. 启动Spark环境的IPython

用来更好对数据进行处理和可视化

  • 先安装Ipython notebook
    $ pip install ipython
    $ pip install notebook
    
  • PySpark 的 IPython配置环境

    成功啦!接下来,想要包含spark的ipython界面时:

    $ ipython --profile=pyspark
    

Step7. 启动Spark环境的IPython Notebook

  • 打开IPython Notebook:

    $ ipython notebook --profile=pyspark 
    或者 
    $ jupyter notebook
    
  • 并没有弄清楚如何可以将IPython Notebook直接变成Spark环境,因此,每次写之前,都要写加载Spark环境的代码(记得设置SPARK_HOME):

import os
import sys

spark_home=os.environ.get('SPARK_HOME',None)
if not spark_home:
  raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.8.2.1-src.zip'))
execfile(os.path.join(spark_home,'python/pyspark/shell.py'))

#--------------Above : load PySpark environment---------------#

from pyspark import SparkContext
print(type(sc))

results matching ""

    No results matching ""