vlambda博客
学习文章列表

Spark python安装【完全步骤】

首先,Spark python开发环境搭建的准备工作:

Win10 64位专业版

Anaconda3

Java 8 64位

Spark基于Hadoop 2.7 64位


下载和准备介质:

  1. 安装与配置Anaconda https://www.anaconda.com/products/individual

  2. 安装与配置Java https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

  3. 安装与配置Spark https://spark.apache.org/downloads.html

  4. 安装与配置Hadoop依赖 https://spark.apache.org/downloads.html

  5. 测试spark .\bin\spark-shell  .\bin\pyspark

步骤截图:

1. 安装Anaconda,此步骤一般来说不会有任何问题,就像你安装其他电脑软件一样,下一步下一步,中间【记得勾选Add anaconda to the system PATH envrionment variables:】

2. 安装和配置JAVA,这个同上一步,一步步安装完后,记得配置环境变量:

首先,配置JAVA_HOME,在环境变量中新增系统变量JAVA_HOME,其值为JDK的安装目录:

Spark python安装【完全步骤】

其次,配置CLASSPATH,在系统变量中新增CLASSPATH,其值为".%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar" 【注意前面有个小圆点】

Spark python安装【完全步骤】

以上步骤完成后,JAVA就安装好了,请在CLI(Command Line Interface)即Win+R运行中,输入CMD,再输入 java -version

Spark python安装【完全步骤】

3. 安装和配置spark

下载好基于hadoop 2.7预编译的程序包,spark程序不需要安装,解压后即可直接使用,解压后复制到指定的文件夹,一般为放程序的文件夹,【注意】文件夹名中不可以有空格:

Spark python安装【完全步骤】

环境变量:新增SPARK_HOME,其值为spark程序的文件路径,例如我们上面的截图是C:\spark

Spark python安装【完全步骤】

接着将"%SPARK_HOME%\bin" "%SPARK_HOME%\sbin" 加入到PATH系统变量中:

Spark python安装【完全步骤】

接着配置日志显示级别,操作方法:复制spark\conf文件夹下的log4j.properties.template 为log4j.properties,即去掉template后缀,将root用户的日志级别设置为WARN


Spark python安装【完全步骤】

So far so Good?

4. 安装和配置Hadoop:

根据url下载https://github.com/LemenChao/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64

然后解压到自己创建的hadoop文件夹里:

Spark python安装【完全步骤】

配置环境变量 HADOOP_HOME,新增HADOOP_HOME,其值为HADOOP文件所在目录:以上面的例子即C:\Program Files\hadoop

接着,将"%HADOOP_HOME%\bin"添加到PATH的系统变量里

5 测试:

在cmd中敲入spark-shell以及pyspark会分别得到如下两个截图的样子,即为ok,

或者敲入cd %SPARK_HOME%

再 .\bin\spark-shell


至此,应该无误。