Spark python安装【完全步骤】_vlambda技术博客

vlambda
2020-12-16

Spark python安装【完全步骤】

首先，Spark python开发环境搭建的准备工作：

Win10 64位专业版

Anaconda3

Java 8 64位

Spark基于Hadoop 2.7 64位

下载和准备介质：

安装与配置Anaconda https://www.anaconda.com/products/individual
安装与配置Java https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
安装与配置Spark https://spark.apache.org/downloads.html
安装与配置Hadoop依赖 https://spark.apache.org/downloads.html
测试spark .\bin\spark-shell .\bin\pyspark

步骤截图：

1. 安装Anaconda，此步骤一般来说不会有任何问题，就像你安装其他电脑软件一样，下一步下一步，中间【记得勾选Add anaconda to the system PATH envrionment variables:】

2. 安装和配置JAVA，这个同上一步，一步步安装完后，记得配置环境变量：

首先，配置JAVA_HOME，在环境变量中新增系统变量JAVA_HOME,其值为JDK的安装目录：

Spark python安装【完全步骤】

其次，配置CLASSPATH，在系统变量中新增CLASSPATH，其值为".%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar" 【注意前面有个小圆点】

Spark python安装【完全步骤】

以上步骤完成后，JAVA就安装好了，请在CLI（Command Line Interface）即Win+R运行中，输入CMD，再输入 java -version

Spark python安装【完全步骤】

3. 安装和配置spark

下载好基于hadoop 2.7预编译的程序包，spark程序不需要安装，解压后即可直接使用，解压后复制到指定的文件夹，一般为放程序的文件夹，【注意】文件夹名中不可以有空格：

Spark python安装【完全步骤】

环境变量：新增SPARK_HOME,其值为spark程序的文件路径，例如我们上面的截图是C:\spark

Spark python安装【完全步骤】

接着将"%SPARK_HOME%\bin" "%SPARK_HOME%\sbin" 加入到PATH系统变量中：

Spark python安装【完全步骤】

接着配置日志显示级别，操作方法：复制spark\conf文件夹下的log4j.properties.template 为log4j.properties，即去掉template后缀，将root用户的日志级别设置为WARN

Spark python安装【完全步骤】

So far so Good?

4. 安装和配置Hadoop：

根据url下载https://github.com/LemenChao/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64

然后解压到自己创建的hadoop文件夹里：

Spark python安装【完全步骤】

配置环境变量 HADOOP_HOME，新增HADOOP_HOME，其值为HADOOP文件所在目录：以上面的例子即C:\Program Files\hadoop

接着，将"%HADOOP_HOME%\bin"添加到PATH的系统变量里

5 测试：

在cmd中敲入spark-shell以及pyspark会分别得到如下两个截图的样子，即为ok，

或者敲入cd %SPARK_HOME%

再 .\bin\spark-shell

至此，应该无误。