Spark python安装【完全步骤】
首先,Spark python开发环境搭建的准备工作:
Win10 64位专业版
Anaconda3
Java 8 64位
Spark基于Hadoop 2.7 64位
下载和准备介质:
安装与配置Anaconda https://www.anaconda.com/products/individual
安装与配置Java https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
安装与配置Spark https://spark.apache.org/downloads.html
安装与配置Hadoop依赖 https://spark.apache.org/downloads.html
测试spark .\bin\spark-shell .\bin\pyspark
步骤截图:
1. 安装Anaconda,此步骤一般来说不会有任何问题,就像你安装其他电脑软件一样,下一步下一步,中间【记得勾选Add anaconda to the system PATH envrionment variables:】
2. 安装和配置JAVA,这个同上一步,一步步安装完后,记得配置环境变量:
首先,配置JAVA_HOME,在环境变量中新增系统变量JAVA_HOME,其值为JDK的安装目录:
以上步骤完成后,JAVA就安装好了,请在CLI(Command Line Interface)即Win+R运行中,输入CMD,再输入 java -version
3. 安装和配置spark
下载好基于hadoop 2.7预编译的程序包,spark程序不需要安装,解压后即可直接使用,解压后复制到指定的文件夹,一般为放程序的文件夹,【注意】文件夹名中不可以有空格:
环境变量:新增SPARK_HOME,其值为spark程序的文件路径,例如我们上面的截图是C:\spark
接着将"%SPARK_HOME%\bin" "%SPARK_HOME%\sbin" 加入到PATH系统变量中:
接着配置日志显示级别,操作方法:复制spark\conf文件夹下的log4j.properties.template 为log4j.properties,即去掉template后缀,将root用户的日志级别设置为WARN
So far so Good?
4. 安装和配置Hadoop:
根据url下载https://github.com/LemenChao/hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64
然后解压到自己创建的hadoop文件夹里:
配置环境变量 HADOOP_HOME,新增HADOOP_HOME,其值为HADOOP文件所在目录:以上面的例子即C:\Program Files\hadoop
接着,将"%HADOOP_HOME%\bin"添加到PATH的系统变量里
5 测试:
在cmd中敲入spark-shell以及pyspark会分别得到如下两个截图的样子,即为ok,
或者敲入cd %SPARK_HOME%
再 .\bin\spark-shell
至此,应该无误。