千家信息网

Python如何安装spark

发表于:2025-11-08 作者:千家信息网编辑
千家信息网最后更新 2025年11月08日,小编给大家分享一下Python如何安装spark,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一.配置版本Java JDK
千家信息网最后更新 2025年11月08日Python如何安装spark

小编给大家分享一下Python如何安装spark,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

一.配置版本

Java JDK 1.8.0_111
Python 3.9.6
Spark 3.1.2
Hadoop 3.2.2

二.配置环境

1.配置JDK

从官网下载相应JDK的版本安装,并进行环境变量的配置
(1)在系统变量新建JAVA_HOME,根据你安装的位置填写变量值

(2)新建CLASSPATH
变量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意前面所需的符号)

(3)点击Path

在其中进行新建:%JAVA_HOME%\bin

(4)配置好后进行确定
(5)验证,打开cmd,输入java -version和javac进行验证


此上说明jdk环境变量配置成功

2.配置Spark

(1)下载安装:
Spark官网:spark-3.1.2-bin-hadoop3.2下载地址

(2)解压,配置环境

(3)点击Path,进行新建:%SPARK_HOME%\bin,并确认
(4)验证,cmd中输入pyspark

这里提醒我们要安装Hadoop

3.配置Hadoop

(1)下载:
Hadoop官网:Hadoop 3.2.2下载地址

(2)解压,配置环境

注意:解压文件后,bin文件夹中可能没有以下两个文件:

下载地址:https://github.com/cdarlint/winutils
配置环境变量CLASSPATH:%HADOOP_HOME%\bin\winutils.exe
(3)点击Path,进行新建:%HADOOP_HOME%\bin,并确认
(4)验证,cmd中输入pyspark

由上可以看出spark能运行成功,但是会出现如下警告:

WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped

这里因为spark为3.x版本有相关改动,使用spar2.4.6版本不会出现这样的问题。
不改版本解决方式(因是警告,未尝试):
方式一:解决方法一
方式二:解决方法二

三.Pycharm配置spark

(1)Run->Edit Configurations

(2)对Environment Variables进行配置

(3)File->Settings->Project Structure->Add Content Root
找到spark-3.1.2-bin-hadoop3.2\python\lib下两个包进行添加

选择结果:

(4)测试

# 添加此代码,进行spark初始化import findsparkfindspark.init()from datetime import datetime, datefrom pyspark.sql import SparkSessionspark = SparkSession.builder.getOrCreate()rdd = spark.sparkContext.parallelize([    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))])df = spark.createDataFrame(rdd, schema=['a', 'b', 'c', 'd', 'e'])df.show()

运行结果:

四.使用anconda中python环境配置spark

1.创建虚拟环境

conda create -n pyspark_env python==3.9.6

查看环境:

conda env list

运行结果:

2.安装pyspark

切换到pyspark_env并进行安装pyspark

pip install pyspark

3.环境配置

运行上面的实例,会出现以下错误:

这说明我们需要配置py4j,SPARK_HOME
SPARK_HOME:

PYTHONPATH设置:

HADOOP_HOME设置:

path中设置:

4.运行

# 添加此代码,进行spark初始化import findsparkfindspark.init()from datetime import datetime, datefrom pyspark.sql import SparkSessionspark = SparkSession.builder.getOrCreate()rdd = spark.sparkContext.parallelize([    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))])df = spark.createDataFrame(rdd, schema=['a', 'b', 'c', 'd', 'e'])df.show()

运行结果同上

以上是"Python如何安装spark"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

配置 环境 运行 变量 版本 结果 验证 地址 文件 方式 篇文章 输入 成功 两个 代码 内容 方法 量值 不怎么 位置 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 网络安全问题召开了紧急会议 汇鑫互联网科技 四川互联网信息科技有限公司 远程服务器打开任务管理器 我的世界须佐能乎模组服务器 网络安全主题班会活动流程 网络安全模式卡在开机画面 有关网络技术创新方向的文献 php添加到数据库变量 软件开发开票税率是多少 服务器关闭或地址错误的是 湖北信息网络技术在线教育网 现在的网络技术还能用吗 redis如何备份数据库 2008r2文件服务器 武汉东湖学院网络安全 软件开发培训学校余 陕西网络安全责任制考核系统入口 河北erp软件开发 数据库管理系统主要组成 联想gpu服务器 如何按姓名调整表中数据库 转行学数据库技术怎么学 网络安全中vlan1000 数据库系统常采用几级模式结构 刺客信条连接服务器停止工作 攻坚克难能力 软件开发 三国志战略版查询服务器 青海网络技术服务包括什么 校园安全及网络安全培训
0