PySpark 安装

17 Mar 2025 | 4 分钟阅读

在本教程中，我们将讨论在各种操作系统上安装 PySpark。

在 Windows 上安装 PySpark

PySpark 需要 Java 1.8.0 或以上版本以及 Python 3.6 或以上版本。在您的系统中安装 PySpark 之前，首先确保已安装这两个组件。如果没有，请安装它们，并确保 PySpark 可以与这两个组件一起工作。

Java

在终端中键入以下命令以检查系统中的 Java 版本。它将显示 Java 的版本。

如果系统中未安装 Java，它将给出以下输出，然后下载所需的 Java 版本。

'java' is not recognized as an internal or external command, operable program, or batch file.

有关正确的 Java 安装指南，请访问（how-to-set-path-in-java）。

Python

Python 是一种非常流行的编程语言，被许多其他软件使用。要检查 Python 版本，请在命令提示符下键入以下命令，或者只键入 Python。

它将显示已安装的版本。如果您的系统中未安装 Python，请访问链接（how-to-install-python）以获取正确的 Python 安装指南。

现在我们将安装带有 Jupyter 的 PySpark。我们将按顺序描述所有安装步骤。按照这些安装步骤正确安装 PySpark。这些步骤如下

步骤 1： 从给定链接 (https://github.com/bmatzelle/gow/releases) 下载并安装 Windows 上的 Gnu (GOW)。 GOW 允许您在 Windows 上使用 Linux 命令。对于进一步的安装过程，我们将需要其他命令，例如 curl、gzip、tar，这些命令由 GOW 提供。

键入以下命令以检查是否已安装 GOW

步骤 2： 下载并安装 Anaconda（Windows 版本）。如果您已经安装了它，请跳过此步骤。访问官方网站并下载它。

根据您的 Python 解释器版本下载 Anaconda for Windows 安装程序。

步骤 3： 在搜索框中键入 Anaconda 命令提示符，以检查是否已正确安装。

步骤 4： 从其官方网站 (>https://spark.apache.ac.cn/downloads.html) 下载 Apache Spark。单击下图所示的突出显示的链接

步骤 5： 将文件移动到要解压缩的任何目录中。我们已将其下载到 C 盘并解压缩。我们机器中的路径将是 C:\Spark\spark-3.0.0-bin-hadoop2.7.tgz。在这里，我们将 spark-3.0.0-bin-hadoop2.7.tgz 重命名为 sparkhome。所以，新路径是 C:\Spark\sparkhome。

步骤 6： 通过以下命令将 winutlis.exe 下载到 sparkhome/bin 中。

curl -k -L -o winutlis.exe
https://github.com/steveloughran/winutlis/blob/master/hadoop-2.6.0/bin/winutlis.exe?raw=True 

步骤 6： 接下来，我们将编辑环境变量，以便我们可以轻松地在任何目录中访问 spark notebook。

步骤 7： 键入以下命令

步骤 8： 接下来，在终端中键入以下命令。

setx PYSPARK_DRIVER_PYTHON ipython，然后按 Enter 键。
setx PYSPARK_DRIVER_PYTHON ipython，然后按 Enter 键。
setx PATH "%PATH%" C:\Spark\sparkhome

步骤 9： 将路径添加到系统变量。

复制路径并将其添加到路径变量。

步骤 10： 关闭命令提示符并重新启动计算机，然后打开 anaconda 提示符并键入以下命令。

它将自动打开 Jupyter notebook。

现在我们准备好使用 PySpark 了。运行以下代码，如果运行成功，则表示已安装 PySpark。

import findspark
findspark.init()
import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.sql('''select 'PySpark' as hello ''')
df.show()

输出

+-------+ | hello| +-------+ |PySpark| +-------+

在 MacOs 上安装 PySpark

以下是在 macOS 中安装 PySpark 的步骤

步骤 1：创建一个新的 Conda 环境

首先，从其官方网站下载并安装 Anaconda。如果您已经拥有 Anaconda，请使用以下命令创建一个新的 conda 环境。此命令将使用最新版本的 Python 3 创建一个新的 conda 环境。

使用以下命令激活环境

步骤 2：下载 PySpark 包

您可以使用 pip 命令安装 PySpark 包，但无法正确启动集群。 Python Packaged 版本适合现有集群，但不包含设置独立 Spark 集群所需的工具，因此最好从官方网站 (https://spark.apache.ac.cn/downloads.html) 下载 Spark 的完整版本。它将给出 spark-2.3.0-bin-hadoop2.7.tgz，并将解压缩的版本存储在主目录中。

步骤 3：安装 Java 1.8.0

从其官方网站下载 JDK，版本必须为 1.8.0 或最新版本。

步骤 4：更改 '.bash_profile' 变量设置

要查找 Spark 包和 Java SDK，请将以下行添加到您的 .bash_profile 中。

Export JAVA_HOME=$(/usr/libexec/java_home)
export SPARK_HOME=~/spark-2.3.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_PYTHON=python3

这些命令用于告知基础如何使用最近安装的 Java 和 Spark 包。运行 source ~/.bash_profile 以打开一个新终端来自动源此文件。

现在运行 pyspark 命令，它将显示以下窗口

我们将在后续教程中学习 PySpark 的基本功能。

下一主题PySpark SparkConf

PySpark 安装

Java

Python

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

PySpark 教程

PySpark 安装

Java

Python

相关帖子

PySpark 教程

PySpark 合并

PySpark 序列化器

如何更改 PySpark 数据框中的列类型

PySpark UDF

PySpark GroupBy 平均值

PySpark SparkFiles

广播和累加器

PySpark Sparkxconf

PySpark SQL

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器