PySpark 安装

17 Mar 2025 | 4 分钟阅读

在本教程中,我们将讨论在各种操作系统上安装 PySpark。

  • 在 Windows 上安装 PySpark

PySpark 需要 Java 1.8.0 或以上版本以及 Python 3.6 或以上版本。在您的系统中安装 PySpark 之前,首先确保已安装这两个组件。 如果没有,请安装它们,并确保 PySpark 可以与这两个组件一起工作。

Java

在终端中键入以下命令以检查系统中的 Java 版本。 它将显示 Java 的版本。


PySpark Installation

如果系统中未安装 Java,它将给出以下输出,然后下载所需的 Java 版本。

有关正确的 Java 安装指南,请访问(how-to-set-path-in-java)。

Python

Python 是一种非常流行的编程语言,被许多其他软件使用。要检查 Python 版本,请在命令提示符下键入以下命令,或者只键入 Python


PySpark Installation

它将显示已安装的版本。 如果您的系统中未安装 Python,请访问链接(how-to-install-python)以获取正确的 Python 安装指南。

现在我们将安装带有 Jupyter 的 PySpark。 我们将按顺序描述所有安装步骤。 按照这些安装步骤正确安装 PySpark。 这些步骤如下

步骤 1: 从给定链接 (https://github.com/bmatzelle/gow/releases) 下载并安装 Windows 上的 Gnu (GOW)。 GOW 允许您在 Windows 上使用 Linux 命令。 对于进一步的安装过程,我们将需要其他命令,例如 curl、gzip、tar,这些命令由 GOW 提供。

PySpark Installation

键入以下命令以检查是否已安装 GOW


PySpark Installation

步骤 2: 下载并安装 Anaconda(Windows 版本)。 如果您已经安装了它,请跳过此步骤。 访问官方网站并下载它。

PySpark Installation

根据您的 Python 解释器版本下载 Anaconda for Windows 安装程序。

PySpark Installation

步骤 3: 在搜索框中键入 Anaconda 命令提示符,以检查是否已正确安装。

步骤 4: 从其官方网站 (>https://spark.apache.ac.cn/downloads.html) 下载 Apache Spark。 单击下图所示的突出显示的链接

PySpark Installation

步骤 5: 将文件移动到要解压缩的任何目录中。 我们已将其下载到 C 盘并解压缩。 我们机器中的路径将是 C:\Spark\spark-3.0.0-bin-hadoop2.7.tgz。 在这里,我们将 spark-3.0.0-bin-hadoop2.7.tgz 重命名为 sparkhome。 所以,新路径是 C:\Spark\sparkhome

步骤 6: 通过以下命令将 winutlis.exe 下载到 sparkhome/bin 中。


PySpark Installation

步骤 6: 接下来,我们将编辑环境变量,以便我们可以轻松地在任何目录中访问 spark notebook。

步骤 7: 键入以下命令


PySpark Installation

步骤 8: 接下来,在终端中键入以下命令。

  • setx PYSPARK_DRIVER_PYTHON ipython,然后按 Enter 键。
  • setx PYSPARK_DRIVER_PYTHON ipython,然后按 Enter 键。
  • setx PATH "%PATH%" C:\Spark\sparkhome

步骤 9: 将路径添加到系统变量。

PySpark Installation

复制路径并将其添加到路径变量。

PySpark Installation

步骤 10: 关闭命令提示符并重新启动计算机,然后打开 anaconda 提示符并键入以下命令。

它将自动打开 Jupyter notebook。

PySpark Installation

现在我们准备好使用 PySpark 了。 运行以下代码,如果运行成功,则表示已安装 PySpark。

输出

+-------+ | hello| +-------+ |PySpark| +-------+
  • 在 MacOs 上安装 PySpark

以下是在 macOS 中安装 PySpark 的步骤

步骤 1:创建一个新的 Conda 环境

首先,从其官方网站下载并安装 Anaconda。 如果您已经拥有 Anaconda,请使用以下命令创建一个新的 conda 环境。 此命令将使用最新版本的 Python 3 创建一个新的 conda 环境。

使用以下命令激活环境

步骤 2:下载 PySpark 包

您可以使用 pip 命令安装 PySpark 包,但无法正确启动集群。 Python Packaged 版本适合现有集群,但不包含设置独立 Spark 集群所需的工具,因此最好从官方网站 (https://spark.apache.ac.cn/downloads.html) 下载 Spark 的完整版本。 它将给出 spark-2.3.0-bin-hadoop2.7.tgz,并将解压缩的版本存储在主目录中。

步骤 3:安装 Java 1.8.0

从其官方网站下载 JDK,版本必须为 1.8.0 或最新版本。

步骤 4:更改 '.bash_profile' 变量设置

要查找 Spark 包和 Java SDK,请将以下行添加到您的 .bash_profile 中。

这些命令用于告知基础如何使用最近安装的 Java 和 Spark 包。 运行 source ~/.bash_profile 以打开一个新终端来自动源此文件。

现在运行 pyspark 命令,它将显示以下窗口

PySpark Installation

我们将在后续教程中学习 PySpark 的基本功能。


下一主题PySpark SparkConf