PySpark 安装17 Mar 2025 | 4 分钟阅读 在本教程中,我们将讨论在各种操作系统上安装 PySpark。
PySpark 需要 Java 1.8.0 或以上版本以及 Python 3.6 或以上版本。在您的系统中安装 PySpark 之前,首先确保已安装这两个组件。 如果没有,请安装它们,并确保 PySpark 可以与这两个组件一起工作。 Java在终端中键入以下命令以检查系统中的 Java 版本。 它将显示 Java 的版本。 ![]() 如果系统中未安装 Java,它将给出以下输出,然后下载所需的 Java 版本。 有关正确的 Java 安装指南,请访问(how-to-set-path-in-java)。 PythonPython 是一种非常流行的编程语言,被许多其他软件使用。要检查 Python 版本,请在命令提示符下键入以下命令,或者只键入 Python。 ![]() 它将显示已安装的版本。 如果您的系统中未安装 Python,请访问链接(how-to-install-python)以获取正确的 Python 安装指南。 现在我们将安装带有 Jupyter 的 PySpark。 我们将按顺序描述所有安装步骤。 按照这些安装步骤正确安装 PySpark。 这些步骤如下 步骤 1: 从给定链接 (https://github.com/bmatzelle/gow/releases) 下载并安装 Windows 上的 Gnu (GOW)。 GOW 允许您在 Windows 上使用 Linux 命令。 对于进一步的安装过程,我们将需要其他命令,例如 curl、gzip、tar,这些命令由 GOW 提供。 ![]() 键入以下命令以检查是否已安装 GOW ![]() 步骤 2: 下载并安装 Anaconda(Windows 版本)。 如果您已经安装了它,请跳过此步骤。 访问官方网站并下载它。 ![]() 根据您的 Python 解释器版本下载 Anaconda for Windows 安装程序。 ![]() 步骤 3: 在搜索框中键入 Anaconda 命令提示符,以检查是否已正确安装。 步骤 4: 从其官方网站 (>https://spark.apache.ac.cn/downloads.html) 下载 Apache Spark。 单击下图所示的突出显示的链接 ![]() 步骤 5: 将文件移动到要解压缩的任何目录中。 我们已将其下载到 C 盘并解压缩。 我们机器中的路径将是 C:\Spark\spark-3.0.0-bin-hadoop2.7.tgz。 在这里,我们将 spark-3.0.0-bin-hadoop2.7.tgz 重命名为 sparkhome。 所以,新路径是 C:\Spark\sparkhome。 步骤 6: 通过以下命令将 winutlis.exe 下载到 sparkhome/bin 中。 ![]() 步骤 6: 接下来,我们将编辑环境变量,以便我们可以轻松地在任何目录中访问 spark notebook。 步骤 7: 键入以下命令 ![]() 步骤 8: 接下来,在终端中键入以下命令。
步骤 9: 将路径添加到系统变量。 ![]() 复制路径并将其添加到路径变量。 ![]() 步骤 10: 关闭命令提示符并重新启动计算机,然后打开 anaconda 提示符并键入以下命令。 它将自动打开 Jupyter notebook。 ![]() 现在我们准备好使用 PySpark 了。 运行以下代码,如果运行成功,则表示已安装 PySpark。 输出 +-------+ | hello| +-------+ |PySpark| +-------+
以下是在 macOS 中安装 PySpark 的步骤 步骤 1:创建一个新的 Conda 环境 首先,从其官方网站下载并安装 Anaconda。 如果您已经拥有 Anaconda,请使用以下命令创建一个新的 conda 环境。 此命令将使用最新版本的 Python 3 创建一个新的 conda 环境。 使用以下命令激活环境 步骤 2:下载 PySpark 包 您可以使用 pip 命令安装 PySpark 包,但无法正确启动集群。 Python Packaged 版本适合现有集群,但不包含设置独立 Spark 集群所需的工具,因此最好从官方网站 (https://spark.apache.ac.cn/downloads.html) 下载 Spark 的完整版本。 它将给出 spark-2.3.0-bin-hadoop2.7.tgz,并将解压缩的版本存储在主目录中。 步骤 3:安装 Java 1.8.0 从其官方网站下载 JDK,版本必须为 1.8.0 或最新版本。 步骤 4:更改 '.bash_profile' 变量设置 要查找 Spark 包和 Java SDK,请将以下行添加到您的 .bash_profile 中。 这些命令用于告知基础如何使用最近安装的 Java 和 Spark 包。 运行 source ~/.bash_profile 以打开一个新终端来自动源此文件。 现在运行 pyspark 命令,它将显示以下窗口 ![]() 我们将在后续教程中学习 PySpark 的基本功能。 |
我们请求您订阅我们的新闻通讯以获取最新更新。