将函数应用于 Spark CSV 的单个列

2025年3月17日 | 阅读 3 分钟

引言

在本教程中,我们将讨论如何在 Spark 中将函数应用于 CSV 的单列。在分布式计算系统中,Spark 被用作一个开源系统。Spark 用于大规模数据处理,速度非常快。它被用于各种领域。但 Spark 在单个 CSV 文件列中最常见的用法是 Spark 应用这些文件的函数。这里我们简要阐述了如何在 Spark 中将函数应用于 CSV 的单列。

Spark 中 CSV 单列的参数

Spark 中 CSV 单列的参数是 -

  1. col 表示 Column(列)。此 Column 为新列提供表达式。
  2. colName 表示 str。str 定义了字符串。它是新列的名称。

Spark 中 CSV 单列的语法

Spark 中 CSV 单列的语法是 -

在 Spark 中将函数应用于 CSV 单列的工作原理

在 Spark 中将函数应用于 CSV 单列的工作原理是规则或转换完全由用户定义。它应用于数据集或数据框中的某一列。用户可以轻松地在此函数中设置规则。此规则主要在 spark sessions 中用于注册和应用所需的列。在 Spark 中,还有一些内置函数。这些内置函数可以是。它可以用于 Spark 上的列。这种内置函数已预先加载到内存中。Spark 的结果返回转换后的列值。内置函数返回一些存储的值,并通过 Spark 数据集或数据模型中的列返回。

如果内置函数是用户定义的,则首先在 Spark 的内存中加载。列值被传递,遍历 Spark 数据框中的每一列,并对其应用逻辑。

方法 1

现在,我们给出在 Spark 中将函数应用于 CSV 单列的 Python 程序代码。要在 Spark 中使用 CSV 文件,我们使用 **spark.read.csv** 方法。程序如下所示。

代码

输出

现在我们编译上述程序并在任何方式下运行它。运行程序后,我们得到了输出,该输出如下:

Apply a Function to a Single Column of a CSV in Spark

说明

通过这种方式,我们可以快速将 CSV 文件加载到 Spark 中。此外,我们可以在单列上应用此函数。

在此示例中,我们可以应用内置函数来递增某一列的年龄。要应用此类函数,我们可以使用名为 **withColumn** 的方法。

方法 2

现在,我们给出在 Spark 中将函数应用于 CSV 单列的 Python 程序代码。要在 Spark 中使用 CSV 文件,我们使用 withColumn 方法。程序如下所示。

代码

输出

Apply a Function to a Single Column of a CSV in Spark

说明

在此示例中,我们使用 col 方法选择 roll 列并将其加 1。我们也可以使用有效的 Spark 表达式并使用 withColumn 方法。

结论

在本教程中,我们讨论了如何在 Spark 中将函数应用于 CSV 的单列。这里我们使用了 withColumn 和 spark.read.csv 两种方法。我们还分享了 Spark 中 CSV 的工作原理,并分享了一些示例以供学习。