将函数应用于 Spark CSV 的单个列

2025年3月17日 | 阅读 3 分钟

引言

在本教程中，我们将讨论如何在 Spark 中将函数应用于 CSV 的单列。在分布式计算系统中，Spark 被用作一个开源系统。Spark 用于大规模数据处理，速度非常快。它被用于各种领域。但 Spark 在单个 CSV 文件列中最常见的用法是 Spark 应用这些文件的函数。这里我们简要阐述了如何在 Spark 中将函数应用于 CSV 的单列。

Spark 中 CSV 单列的参数

Spark 中 CSV 单列的参数是 -

col 表示 Column（列）。此 Column 为新列提供表达式。
colName 表示 str。str 定义了字符串。它是新列的名称。

Spark 中 CSV 单列的语法

Spark 中 CSV 单列的语法是 -

在 Spark 中将函数应用于 CSV 单列的工作原理

在 Spark 中将函数应用于 CSV 单列的工作原理是规则或转换完全由用户定义。它应用于数据集或数据框中的某一列。用户可以轻松地在此函数中设置规则。此规则主要在 spark sessions 中用于注册和应用所需的列。在 Spark 中，还有一些内置函数。这些内置函数可以是。它可以用于 Spark 上的列。这种内置函数已预先加载到内存中。Spark 的结果返回转换后的列值。内置函数返回一些存储的值，并通过 Spark 数据集或数据模型中的列返回。

如果内置函数是用户定义的，则首先在 Spark 的内存中加载。列值被传递，遍历 Spark 数据框中的每一列，并对其应用逻辑。

方法 1

现在，我们给出在 Spark 中将函数应用于 CSV 单列的 Python 程序代码。要在 Spark 中使用 CSV 文件，我们使用 **spark.read.csv** 方法。程序如下所示。

代码

from pyspark.sql import SparkSession
Spark = SparkSession.builder.appName("Apply function to CSV").getOrCreate()
# code for loading the csv file
df = spark.read.csv("sample.csv", header=True, inferSchema=True)
# code for displaying the csv file
df.show()

输出

现在我们编译上述程序并在任何方式下运行它。运行程序后，我们得到了输出，该输出如下：

Apply a Function to a Single Column of a CSV in Spark

说明

通过这种方式，我们可以快速将 CSV 文件加载到 Spark 中。此外，我们可以在单列上应用此函数。

在此示例中，我们可以应用内置函数来递增某一列的年龄。要应用此类函数，我们可以使用名为 **withColumn** 的方法。

方法 2

现在，我们给出在 Spark 中将函数应用于 CSV 单列的 Python 程序代码。要在 Spark 中使用 CSV 文件，我们使用 withColumn 方法。程序如下所示。

代码

from pyspark.sql.functions import col
# By this code, we increment the column value by adding 1
df = df.withColumn("roll", col("roll") + 1)
df.show()

输出

说明

在此示例中，我们使用 col 方法选择 roll 列并将其加 1。我们也可以使用有效的 Spark 表达式并使用 withColumn 方法。

结论

在本教程中，我们讨论了如何在 Spark 中将函数应用于 CSV 的单列。这里我们使用了 withColumn 和 spark.read.csv 两种方法。我们还分享了 Spark 中 CSV 的工作原理，并分享了一些示例以供学习。

下一主题calibrateHandEye() Python OpenCV

将函数应用于 Spark CSV 的单个列

引言

Spark 中 CSV 单列的参数

Spark 中 CSV 单列的语法

在 Spark 中将函数应用于 CSV 单列的工作原理

方法 1

方法 2

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python 问题

将函数应用于 Spark CSV 的单个列

引言

Spark 中 CSV 单列的参数

Spark 中 CSV 单列的语法

在 Spark 中将函数应用于 CSV 单列的工作原理

方法 1

方法 2

结论

相关帖子

Sklearn 中的 accuracy_score

Python 中的基本递归程序

定位和执行模块

数据结构和算法的 Python 书籍

Python 位运算符

Python 程序计算字符串对中匹配字符的数量

如何使用 Graphviz 在 Python 中可视化神经网络

如何使用 Python 脚本下载 YouTube 视频

Python 中的 Numpy Logical _and()

Python 音频模块

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器