如何更改 PySpark 数据框中的列类型

31 Jan 2025 | 4 分钟阅读

引言

PySpark DataFrames 是 PySpark 的一个重要组成部分，PySpark 是一个用 Python 编写的 Apache Spark API，用于管理复杂的数据处理作业。 DataFrame 本质上是一个分布式数据集，组织成命名的列，类似于 Python 的 Pandas 库中的电子表格或关系数据库的表。

这些 DataFrames 提供了各种优势。首先，它们提供了更高级别的抽象，这使得管理分布式数据集变得更容易，并使客户能够有效地完成测试数据控制任务。此外，PySpark DataFrames 利用 Apache Flash 的分布式计算能力，以有效的方式分析大量机器中的大量信息。它们还可以有效地与 Python 环境交互，允许 Python 工程师利用他们之前的知识和结构。

PySpark DataFrames 提供了一个与 Pandas 相似的现代 DataFrame 编程接口，允许客户对信息进行不同的操作，包括分离、汇总、组合和更改。此外，PySpark DataFrames 考虑了 SQL 混合，允许客户直接在其数据上使用 SQL 运行问题。

识别不同类型的列

对于 PySpark DataFrames 中的信息分析和处理，分段类型非常重要。 DataFrame 的每个分段都有一个独特的信息类型，该信息类型指示如何保存和处理信息。了解此类分段对于高效的信息控制和精确的结果至关重要。

PySpark 支持几种列类型，包括

数字类型：可以使用以下类型存储数值数据，包括十进制数和浮点数：整数、长整数、浮点数、双精度数和十进制数。
字符串类：用于存储文本信息，如字符串。
布尔类型：用于存储布尔值（真或假）数据。
TimestampType、DateType：分别用于存储时间戳和日期值。
MapType、StructType 和 ArrayType：复杂的 Data 类型，分别用于存储映射、结构体（类似于 Python 字典）和数组。

精确地执行分离、聚合和类型更改等任务需要理解分段类型。它支持在处理信息时保持信息一致性并防止错误。

PySpark DataFrames 的优势

分散的登记

PySpark DataFrames 利用 Apache Flash 的分散 PC 计划，以在 PC 之间排队处理庞大的数据集。这种传递的架构使得多功能性成为可能，这考虑了对单个系统能力之外的大量信息的处理。

提高的抽象

PySpark DataFrames 提出了一个用于信息处理的不可否认的抽象级别，这类似于在社交数据库中使用会计表或表。通过消除处理许多分布式计算细节的需要，这种抽象使得执行分离、聚集和连接等复杂的任务变得不那么复杂。

优化执行

为了提高效率，PySpark DataFrames 集成了各种增强功能，包括内存缓存、查询优化和惰性评估。这些增强有助于减少计算成本和信息重新排列，这加快了问题执行速度并消除了处理时间。

与 Python 生态系统的整合

PySpark 与 Python 环境的顺畅整合使客户能够利用著名工具和库，如 scikit-learn、NumPy、Matplotlib 和 Pandas。通过这种关联，专家和信息科学家可以通过将其分布式计算能力与其当前的 Python 信息和工具相结合来提高生产力和适应性。

统一的编程界面

Python、Scala、Java 和 R 只是 PySpark 提供统一 DataFrame 编程界面的一些编程语言。由于编程接口的一致性，客户可以更有效地与其他使用其他编程语言的同事联系，或在语言之间转移，而无需获得新的语法或想法。

更改 PySpark dataframe 中列类型的方法

使用 cast() 和 withColumn()： 此方法需要对现有列使用 cast() 方法，以便生成具有所需数据类型的附加列。

from pyspark.sql.functions import col
from pyspark.sql.types import IntegerType
df = df.withColumn("new_column_name", df["existing_column_name"].cast(IntegerType()))

使用 alias() 和 select()： 另一种方法是使用 select() 函数选择当前列，然后通过在 alias() 函数中使用 cast() 函数，使用所需的数据类型重命名它。

Df=df.select(col("existing_column_name").cast(IntegerType()).alias("new_column_name"))

使用 SQL 表达式： PySpark 也支持 SQL 表达式进行 DataFrame 操作。可以使用 SQL 表达式进行类型转换。

df.createOrReplaceTempView("temp_df")
df = spark.sql("SELECT CAST(existing_column_name AS INTEGER) AS new_column_name FROM temp_df")

使用 withColumn() 和 withColumnRenamed()： 使用此方法，重命名当前列，然后创建具有所需数据类型的附加列。

df = df.withColumnRenamed("existing_column_name", "temp_column_name")
df = df.withColumn("new_column_name", df["temp_column_name"].cast(IntegerType())).drop("temp_column_name")

使用带有 SQL 表达式的 DataFrame API： 对于类型转换，您也可以使用带有 DataFrame API 方法的 SQL 语句。

from pyspark.sql.functions import expr
df = df.withColumn("new_column_name", expr("CAST(existing_column_name AS INTEGER)"))

下一主题Pyspark-dataframe-selecting-columns

← 上一主题下一主题 →

如何更改 PySpark 数据框中的列类型

引言

识别不同类型的列

PySpark DataFrames 的优势

更改 PySpark dataframe 中列类型的方法

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

PySpark 教程

如何更改 PySpark 数据框中的列类型

引言

识别不同类型的列

PySpark DataFrames 的优势

更改 PySpark dataframe 中列类型的方法

相关帖子

PySpark Sparkxconf

PySpark UDF

PySpark 安装

PySpark GroupBy 平均值

PySpark SQL

PySpark Profiler

PySpark StatusTracker

广播和累加器

PySpark 数据框：选择列

PySpark StorageLevel

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器