PySpark 合并

2025年1月31日 | 阅读 7 分钟

Apache Spark 凭借其处理大规模记录和分析的能力，是大型记录程序的强大工具。PySpark 是 Spark 的 Python API，允许使用 Python 无缝集成和使用 Spark 的功能。统计操作中的一个基本操作是合并数据帧。本文提供了有关在 PySpark 中合并数据帧的强化指南，涵盖了不同的技术和卓越实践。

了解 PySpark DataFrame

在深入研究合并数据帧之前，让我们简要地了解一下 PySpark 中的 DataFrame 是什么。DataFrame 是分布式的记录集合，组织成命名的列，就像关系数据库中的表或 R/Pandas 中的记录体一样。它为操作基于结构和半结构的事实提供了一个更高级别的抽象。

这是一个在 PySpark 中创建 DataFrame 的简单示例

From pyspark.sql import SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
df = spark.createDataFrame(data, ["Name", "Age"])
df.show()

此代码初始化一个 Spark 会话，从元组列表中创建一个 DataFrame，并显示该 DataFrame。

在 PySpark 中合并 DataFrames

合并 DataFrames 是统计分析中常见的一项任务，涉及基于某些常见列或索引将两个或多个 DataFrames 合并在一起。在 PySpark 中，这可以通过多种策略来完成，包括连接、联合操作和 `combineByKey` 函数。让我们在元素中探索这些策略。

方法 1：使用连接

连接是在 PySpark 中合并 DataFrames 的最常见方法。它们基于两个或多个 DataFrames 之间相关的列来集成行。PySpark 支持各种类型的连接

Inner Join

内部连接返回在每个 DataFrames 中都具有匹配值的行。

# DataFrame 1 的示例数据

data1 = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
df1 = Spark.createDataFrame(data1, ["Name", "Age"])
data2 = [("Alice", "F"), ("Bob", "M"), ("David", "M")]
df2 = Spark.createDataFrame(data2, ["Name", "Gender"])
df_inner = df1.join(df2, on="Name", how="inner")
df_inner.show()

在此示例中，仅返回在两个 DataFrames 中都具有匹配“名称”值的行。

左连接 (Left Join)

左连接返回左 DataFrame 中的所有行，以及右 DataFrame 中的匹配行。右 DataFrame 中不匹配的行会导致空值。

# Perform left join
df_left = df1.join(df2, on="Name", how="left")
df_left.show()

右连接 (Right Join)

正确的连接返回正确的 DataFrame 中的所有行，以及左 DataFrame 中的匹配行。左 DataFrame 中不匹配的行会导致空值。

# Perform right join
df_right = df1.join(df2, on="Name", how="right")
df_right.show()

全外连接

完整的外部连接会在两个 DataFrames 中都存在匹配项时返回所有行。不匹配的行将在相应的列中包含空值。

# Perform full outer join
df_full = df1.join(df2, on="Name", how="outer")
df_full.show()

交叉连接

连接返回两个 DataFrames 的笛卡尔积，即所有可行的行组合。```python

# Perform cross join
df_cross = df1.crossJoin(df2)
df_cross.show()

方法 2：使用 Union

Union 操作用于垂直连接 DataFrames。`union` 和 `unionByName` 技术通常使用。

并集

`union` 方法将具有相同 schema 的两个 DataFrames 组合在一起

# Sample data for DataFrame 3
data3 = [("David", 32), ("Eva", 25)]
df3 = Spark.createDataFrame(data3, ["Name", "Age"])

# Perform union
df_union = df1.union(df3)
df_union.show()

两个 DataFrames 都必须具有相同的 schema；否则，会发生错误。

按名称 Union

`unionByName` 技术通过列名称来组合 DataFrames

# Sample data for DataFrame 4 with columns in different order
data4 = [(32, "David"), (25, "Eva")]
df4 = Spark.createDataFrame(data4, ["Age", "Name"])
df_union_by_name = df1.unionByName(df4)
df_union_by_name.show()

当列位于特定顺序但具有相同名称时，此技术非常有用。

方法 3：使用 `combineByKey`

当使用键值对 (RDD) 运行时，`combineByKey` 函数非常有用。它允许对每个键的值进行自定义聚合。

from pyspark import RDD

# Sample key-value pair RDD
data_rdd1 = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
rdd1 = spark.sparkContext.parallelize(data_rdd1)

# Sample key-value pair RDD
data_rdd2 = [("Alice", "F"), ("Bob", "M"), ("David", "M")]
rdd2 = spark.sparkContext.parallelize(data_rdd2)

# Convert to pair RDDs
pair_rdd1 = rdd1.map(lambda x: (x[0], x[1]))
pair_rdd2 = rdd2.map(lambda x: (x[0], x[1]))

# Define the combined function
def create_combiner(value):
    return [value]

def merge_value(combiner, value):
    combiner.append(value)
    return combiner

def merge_combiners(combiner1, combiner2):
    return combiner1 + combiner2

# Combine by key
combined_rdd = pair_rdd1.combineByKey(create_combiner, merge_value, merge_combiners)
combined_rdd.collect()

此方法更高级且更灵活，适用于自定义聚合逻辑。

实际示例

示例 1：合并销售额和客户数据

考虑一种情况，您有两个 DataFrames：一个包含收入记录，另一个包含购买者统计信息。您需要合并这些 DataFrames 以获取每个销售额及其客户信息的完整视图。

# Sample sales data
sales_data = [("001", "Alice", 250), ("002", "Bob", 150), ("003", "Cathy", 200)]
df_sales = Spark.createDataFrame(sales_data, ["SaleID", "CustomerName", "Amount"])

# Sample customer data
customer_data = [("Alice", "NY"), ("Bob", "LA"), ("David", "SF")]
df_customers = Spark.createDataFrame(customer_data, ["CustomerName", "City"])

# Perform left join to get complete sales with customer details
df_merged = df_sales.join(df_customers, on="CustomerName", how="left")
df_merged.show()

示例 2：合并产品和库存数据

假设您有两个 DataFrames：一个包含产品详细信息，另一个包含库存数据。您需要合并这些 DataFrames 以获取每个产品的当前库存状态。

# Sample product data
product_data = [("P001", "Laptop"), ("P002", "Phone"), ("P003", "Tablet")]
df_products = Spark.createDataFrame(product_data, ["ProductID", "ProductName"])

# Sample inventory data
inventory_data = [("P001", 50), ("P002", 30), ("P004", 20)]
df_inventory = Spark.createDataFrame(inventory_data, ["ProductID", "Stock"])

# Perform full outer join to get the inventory status
df_inventory_status = df_products.join(df_inventory, on="ProductID", how="outer")
df_inventory_status.show()

示例 3：合并员工和部门数据

假设您有 DataFrames，一个包含员工信息，另一个包含部门事实。您想要合并这些 DataFrames 以将每个员工分配到其各自的分支。

# Sample employee data
employee_data = [("001", "Alice", "D001"), ("002", "Bob", "D002"), ("003", "Cathy", "D001")]
df_employee = Spark.createDataFrame(employee_data, ["EmployeeID", "Name", "DepartmentID"])

# Sample department data
department_data = [("D001", "HR"), ("D002", "Finance"), ("D003", "IT")]
df_department = Spark.createDataFrame(department_data, ["DepartmentID", "DepartmentName"])

# Perform inner join to assign employees to departments
df_employee_department = df_employee.join(df_department, on="DepartmentID", how="inner")
df_employee_department.show()

此示例合并员工和部门 DataFrames，以将每个员工分配到其各自的分支，主要基于不常见的“部门 ID”列。

示例 4：合并网站流量和用户数据

考虑一种情况，您有两个 DataFrames：一个包含网站访问者的事实，另一个包含消费者信息。您需要合并这些 DataFrames 以主要基于其人口统计事实来分析一个人的行为。

# Sample website traffic data
traffic_data = [("001", "Homepage", "Alice"), ("002", "Products", "Bob"), ("003", "Homepage", "Cathy")]
df_traffic = Spark.createDataFrame(traffic_data, ["VisitID", "PageVisited", "UserName"])

# Sample user data
user_data = [("Alice", "25", "Female"), ("Bob", "30", "Male"), ("David", "28", "Male")]
df_users = Spark.createDataFrame(user_data, ["UserName", "Age", "Gender"])

# Perform left join to analyze user behavior based on demographic information
df_user_traffic = df_traffic.join(df_users, on="UserName", how="left")
df_user_traffic.show()

在这种情况下，互联网网站访问者和消费者 DataFrames 会被合并，以主要基于人口统计数据（包括年龄和性别）来分析个人行为。

示例 5：合并订单和产品数据

假设您有两个 DataFrames：一个包含订单详细信息，另一个包含产品事实。您想要合并这些 DataFrames 以获取每个订单及其产品详细信息的完整视图。```python

# Sample order data
order_data = [("001", "P001", 2), ("002", "P002", 1), ("003", "P003", 3)]
df_orders = Spark.createDataFrame(order_data, ["OrderID", "ProductID", "Quantity"])

# Sample product data
product_data = [("P001", "Laptop", 1000), ("P002", "Phone", 800), ("P003", "Tablet", 500)]
df_products = Spark.createDataFrame(product_data, ["ProductID", "ProductName", "Price"])

# Perform inner join to get complete order details with product information
df_order_details = df_orders.join(df_products, on="ProductID", how="inner")
df_order_details.show()

此示例合并订单和产品 DataFrames，以获取每个订单及其产品信息（包括产品调用和费用）的完整视图。

性能考虑

当合并巨大的 DataFrames 时，性能可能是一个问题。以下是一些优化总体性能的提示

1. 广播连接： 如果 DataFrames 之一足够小，可以完整地放入内存中，则可以使用已发布的部件来提高性能。

from pyspark.sql.functions import broadcast

# Perform broadcast join
df_broadcast = df_sales.join(broadcast(df_customers), on="CustomerName", how="left")
df_broadcast.show()

2. 分区： 正确的分区可以显着提高连接操作的性能。主要基于连接键对 DataFrames 进行重新分区可能会导致更有效的连接。

# Repartition DataFrames
df_sales_repart = df_sales.repartition("CustomerName")
df_customers_repart = df_customers.repartition("CustomerName")

# Perform join on repartitioned DataFrames
df_repart_join = df_sales_repart.join(df_customers_repart, on="CustomerName", how="left")
df_repart_join.show()

3. 缓存： 缓存经常使用的 DataFrames 可以加速后续操作。

# Cache DataFrame
df_sales.cache()
df_customers.cache()

# Perform join
df_cached_join = df_sales.join(df_customers, on="CustomerName", how="left")
df_cached_join.show()

处理重复列

当合并 DataFrames 时，尤其是使用连接，您可能会遇到重复的列。PySpark 提供了处理此问题的方法

1. 使用别名

# Alias columns to avoid duplication
df_sales_alias = df_sales.alias("sales")
df_customers_alias = df_customers.alias("customers")

# Perform join
df_join_alias = df_sales_alias.join(df_customers_alias, df_sales_alias.CustomerName == df_customers_alias.CustomerName).select("sales.*", "customers.City")
df_join_alias.show()

2. 删除重复项

# Perform join and drop duplicate columns
df_join_drop = df_sales.join(df_customers, on="CustomerName", how="left").drop(df_customers.CustomerName)
df_join_drop.show()

3. 重命名列

# Rename columns before joining to avoid duplication
df_customers_renamed = df_customers.withColumnRenamed("CustomerName", "CustName")

# Perform join
df_join_rename = df_sales.join(df_customers_renamed, df_sales.CustomerName == df_customers_renamed.CustName)
df_join_rename.show()

结论

合并 DataFrames 是事实评估和处理中的一项基本操作。PySpark 提供了强大而灵活的策略来合并 DataFrames，包括各种形式的连接、联合操作和高级功能（如 `combineByKey`）。了解这些策略并了解如何使用它们可以显着美化您的事实处理工作流程。

通过学习连接和联合操作并处理性能注意事项，您可以高效地合并 PySpark 中的大型数据集，从而实现更全面和有洞察力的记录分析。无论您是将销售信息与购买者统计信息组合在一起，将产品信息与库存状态合并在一起，还是执行复杂的聚合，PySpark 的强大功能使其成为大型统计程序的灵活工具。

下一个主题Pyspark-unionall

← 上一个下一个 →

PySpark 合并

了解 PySpark DataFrame

在 PySpark 中合并 DataFrames

方法 1：使用连接

方法 2：使用 Union

方法 3：使用 `combineByKey`

实际示例

示例 1：合并销售额和客户数据

示例 2：合并产品和库存数据

示例 3：合并员工和部门数据

示例 4：合并网站流量和用户数据

示例 5：合并订单和产品数据

性能考虑

处理重复列

1. 使用别名

2. 删除重复项

3. 重命名列

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

PySpark 教程

PySpark 合并

了解 PySpark DataFrame

在 PySpark 中合并 DataFrames

方法 1：使用连接

方法 2：使用 Union

方法 3：使用 `combineByKey`

实际示例

示例 1：合并销售额和客户数据

示例 2：合并产品和库存数据

示例 3：合并员工和部门数据

示例 4：合并网站流量和用户数据

示例 5：合并订单和产品数据

性能考虑

处理重复列

1. 使用别名

2. 删除重复项

3. 重命名列

结论

相关帖子

PySpark Profiler

PySpark StatusTracker

PySpark GroupBy 平均值

PySpark 逻辑回归

PySpark 教程

PySpark 数据框转 CSV

PySpark SQL

PySpark unionAll

PySpark 安装

PySpark 序列化器

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器