PySpark 中聚合数据的 3 种方法2025 年 1 月 7 日 | 阅读 3 分钟 PySpark 简介PySpark 是 Apache Spark 的 Python API。Apache Spark 是一个开源的分布式计算框架,专为大数据处理和分析而设计。通过将 Spark 核心引擎与 Python 语言集成,PySpark 允许 Python 开发者利用 Spark 的并行处理能力。这包括数据操作、机器学习和流处理等任务。 PySpark 的关键组件
PySpark 数据聚合的不同方法在本节中,我们将讨论一些在 PySpark 中聚合数据的方法。 方法 1:使用 `groupBy` 和 `agg``groupBy` 和 `agg` 方法通常用于对分组数据执行多个操作。`groupBy` 按所需列对 DataFrame 进行分组,而 `agg` 对每个组执行聚合操作。 代码 输出 +----------------+-----------------------------+----------------+--------------+ |Department| Average Salary|Total Salary|Max Salary| +----------------+-----------------------------+----------------+--------------+ | Sales|1833.3333333333333| 5500| 3000| | Marketing| 1900.0| 3800| 2000| +----------------+-----------------------------+-----------------+-------------+ 说明
方法 2:使用 `groupBy` 和聚合函数可以对分组 DataFrame 直接实现 `count`、`mean`、`sum` 等聚合函数。直接在分组 DataFrame 上应用聚合函数可以简化常见聚合的语法。 代码 输出 +----------------+-------+ |Department|count| +----------------+-------+ | Sales| 3| | Marketing| 2| +-----------------+------+ 说明
方法 3:使用 `pivot``pivot` 方法在重塑数据方面非常有用,尤其是在创建数据透视表时。`pivot` 允许您将数据从行转换为列,并在过程中聚合数据。 代码 输出 +----------+-------------+-------+ | Name|Marketing|Sales| +----------+--------------+------+ | Charlie| NULL|3000| | Bob| 1800|1500| | Alice| 2000|1000| +---------+---------------+------+ 说明
|
我们请求您订阅我们的新闻通讯以获取最新更新。