如何在 Pandas 中读取文件夹中的所有 CSV 文件？

2025年1月5日 | 阅读 4 分钟

引言

在数据科学和分析领域，处理大型数据集是一项常见任务。很多时候，数据分布在多个 CSV 文件中，将它们有效地读取到 Pandas DataFrame 中对于简化分析至关重要。在本文中，我们将探讨如何使用强大的 Pandas 库读取文件夹中的所有 CSV 文件，为您提供分步指南和最佳文件处理技巧。

导入必要的库

在深入了解读取 CSV 文件的细节之前，导入所需的库至关重要。Pandas 是数据操作的核心，因此请先导入它以及其他相关库。

import pandas as pd
import os

列出文件夹中的文件

第一步是获取目标文件夹中所有 CSV 文件的列表。Python 中的 os 模块在此任务中非常有用。使用 os.listdir() 函数获取指定目录中所有文件的列表。

folder_path = '/path/to/your/folder'
csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

确保您将 /path/to/your/folder 替换为包含 CSV 文件的实际文件夹路径。列表推导式会过滤掉非 CSV 文件，只留下相关的文件。

将 CSV 文件读取到 Pandas DataFrame 中

现在您已经拥有了 CSV 文件列表，下一步是循环遍历它们并将每个文件读取到 Pandas DataFrame 中。您可以使用循环或列表推导式来实现此目的。

dataframes = [pd.read_csv(os.path.join(folder_path, file)) for file in csv_files]

这里，os.path.join() 用于为每个 CSV 文件创建完整的文件路径，确保跨不同操作系统的兼容性。

连接 DataFrames

一旦您有了每个 CSV 文件的单独 DataFrame，下一步就是将它们连接成一个单一的 DataFrame。Pandas 提供了 pd.concat() 函数来实现此目的。

ignore_index=True 参数可确保生成的 DataFrame 具有连续的索引，而不会保留原始 DataFrame 的单独索引。

处理标题和索引

在某些情况下，CSV 文件可能包含您想保留的标题或索引。您可以自定义读取过程来处理这种情况。

dataframes = [pd.read_csv(os.path.join(folder_path, file), header=0, index_col=0) for file in csv_files]
merged_dataframe = pd.concat(dataframes)

根据您的具体要求调整 header 和 index_col 参数。将 header=None 设置为将导致自动命名列。

处理缺失值

数据完整性至关重要，处理缺失值是常见的预处理步骤。Pandas 提供了各种方法来处理缺失数据，例如 dropna()、fillna() 或插值方法。

merged_dataframe = merged_dataframe.dropna()
# or
merged_dataframe = merged_dataframe.fillna(value=0)

选择与您的分析目标和数据集特征相符的方法。

性能考虑

在处理大量 CSV 文件或大型数据集时，优化代码以提高性能至关重要。考虑使用 dask 库进行并行处理和改进内存管理。

import dask.dataframe as dd

dataframes = [dd.read_csv(os.path.join(folder_path, file)) for file in csv_files]
merged_dataframe = dd.concat(dataframes, axis=0)

dask 支持惰性求值，可以并行处理多个 CSV 文件，从而显著缩短总体执行时间。

代码实现

# data1.csv
Name,Age,Country
John,25,USA
Alice,30,Canada
Bob,22,UK

# data2.csv
Name,Age,Country
Eva,28,Germany
Charlie,35,USA
Sophie,27,France

# data3.csv
Name,Age,Country
David,40,Australia
Emma,32,Spain

代码

import pandas as pd
import os

# Step 1: Define the folder path
folder_path = 'csv_folder'

# Step 2: List all CSV files in the folder
csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

# Step 3: Read CSV files into Pandas DataFrames
dataframes = [pd.read_csv(os.path.join(folder_path, file)) for file in csv_files]

# Step 4: Concatenate DataFrames
merged_dataframe = pd.concat(dataframes, ignore_index=True)

# Display the merged DataFrame
print("Merged DataFrame:")
print(merged_dataframe)

输出

Merged DataFrame:
     Name  Age    Country
0    John   25        USA
1   Alice   30     Canada
2     Bob   22         UK
3     Eva   28    Germany
4  Charlie   35        USA
5  Sophie   27     France
6   David   40  Australia
7    Emma   32      Spain

结论

在这份详尽的指南中，我们探讨了使用 Pandas 读取文件夹中多个 CSV 文件的过程。从导入必要的库、列出文件夹中的文件到将它们读取到 Pandas DataFrame 中，我们涵盖了该过程的每一步。此外，我们还讨论了连接 DataFrame、处理标题和索引、处理缺失值以及使用 dask 库优化性能的技术。

高效处理多个 CSV 文件是任何数据科学家或分析师的基本技能，掌握这些技术无疑将增强您处理各种大型数据集的能力。通过遵循这些步骤，您可以简化工作流程，并在 Pandas 的数据操作和分析功能中发挥最大作用。

下一主题如何使用 NumPy 读取 CSV 文件

如何在 Pandas 中读取文件夹中的所有 CSV 文件？

引言

导入必要的库

列出文件夹中的文件

将 CSV 文件读取到 Pandas DataFrame 中

连接 DataFrames

处理标题和索引

处理缺失值

性能考虑

代码实现

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

如何在 Pandas 中读取文件夹中的所有 CSV 文件？

引言

导入必要的库

列出文件夹中的文件

将 CSV 文件读取到 Pandas DataFrame 中

连接 DataFrames

处理标题和索引

处理缺失值

性能考虑

代码实现

结论

相关帖子

时间序列预测的贝叶斯方法

如何在Python中安装Pomegranate

Python中的RocketPy库

Python中的PySide6模块

Python中的嵌套函数是如何工作的

Python中的属性列表

比较两个Pandas DataFrame的3种简单方法

如何使用Jpype和Pyjnius在Python中调用Java

Python中的地理空间数据抽象软件

Python 身份运算符

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器