如何在 Python 中读取大型文本文件？

2025年1月5日 | 阅读 4 分钟

引言

在 Python 中处理大型文本文件可能是一项艰巨的任务，特别是当传统的读取方法效率低下且资源消耗过大时。大型文本文件可能包括日志文件、数据集、文本数据库等，高效地处理它们对于获得最佳性能至关重要。在本文中，我们将探讨 Python 提供的各种技术和库，以有效地读取大型文本文件，确保速度和内存效率。

1. 传统的文件读取方法

在深入研究更高级的技术之前，了解 Python 中读取文件的基本方法至关重要。内置的 `open()` 函数通常用于此目的。但是，在处理大型文件时，使用循环逐行读取可能不是最高效的方法。

with open('large_file.txt', 'r') as file:
    for line in file:
        process_line(line)

虽然这种方法很简单，但它可能会消耗大量的内存，特别是对于极大的文件，因为它会将整个文件加载到内存中。

2. 分块读取

一种更有效的方法是将文件分块读取，一次处理一部分。这可以最大限度地减少内存占用并提高性能。以下示例演示了分块读取文件

chunk_size = 1024  # Choose an appropriate chunk size
with open('large_file.txt', 'r') as file:
    while True:
        chunk = file.read(chunk_size)
        if not chunk:
            break
        process_chunk(chunk)

通过调整 `chunk_size` 参数，您可以平衡内存消耗和处理速度。请记住，过小的块可能会导致频繁的 I/O 操作，而过大的块可能会导致内存使用增加。

3. 使用 itertools 模块

`itertools` 模块提供了一个强大的工具 `islice`，它允许您高效地对可迭代对象（如文件）进行切片。当从大型文本文件中读取特定范围的行时，这特别有用。

from itertools import islice

with open('large_file.txt', 'r') as file:
    for line in islice(file, start_line, end_line):
        process_line(line)

通过指定 `start_line` 和 `end_line`，您可以只读取文件的相关部分，从而减少不必要的处理。

4. 内存映射文件

`mmap` 模块允许 Python 进行内存映射文件 I/O。此技术允许您将文件直接映射到内存，从而可以无缝访问其内容。内存映射文件对于不适合 RAM 的大型文件尤其有益。

import mmap

with open('large_file.txt', 'r') as file:
    with mmap.mmap(file.fileno(), length=0, access=mmap.ACCESS_READ) as mmapped_file:
        for line in iter(mmapped_file.readline, b''):
            process_line(line.decode('utf-8'))

这种方法可以高效地处理大型文件，分块读取，而无需将整个文件加载到内存中。

5. 使用第三方库

Python 中的一些第三方库专门用于高效处理大型数据集。一个值得注意的例子是 `pandas` 库，它在处理和分析大型数据结构方面表现出色。

import pandas as pd

chunk_size = 10000  # Choose an appropriate chunk size
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
    process_chunk(chunk)

Pandas 提供了 `read_csv` 函数，允许您以可管理块的形式读取大型 CSV 文件。这在处理大型数据集时非常有用，并且该库在底层进行了许多优化以提高性能。

6. 使用生成器

生成器内存效率高，在处理大型文件时非常有用。它们允许您创建一个一次生成一个值的迭代器，从而无需将整个文件加载到内存中。

def read_large_file(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line
large_file_generator = read_large_file('large_file.txt')
for line in large_file_generator:
    process_line(line)

当顺序处理大型文件时，生成器特别有利，与一次将整个文件加载到内存中相比，它们减少了内存开销。

用于压缩文件的 zipfile 模块

如果您的文本文件很大且已压缩，可以使用 zipfile 模块高效地读取其内容。这在处理大型日志存档或压缩数据集时特别有用。

import zipfile

with zipfile.ZipFile('large_file.zip', 'r') as zip_file:
    with zip_file.open('large_file.txt') as file:
        for line in file:
            process_line(line.decode('utf-8'))

此方法允许您直接从压缩文件中读取和处理内容，而无需完全解压缩。

结论

在 Python 中高效读取大型文本文件需要结合巧妙的技术和选择正确的工具。无论您选择分块读取、使用 `itertools` 模块、采用内存映射文件，还是利用 `pandas` 等第三方库，关键在于在内存使用量和处理速度之间取得平衡。通过应用这些技术，您可以有效地处理 Python 中的大型文本文件，确保在数据处理任务中获得最佳性能和资源利用率。

下一主题如何从文件夹中的 Python 读取多个文本文件

如何在 Python 中读取大型文本文件？

引言

1. 传统的文件读取方法

2. 分块读取

3. 使用 itertools 模块

4. 内存映射文件

5. 使用第三方库

6. 使用生成器

用于压缩文件的 zipfile 模块

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

如何在 Python 中读取大型文本文件？

引言

1. 传统的文件读取方法

2. 分块读取

3. 使用 itertools 模块

4. 内存映射文件

5. 使用第三方库

6. 使用生成器

用于压缩文件的 zipfile 模块

结论

相关帖子

Python中检测无向图中的循环

Python HTTP头

Python中双星运算符**是什么意思

使用 OpenCV 在 Python 中确定面部倾斜

如何使用NumPy读取CSV文件

如何导入其他Python文件

使用Python将高斯滤波器应用于图像

Python中的os.system()方法

如何在Python中递归扫描目录

如何在Matplotlib的子图中添加标题

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器