使用 Python 处理 PDF 文件

2025年03月17日 | 阅读 9 分钟

在当今世界，我们都熟悉 PDF 文件，因为它们是最广泛使用的文档数字格式之一。PDF 的全称是“Portable Document Format”（便携式文档格式），它使用“.pdf”扩展名来保存文档文件。这独立于软件、硬件或操作系统，可用于可靠地呈现或交换文档。

PDF 由 Adobe 发明，现在由国际标准化组织维护，是一个开放标准。PDF 文件还可以包含链接、按钮、表单字段、音频、视频或其他业务逻辑，以便与用户或查看者进行更好的交互。

在本教程中，我们将讨论如何执行各种操作

如何从 PDF 中提取文本
如何旋转 PDF 页面
如何合并两个 PDF 文件
如何分割 PDF 文件
如何为 PDF 页面添加水印

我们可以通过使用简单的 Python 脚本来执行所有这些操作。

安装

为了与 PDF 文件进行交互，我们将使用一个第三方模块，即 **PyPDF2**。PyPDF2 是 Python 的一个内置库，用作 PDF 工具包。该模块能够

它可以提取文档信息，例如标题、作者姓名等等。
它可以分割文档文件的页面。
它可以裁剪 PDF 文档文件的页面。
它可以将多个页面合并到 PDF 文档文件中的单个页面。
它可以加密和解密 PDF 文件。

要安装 PyPDF2，我们可以从命令行使用以下命令

该模块的名称是区分大小写的，因此我们需要确保“y”是小写字母，并且模块名称中的所有内容都必须是大写字母。

使用 PyPDF2 模块对 PDF 文件执行操作

在本节中，我们将讨论使用 Python 中的 PyPDF2 模块可以对 PDF 文件执行的各种操作。

1. 如何从 PDF 文档文件中提取文本。

我们可以使用 Python 中的 PyPDF2 模块，通过以下方法从 PDF 文件中提取文本。

方法

要使用 Python 从 PDF 文件中提取文本，我们将遵循以下步骤

步骤 1：我们将以二进制模式打开名为 'exp.pdf' 的 PDF 文件，并将文件对象保存为“**pdf_File_Object**”。

步骤 2：我们将为“**PyPDF2**”模块的“**PDFFileReader**”类创建一个名为“**pdf_Reader**”的对象，然后我们将传递 PDF 文件对象并获取用于读取 PDF 的对象。

步骤 3：要获取 PDF 文档文件中的页数，我们将使用 **numPages**

步骤 4：我们将为 **“PyPDF2”** 模块的 **PageObject** 类创建一个名为“**page_Object**”的对象。PDF 阅读器对象有一个名为 **“getPage()”** 的函数，它接受页码作为参数并返回该页面的对象。

步骤 5：我们将使用 page object 的 extract text 函数从 PDF 页面提取文本。

步骤 6：最后，我们将关闭 PDF 文档文件对象。

代码

import PyPDF2 as PDF
 
# Here we will create a pdf file object
pdf_File_Object = open('exp.pdf', 'rb')
 
# Here, we will creat a pdf reader object
pdf_Reader = PDF.PdfFileReader(pdf_File_Object)
 
# Now we will print number of pages in pdf file
print("No. of pages in the given PDF file: ", pdf_Reader.numPages)
 
# Here, create a page object
page_Object = pdf_Reader.getPage(0)
 
# Now, we will extract text from page
print(page_Object.extractText())
 
# At last, close the pdf file object
pdf_File_Object.close()

输出

No. of pages in the given PDF file:  10
 
GUIDELINES
*
 
 
FOR 
 
RE
-
OPENING OF CAMPUS 
 
IN VIEW OF COVID
-
19 PANDEMIC
 
(FOR 
STUDENTS
)
 
2021
-
22

这将在输出中打印 PDF 文件第一页的文本。

2. 如何旋转 PDF 文件页面

我们可以使用 Python 中的 PyPDF2 模块来旋转 PDF 文件页面。

方法

为了旋转给定 PDF 文件的页面，我们将使用以下步骤

步骤 1：我们将为原始 PDF 创建一个 PDF 阅读器对象。

步骤 2：我们将把旋转后的页面写入新的 PDF 文件。为了写入 PDF 文件，我们将使用 **PyPDF2** 中 **pdfFileWriter** 类的对象。

步骤 3：我们将遍历原始 PDF 文档文件的每个页面。我们将使用 PDF 读取器类的 **getPage()** 函数获取页面对象。然后，我们将使用页面对象的 **rotateClockwise()** 函数旋转页面。

for page in range(pdf_Reader.numPages):
page_Object = pdf_Reader.getPage(page)
page_Object.rotateClockwise(rotation_1)
pdf_Writer.addPage(page_Object)

步骤 4：我们将使用 PDF 写入器类的 **addPage()** 函数将页面添加到 PDF 写入器对象，并传递旋转后的页面对象。

步骤 5：然后，我们将把 PDF 页面写入新创建的 PDF 文件。我们可以通过打开新文件对象并使用 PDF 写入器对象的 **write()** 函数来写入 PDF 页面。

new_File = open(new_File_Name, 'wb')
pdf_Writer.write(new_File)

步骤 6：我们将关闭原始 PDF 文件对象和新创建的新文件对象。

pdf_File_Object.close()
new_File.close()

代码

# Frst, we will import the modules
import PyPDF2 as PDF
 
def PDF_rotate(original_File_Name, new_File_Name, rotation_1):
 
    # Then, we will create a pdf File object of original pdf
    pdf_File_Object = open(original_File_Name, 'rb')
    
    # Then, we will create a pdf Reader object
    pdf_Reader = PDF.PdfFileReader(pdf_File_Object)
 
    # Then we will create a pdf writer object for new pdf
    pdf_Writer = PDF.PdfFileWriter()
     
    # Now, we will rotate each page of the PDF document
    for page in range(pdf_Reader.numPages):
 
        # Then, we will create rotated page object
        page_Object = pdf_Reader.getPage(page)
        page_Object.rotateClockwise(rotation_1)
 
        # We will add the rotated page object to pdf writer
        pdf_Writer.addPage(page_Object)
 
    # Now we will open a new pdf file object
    new_File = open(new_File_Name, 'wb')
     
    # We will write the rotated pages to new file
    pdf_Writer.write(new_File)
 
    # At last, we will close the original pdf file object
    pdf_File_Object.close()
     
    # And now, we will close the new pdf file object
    new_File.close()
     
 
def main():
 
    # original pdf file name
    original_File_Name = 'exp.pdf'
    
    # new pdf file name
    new_File_Name = 'rotated_exp.pdf'
     
    # rotation angle
    rotation_1 = 270
   
    # calling the PDF_rotate function
    PDF_rotate(original_File_Name, new_File_Name, rotation_1)
     
if __name__ == "__main__":
    # calling the main function
    main()

输出

原始文件

旋转后的文件

3. 如何合并两个 PDF 文件。

我们可以使用 Python 中的 PyPDF2 模块合并两个 PDF 文件。

方法

要在 Python 中合并两个 PDF 文件，我们将使用以下步骤

步骤 1：为了合并两个 PDF 文件，我们将使用 **PyPDF2** 的一个预建类 **pdfFileMerger**。

We will create an object called pdf_Merger of PDF merger class:
pdf_Merger = PDF.PdfFileMerger()

步骤 2：然后，我们将使用 **append()** 函数将每个 PDF 的文件对象附加到 PDF 合并器对象。

for pdf in pdf:
pdf_Merger.append(pdf)

步骤 3：最后，我们将使用 PDF 合并器对象的 write 方法将 PDF 页面写入输出 PDF 文件。

with open(output_1, 'wb') as K:
pdf_Merger.write(K)

代码

# First, we will import the modules
import PyPDF2 as PDF
 
 
def PDF_merge(pdf, output_1):
    # Here, we will create pdf file merger object
    pdf_Merger = PDF.PdfFileMerger()
 
    # now, we will append pdfs one by one
    for pdf in pdf:
        pdf_Merger.append(pdf)
 
    # then, we will write combined pdf to output pdf file
    with open(output_1, 'wb') as K:
        pdf_Merger.write(K)
 
 
def main():
    # here, we will select the pdf files to merge
    pdf = ['exp.pdf', 'rotated_exp.pdf']
 
    # Here, we will create output pdf file name
    output_1 = 'combined_exp.pdf'
 
    # Now, we will call pdf merge function
    PDF_merge(pdf = pdf, output_1 = output_1)
 
 
if __name__ == "__main__":
    # At last we will call the main function
    main()

输出

此代码的输出将是以名为 **combined_exp.pdf** 的合并 PDF 的形式，该文件是通过合并 **exp.pdf** 和 **rotate_exp.pdf** 文件获得的。

4. 如何分割 PDF 文件

我们可以根据需要，使用 PyPDF2 模块在 Python 中分割 PDF 文档文件。

在此代码中，我们将不使用新函数或类，而是使用简单的逻辑和迭代。PDF 的分割将根据我们传递的 splits_1 列表创建。

代码

# First, we will import the modules
import PyPDF2 as PDF
 
def PDF_split(pdf_1, splits_1):
    # here, we will create an input pdf file object
    pdf_File_Object = open(pdf_1, 'rb')
     
    # here, we will create pdf reader object
    pdf_Reader = PDF.PdfFileReader(pdf_File_Object)
     
    # Now we will start indexing of first slice
    start = 0
     
    # then we will start indexing of last slice
    end = splits_1[0]
     
     
    for g in range(len(splits_1) + 1):
        # we will create pdf writer object for (g + 1)th split
        pdf_Writer = PDF.PdfFileWriter()
         
        # output pdf file name
        output_pdf = pdf_1.split('.pdf')[0] + str(g) + '.pdf'
         
        # Now, we will add pages to pdf writer object
        for page_1 in range(start, end):
            pdf_Writer.addPage(pdf_Reader.getPage(page_1))
         
        # Here, we will write split pdf pages to pdf file
        with open(output_pdf, "wb") as K:
            pdf_Writer.write(K)
 
        # Now, we will interchange page split start position for next split
        start = end
        try:
            # then, we will set split end position for next split
            end = splits_1[g + 1]
        except IndexError:
            # then, we will set split end position for last split
            end = pdf_Reader.numPages
         
    # Now, we will close the input pdf file object
    pdf_File_Object.close()
             
def main():
    # pdf file to split
    pdf_1 = 'exp.pdf'
     
    # split page positions
    splits_1 = [2,4]
     
    # we will call PDF_split function to split pdf
    PDF_split(pdf_1, splits_1)
 
if __name__ == "__main__":
    # at last, we will call the main function
    main()

输出

此代码的输出将生成 3 个新的 PDF 文件，这些文件是主 PDF 的分割文件。我们可以在 PDF 文件夹中进行检查。它包含 3 个新的 PDF 文件。

5. 如何为 PDF 页面添加水印。

我们可以使用 Python 中的 PyPDF2 模块为 PDF 文档文件的页面添加水印。

方法

在此，我们将遵循与页面旋转示例相同的每个步骤，唯一的区别是

将使用 **add_watermark()** 函数将页面对象转换为水印页面对象。

为了理解 **add_watermark()** 函数的作用，我们可以看以下示例

wm_File_Object = open(wm_File, 'rb')
pdf_Reader = PDF.PdfFileReader(wm_File_Object) 
page_Object.mergePage(pdf_Reader.getPage(0))
wm_File_Object.close()
return page_Object

在此，首先我们创建了 watermark.pdf 文件的 PDF 阅读器对象。对于传递的页面对象，我们使用了 **mergepage()** 函数，该函数传递了 watermark PDF 阅读器对象的第一页的页面对象。这将导致 watermark PDF 叠加到传递的页面对象上。

代码

# First, we will import the modules
import PyPDF2 as PDF
 
def add_watermark_1(wm_File, page_Object):
    # here, we will open watermark pdf file
    wm_File_Object = open(wm_File, 'rb')
    
    # Now, we will create pdf reader object of watermark pdf file
    pdf_Reader = PDF.PdfFileReader(wm_File_Object)
     
    # then, we will merge watermark pdf's first page with passed page object.
    page_Object.mergePage(pdf_Reader.getPage(3))
     
    # Here, we will close the watermark pdf file object
    wm_File_Object.close()
     
    # we will return watermarked page object
    return page_Object
 
def main():
    # Now, we will create watermark pdf file name
    user_watermark = 'water_mark.pdf'
    
    # original pdf file name
    original_File_Name = 'exp.pdf'
     
    # new pdf file name
    new_File_Name = 'watermarked_exp.pdf'
     
    # now, we will create pdf File object of original pdf
    pdf_File_Object = open(original_File_Name, 'rb')
     
    # here, we will create a pdf Reader object
    pdf_Reader = PDF.PdfFileReader(pdf_File_Object)
 
    # create a pdf writer object for new pdf
    pdf_Writer = PDF.PdfFileWriter()
     
    # add watermark to each page
    for page_1 in range(pdf_Reader.numPages):
        # Now, we will create watermarked page object
        wm_page_Object = add_watermark(user_watermark, pdf_Reader.getPage(page_1))
         
        # then, we will add watermarked page object to pdf writer
        pdf_Writer.addPage(wm_page_Object)
 
    # new pdf file object
    new_File = open(new_File_Name, 'wb')
     
    # we will then write watermarked pages to new file
    pdf_Writer.write(new_File)
 
    # close the original pdf file object
    pdf_File_Object.close()
    # close the new pdf file object
    new_File.close()
 
if __name__ == "__main__":
    # call the main function
    main()

输出

watermark.pdf

user_watermark.pdf 文件

上面的代码将生成一个 **user_Watermark.pdf** 文件，其中包含 **water_mark.pdf** 文件中的水印。

结论

在本教程中，我们讨论了如何使用 Python 及其模块的函数和方法来操作 PDF 文件。

下一主题PDF 处理 Python

使用 Python 处理 PDF 文件

安装

使用 PyPDF2 模块对 PDF 文件执行操作

1. 如何从 PDF 文档文件中提取文本。

2. 如何旋转 PDF 文件页面

3. 如何合并两个 PDF 文件。

4. 如何分割 PDF 文件

5. 如何为 PDF 页面添加水印。

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python 问题

使用 Python 处理 PDF 文件

安装

使用 PyPDF2 模块对 PDF 文件执行操作

1. 如何从 PDF 文档文件中提取文本。

2. 如何旋转 PDF 文件页面

3. 如何合并两个 PDF 文件。

4. 如何分割 PDF 文件

5. 如何为 PDF 页面添加水印。

结论

相关帖子

使用 Python 生成二维码

编写 Python 程序打印所有可能的整数组合

正则表达式

Python 中的指针

如何练习 Python 编程

Python vs. Julia

APSchedular Python 示例

如何在 Python 中绘制曼德勃罗集

Python 中的最长公共前缀

使用 Python 在 Raspberry Pi 上构建物理项目

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器