PDFBox 读取文本

17 Mar 2025 | 阅读 2 分钟

PDFBox 库的主要功能之一是能够快速准确地从现有 PDF 文档中提取文本。在本节中,我们将学习如何使用 Java 程序在 PDFBox 库中从现有文档中读取文本。PDF 文档可能包含文本、动画和图像等作为其文本内容。我们可以使用 PDFTextStripper 类getText() 方法从现有 PDF 文档中提取文本。

按照以下步骤从现有 PDF 文档中读取文本-

加载 PDF 文档

我们可以使用静态 load() 方法加载现有的 PDF 文档。此方法接受一个文件对象作为参数。我们也可以使用 PDFBoxPDDocument 类名来调用它。

实例化 PDFTextStripper 类

PDFTextStripper 类用于从 PDF 文档中检索文本。我们可以按如下方式实例化此类-

检索文本

getText() 方法用于从 PDF 文档中读取文本内容。 在此方法中,我们需要将文档对象作为参数传递。 此方法将文本作为字符串对象返回。

关闭文档

完成任务后,我们需要使用 close() 方法关闭 PDDocument 类对象。

示例-

这是一个 PDF 文档,我们将使用 Java 程序的 PDFBox 库从中提取文本内容。


PDFBox Reading Text

Java 程序-

输出

成功执行后,上面的程序会从 PDF 文档中检索文本,如以下输出所示。


PDFBox Reading Text