PDFBox 提取电话号码

2025年3月17日 | 阅读 3 分钟

PDFBox 库具有多种功能。它能够快速准确地从现有 PDF 文档中提取电话联系人。在本节中,我们将学习如何使用 Java 程序从 PDFBox 库中的现有文档中读取电话号码。PDF 文档还可能包含文本、动画和图像等内容。

请按照以下步骤从现有 PDF 文档中提取电话号码:

加载 PDF 文档

我们可以使用静态 load() 方法加载现有 PDF 文档。此方法接受一个文件对象作为参数。我们也可以使用 PDFBox 的类名 PDDocument 来调用它。

实例化 StringBuilder 和 PDFTextStripper 类

StringBuilderPDFTextStripper 类用于从 PDF 文档中检索文本。我们可以像这样实例化这些类:

设置电话号码的模式

Pattern 指的是我们正在寻找的电话号码的格式。在我们的示例中,我们正在寻找带有 10 位数字且至少两端都围绕着一个空格的电话号码。可以从以下位置设置模式:

检索电话号码

我们可以使用 Matcher 检索电话号码,Matcher 指的是将找到模式的实际文本。如果找到电话号码,请使用 group() 方法打印电话号码,该方法指的是遵循我们指定的模式的下一个数字。

关闭文档

完成任务后,我们需要使用 close() 方法关闭 PDDocument class object

示例-

这是一个包含文本电话号码的 PDF 文档。从这个 PDF 中,我们只想提取电话号码。在这里,我们假设电话号码的长度为 10 位数字。我们可以使用 Java 程序的 PDFBox 库来做到这一点。


PDFBox Extracting Phone Numbers

Java 程序

输出

成功执行上述程序后,我们可以看到以下输出。


PDFBox Extracting Phone Numbers
下一个主题PDFBox 处理元数据