PDFBox 提取电话号码2025年3月17日 | 阅读 3 分钟 PDFBox 库具有多种功能。它能够快速准确地从现有 PDF 文档中提取电话联系人。在本节中,我们将学习如何使用 Java 程序从 PDFBox 库中的现有文档中读取电话号码。PDF 文档还可能包含文本、动画和图像等内容。 请按照以下步骤从现有 PDF 文档中提取电话号码: 加载 PDF 文档我们可以使用静态 load() 方法加载现有 PDF 文档。此方法接受一个文件对象作为参数。我们也可以使用 PDFBox 的类名 PDDocument 来调用它。 实例化 StringBuilder 和 PDFTextStripper 类StringBuilder 和 PDFTextStripper 类用于从 PDF 文档中检索文本。我们可以像这样实例化这些类: 设置电话号码的模式Pattern 指的是我们正在寻找的电话号码的格式。在我们的示例中,我们正在寻找带有 10 位数字且至少两端都围绕着一个空格的电话号码。可以从以下位置设置模式: 检索电话号码我们可以使用 Matcher 检索电话号码,Matcher 指的是将找到模式的实际文本。如果找到电话号码,请使用 group() 方法打印电话号码,该方法指的是遵循我们指定的模式的下一个数字。 关闭文档完成任务后,我们需要使用 close() 方法关闭 PDDocument class object 。 示例-这是一个包含文本和电话号码的 PDF 文档。从这个 PDF 中,我们只想提取电话号码。在这里,我们假设电话号码的长度为 10 位数字。我们可以使用 Java 程序的 PDFBox 库来做到这一点。 ![]() Java 程序输出 成功执行上述程序后,我们可以看到以下输出。 ![]() 下一个主题PDFBox 处理元数据 |
我们请求您订阅我们的新闻通讯以获取最新更新。