PDFBox 验证

17 Mar 2025 | 阅读 2 分钟

Apache PDFBox 库提供了 PreflightParser 类。 使用此类,我们可以验证 PDF 文档。 ApachePreflight 库是一个 Java 工具,它实现了一个符合 ISO-19005 规范 (又名 PDF/A-1) 的解析器。

验证错误类别

在 PDFBox 库中,如果验证失败,验证结果对象将包含所有失败的原因。 为了理解验证失败,所有错误代码都具有以下形式 X [.Y [.Z]] ,其中 -

  • X -> 它是类别 (示例 - 字体验证错误)
  • Y -> 它代表类别的子部分 (示例 - “带有字形 (符号) 错误的字体”)
  • Z -> 它代表错误的起因 (示例 - “带有缺失字形的字体”)

注意:类别 ('Y') 和起因 ('Z') 可能会缺失,具体取决于识别错误细节的难度。

请按照以下步骤在 PDF 文档中执行验证 -

加载现有文档

插入 fileName 的路径作为字符串文件,该文件可以在以下代码中显示。

使用给定的 PDF 文件实例化解析器

实例化 PreflightParser 类,并将现有的 fileName 作为其参数传递。

调用 parse() 方法

parse() 方法用于解析流并填充 COSDocument 对象。 COSDocument 对象允许访问 PDF 文档的所有方面。

获取预检文档并进行验证。

示例-

输出

成功执行上述程序后,将在下面显示以下输出消息。


PDFBox Validation