PDFBox 使用元数据

17 Mar 2025 | 4 分钟阅读

PDF 文档有许多属性。这些属性提供了与 PDF 文档相关的元数据信息。 并非所有 PDF 文件都保证具有我们所需的所有元数据,因为某些字段是可选的。

PDF 文档包含以下属性-

文件名它保存文件的名称。
标题它用于设置 PDF 文档的标题。
作者它用于设置 PDF 文档的作者姓名。
主题它用于指定文档的主题。
应用它用于设置文档的应用程序。
关键字它用于创建可用于搜索文档的关键字列表。
创建时间它用于设置文档的创建日期。
修改时间它用于设置文档的修改日期。
制作人它用于设置文档的制作人名称。

PDFBox 提供了 PDDocumentInformation 类用于设置文档属性。此类具有一组 settergetter 方法。Setter 方法用于设置文档属性的值,getter 方法用于检索该值。

使用 Setter () 方法-

PDDocumentInformation 类 的重要 Setter 方法如下-

  1. setAuthor(String author)- 此方法用于设置 作者 姓名的值。
  2. setTitle(String title)- 此方法用于设置 PDF 文档 标题 的值。
  3. setCreator(String creator)- 此方法用于设置 PDF 文档的 创建者 的值。
  4. setSubject(String subject)- 此方法用于设置 PDF 文档的 主题
  5. setKeywords(String keywords list)- 此方法用于设置 关键字 的值。
  6. setCreationDate(Calander date)- 此方法用于设置 PDF 文档的 创建时间
  7. setModificationDate(Calander date)- 此方法用于设置 PDF 文档的 修改时间

示例-

此示例解释了如何将作者、标题、日期、主题等属性添加到 PDF 文档。

输出

成功执行上述程序后,它从 PDF 文档中检索文本,如以下输出所示。


PDFBox Working with Metadata

使用 getter () 方法-

PDDocumentInformation 类 的重要 getter 方法如下-

  1. getAuthor()- 此方法用于检索 作者姓名 的值。
  2. getTitle()- 此方法用于检索文档 标题名称 的值。
  3. getCreator()- 此方法用于检索文档 创建者姓名 的值。
  4. getSubject()- 此方法用于检索 PDF 文档的 主题名称 的值。
  5. getKeyword()- 此方法用于检索 PDF 文档的 关键字 的值。
  6. getCreationDate()- 此方法用于检索 PDF 文档的 创建日期 的值。
  7. getModificationDate()- 此方法用于检索 PDF 文档的 修改 日期的值。

示例-

此示例解释了如何将作者、标题、日期、主题等属性添加到 PDF 文档。

输出

成功执行上述程序后,它检索 PDF 文档的所有属性,这些属性可以在以下输出中显示。


PDFBox Working with Metadata