Tika 提取 PDF 文件2024 年 8 月 29 日 | 阅读 2 分钟 为了从 PDF 文件中提取内容,Tika 使用 PDFParser。 PDFParser 是一个类,用于从 PDF 文件中提取内容和元数据。这个类位于 org.apache.tika.parser.pdf 包中。 它包含构造函数和方法,如下表所示。 Tika PDFParser 构造函数
Tika PDFParser 方法
Tika 提取 PDF 文件示例在以下示例中,我们从 PDF 文件中提取内容和元数据。 输出 Document Content: Welcome to the Javatpoint. Javatpoint is a Technical portal that contains latest computer science topics. Document Metadata: pdf:PDFVersion: 1.4 xmp:CreatorTool: Online2PDF.com access_permission:modify_annotations: true access_permission:can_print_degraded: true meta:creation-date: 2018-05-05T11:25:40Z created: Sat May 05 16:55:40 IST 2018 access_permission:extract_for_accessibility: true access_permission:assemble_document: true xmpTPg:NPages: 1 Creation-Date: 2018-05-05T11:25:40Z dcterms:created: 2018-05-05T11:25:40Z dc:format: application/pdf; version=1.4 access_permission:extract_content: true access_permission:can_print: true pdf:docinfo:creator_tool: Online2PDF.com access_permission:fill_in_form: true pdf:encrypted: false producer: Online2PDF.com access_permission:can_modify: true pdf:docinfo:producer: Online2PDF.com pdf:docinfo:created: 2018-05-05T11:25:40Z Content-Type: application/pdf 下一主题Tika 提取 XML 文件 |
我们请求您订阅我们的新闻通讯以获取最新更新。