Tika 提取 PDF 文件

2024 年 8 月 29 日 | 阅读 2 分钟

为了从 PDF 文件中提取内容,Tika 使用 PDFParser。 PDFParser 是一个类,用于从 PDF 文件中提取内容和元数据。这个类位于 org.apache.tika.parser.pdf 包中。

它包含构造函数和方法,如下表所示。

Tika PDFParser 构造函数

构造函数描述
public PDFParser()它用于创建此类的实例。

Tika PDFParser 方法

方法描述
public Set<MediaType> getSupportedTypes(ParseContext context)当与给定的解析上下文一起使用时,它返回此解析器支持的媒体类型集合。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException将文档流解析为 XHTML SAX 事件序列。
public PDFParserConfig getPDFParserConfig()它用于获取 pdfparser 配置。
public void setPDFParserConfig(PDFParserConfig config)它用于设置 pdfparser 的配置
public void setEnableAutoSpace(boolean v)解析器应估计在单词之间插入空格的位置。
public boolean getExtractAnnotationText()它提取注释中的文本。
public void setExtractAnnotationText(boolean v)如果为 true(默认值),将提取注释中的文本。
public void setSuppressDuplicateOverlappingText(boolean v)如果为 true,解析器应尝试删除同一区域上的重复文本。

Tika 提取 PDF 文件示例

在以下示例中,我们从 PDF 文件中提取内容和元数据。

输出

Document Content:
Welcome to the Javatpoint. 
 
Javatpoint is a Technical portal that contains latest computer science topics. 



Document Metadata:
pdf:PDFVersion:   1.4
xmp:CreatorTool:   Online2PDF.com
access_permission:modify_annotations:   true
access_permission:can_print_degraded:   true
meta:creation-date:   2018-05-05T11:25:40Z
created:   Sat May 05 16:55:40 IST 2018
access_permission:extract_for_accessibility:   true
access_permission:assemble_document:   true
xmpTPg:NPages:   1
Creation-Date:   2018-05-05T11:25:40Z
dcterms:created:   2018-05-05T11:25:40Z
dc:format:   application/pdf; version=1.4
access_permission:extract_content:   true
access_permission:can_print:   true
pdf:docinfo:creator_tool:   Online2PDF.com
access_permission:fill_in_form:   true
pdf:encrypted:   false
producer:   Online2PDF.com
access_permission:can_modify:   true
pdf:docinfo:producer:   Online2PDF.com
pdf:docinfo:created:   2018-05-05T11:25:40Z
Content-Type:   application/pdf