Tika 提取 PDF 文件

2024 年 8 月 29 日 | 阅读 2 分钟

为了从 PDF 文件中提取内容，Tika 使用 PDFParser。 PDFParser 是一个类，用于从 PDF 文件中提取内容和元数据。这个类位于 org.apache.tika.parser.pdf 包中。

它包含构造函数和方法，如下表所示。

Tika PDFParser 构造函数

构造函数	描述
public PDFParser()	它用于创建此类的实例。

Tika PDFParser 方法

方法	描述
public Set<MediaType> getSupportedTypes(ParseContext context)	当与给定的解析上下文一起使用时，它返回此解析器支持的媒体类型集合。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException	将文档流解析为 XHTML SAX 事件序列。
public PDFParserConfig getPDFParserConfig()	它用于获取 pdfparser 配置。
public void setPDFParserConfig(PDFParserConfig config)	它用于设置 pdfparser 的配置
public void setEnableAutoSpace(boolean v)	解析器应估计在单词之间插入空格的位置。
public boolean getExtractAnnotationText()	它提取注释中的文本。
public void setExtractAnnotationText(boolean v)	如果为 true（默认值），将提取注释中的文本。
public void setSuppressDuplicateOverlappingText(boolean v)	如果为 true，解析器应尝试删除同一区域上的重复文本。

Tika 提取 PDF 文件示例

在以下示例中，我们从 PDF 文件中提取内容和元数据。

package tikaexample;
import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class PdfParserExample {
	public static void main(String[] args) throws IOException, SAXException, TikaException {
		 BodyContentHandler handler   = new BodyContentHandler();
		 PDFParser parser             = new PDFParser();
		 Metadata metadata            = new Metadata();
		 ParseContext pcontext        = new ParseContext();
		 try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("javatpoint.pdf")) {
		        parser.parse(stream, handler, metadata, pcontext);
	     System.out.println("Document Content:" + handler.toString());
	     System.out.println("Document Metadata:");
	     String[] metadatas = metadata.names(); 
	     for(String data : metadatas) {
	         System.out.println(data + ":   " + metadata.get(data));  
	     }
		 }catch(Exception e) {System.out.println("Exception message: "+ e.getMessage());}
	   }
	}

输出

Document Content:
Welcome to the Javatpoint. 
 
Javatpoint is a Technical portal that contains latest computer science topics. 



Document Metadata:
pdf:PDFVersion:   1.4
xmp:CreatorTool:   Online2PDF.com
access_permission:modify_annotations:   true
access_permission:can_print_degraded:   true
meta:creation-date:   2018-05-05T11:25:40Z
created:   Sat May 05 16:55:40 IST 2018
access_permission:extract_for_accessibility:   true
access_permission:assemble_document:   true
xmpTPg:NPages:   1
Creation-Date:   2018-05-05T11:25:40Z
dcterms:created:   2018-05-05T11:25:40Z
dc:format:   application/pdf; version=1.4
access_permission:extract_content:   true
access_permission:can_print:   true
pdf:docinfo:creator_tool:   Online2PDF.com
access_permission:fill_in_form:   true
pdf:encrypted:   false
producer:   Online2PDF.com
access_permission:can_modify:   true
pdf:docinfo:producer:   Online2PDF.com
pdf:docinfo:created:   2018-05-05T11:25:40Z
Content-Type:   application/pdf

下一主题Tika 提取 XML 文件

Tika 提取 PDF 文件

Tika PDFParser 构造函数

Tika PDFParser 方法

Tika 提取 PDF 文件示例

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Tika教程

Tika文档解析

Tika提取

Tika 提取 PDF 文件

Tika PDFParser 构造函数

Tika PDFParser 方法

Tika 提取 PDF 文件示例

相关帖子

提取文本文件

提取Class文件

提取Jar文件

提取HTML文件

提取Mp4文件

提取Flv文件

提取MS Words文件

提取图像

提取XML文件

提取Mp3文件

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器