Tika Parser API

17 Mar 2025 | 阅读 2 分钟

Tika Parser 是一个接口,提供从任何类型的文档中提取内容和元数据的功能。 它是 Tika 的关键组件,组织在 org.apache.tika.parser 包中。 它提供了一个 parse() 方法,该方法具有以下签名。

它接受四个参数:InputStream、ContentHandler、Metadata 和 ParseContect 类对象。 下面显示了四个参数各自的用途。


Tika Parser API

这些参数具有以下描述。

参数描述
InputStream stream文档从此输入流读取。
ContentHandler handlerContentHandler 是一个处理文档内容的接口。
Metadata metadata它是一个多值元数据容器。
ParseContext context它用于将上下文信息传递给 Tika 解析器。

Tika 还提供了 AutoDetectParser 类,它可以自动确定文件包含的内容类型,然后调用相应的解析器。

除此之外,它还支持各种其他的解析器类,这些类可以用来解析 parse 类类型的文档。 见下表。

解析器描述
AppleSingleFileParserorg.apache.tika.parser.apple它用于解析 apple 文件。
ClassParserorg.apache.tika.parser.asm它用于解析 class 文件。
AudioParserorg.apache.tika.parser.audio它用于解析音频文件。
MidiParserorg.apache.tika.parser.audio它用于解析 midi 文件。
Pkcs7Parserorg.apache.tika.parser.crypto它用于解析 pkcs7。
TSDParserorg.apache.tika.parser.crypto它用于解析 tsd。
DWGParserorg.apache.tika.parser.dwg它用于解析 dwg。
EnviHeaderParserorg.apache.tika.parser.envi它用于解析 envi。
EpubParserorg.apache.tika.parser.epub它用于解析 epub。
ExecutableParserorg.apache.tika.parser.executable它用于解析 executable。
HtmlParserorg.apache.tika.parser.html它用于解析 html 文件。
ImageParserorg.apache.tika.parser.image它用于解析图像文件。
WebPParserorg.apache.tika.parser.image它用于解析 webp。
IptcAnpaParserorg.apache.tika.parser.iptc它用于解析 iptcanpa。
JpegParserorg.apache.tika.parser.jpeg它用于解析 jpeg。
DBFParserorg.apache.tika.parser.dbf它用于解析 dbf 文件。
Mp3Parserorg.apache.tika.parser.mp3它用于解析 mp3。
MP4Parserorg.apache.tika.parser.mp4它用于解析 mp4。
PDFParserorg.apache.tika.parser.pdf它用于解析 pdf 文件。

Tika 解析器示例

在此示例中,我们使用 AutoDetectParser 自动检测文档类型,然后解析内容和元数据。

输出

以下是提取后的 hello.txt 文件的内容。

Hello Welcome to Javatpoint

下一个主题Tika 文档检测