Tika Parser API17 Mar 2025 | 阅读 2 分钟 Tika Parser 是一个接口,提供从任何类型的文档中提取内容和元数据的功能。 它是 Tika 的关键组件,组织在 org.apache.tika.parser 包中。 它提供了一个 parse() 方法,该方法具有以下签名。 它接受四个参数:InputStream、ContentHandler、Metadata 和 ParseContect 类对象。 下面显示了四个参数各自的用途。

这些参数具有以下描述。 | 参数 | 描述 |
|---|
| InputStream stream | 文档从此输入流读取。 | | ContentHandler handler | ContentHandler 是一个处理文档内容的接口。 | | Metadata metadata | 它是一个多值元数据容器。 | | ParseContext context | 它用于将上下文信息传递给 Tika 解析器。 |
Tika 还提供了 AutoDetectParser 类,它可以自动确定文件包含的内容类型,然后调用相应的解析器。 除此之外,它还支持各种其他的解析器类,这些类可以用来解析 parse 类类型的文档。 见下表。 | 解析器 | 包 | 描述 |
|---|
| AppleSingleFileParser | org.apache.tika.parser.apple | 它用于解析 apple 文件。 | | ClassParser | org.apache.tika.parser.asm | 它用于解析 class 文件。 | | AudioParser | org.apache.tika.parser.audio | 它用于解析音频文件。 | | MidiParser | org.apache.tika.parser.audio | 它用于解析 midi 文件。 | | Pkcs7Parser | org.apache.tika.parser.crypto | 它用于解析 pkcs7。 | | TSDParser | org.apache.tika.parser.crypto | 它用于解析 tsd。 | | DWGParser | org.apache.tika.parser.dwg | 它用于解析 dwg。 | | EnviHeaderParser | org.apache.tika.parser.envi | 它用于解析 envi。 | | EpubParser | org.apache.tika.parser.epub | 它用于解析 epub。 | | ExecutableParser | org.apache.tika.parser.executable | 它用于解析 executable。 | | HtmlParser | org.apache.tika.parser.html | 它用于解析 html 文件。 | | ImageParser | org.apache.tika.parser.image | 它用于解析图像文件。 | | WebPParser | org.apache.tika.parser.image | 它用于解析 webp。 | | IptcAnpaParser | org.apache.tika.parser.iptc | 它用于解析 iptcanpa。 | | JpegParser | org.apache.tika.parser.jpeg | 它用于解析 jpeg。 | | DBFParser | org.apache.tika.parser.dbf | 它用于解析 dbf 文件。 | | Mp3Parser | org.apache.tika.parser.mp3 | 它用于解析 mp3。 | | MP4Parser | org.apache.tika.parser.mp4 | 它用于解析 mp4。 | | PDFParser | org.apache.tika.parser.pdf | 它用于解析 pdf 文件。 |
Tika 解析器示例在此示例中,我们使用 AutoDetectParser 自动检测文档类型,然后解析内容和元数据。 输出 以下是提取后的 hello.txt 文件的内容。 Hello Welcome to Javatpoint
|