Tika Parser API17 Mar 2025 | 阅读 2 分钟 Tika Parser 是一个接口,提供从任何类型的文档中提取内容和元数据的功能。 它是 Tika 的关键组件,组织在 org.apache.tika.parser 包中。 它提供了一个 parse() 方法,该方法具有以下签名。 它接受四个参数:InputStream、ContentHandler、Metadata 和 ParseContect 类对象。 下面显示了四个参数各自的用途。

这些参数具有以下描述。 参数 | 描述 |
---|
InputStream stream | 文档从此输入流读取。 | ContentHandler handler | ContentHandler 是一个处理文档内容的接口。 | Metadata metadata | 它是一个多值元数据容器。 | ParseContext context | 它用于将上下文信息传递给 Tika 解析器。 |
Tika 还提供了 AutoDetectParser 类,它可以自动确定文件包含的内容类型,然后调用相应的解析器。 除此之外,它还支持各种其他的解析器类,这些类可以用来解析 parse 类类型的文档。 见下表。 解析器 | 包 | 描述 |
---|
AppleSingleFileParser | org.apache.tika.parser.apple | 它用于解析 apple 文件。 | ClassParser | org.apache.tika.parser.asm | 它用于解析 class 文件。 | AudioParser | org.apache.tika.parser.audio | 它用于解析音频文件。 | MidiParser | org.apache.tika.parser.audio | 它用于解析 midi 文件。 | Pkcs7Parser | org.apache.tika.parser.crypto | 它用于解析 pkcs7。 | TSDParser | org.apache.tika.parser.crypto | 它用于解析 tsd。 | DWGParser | org.apache.tika.parser.dwg | 它用于解析 dwg。 | EnviHeaderParser | org.apache.tika.parser.envi | 它用于解析 envi。 | EpubParser | org.apache.tika.parser.epub | 它用于解析 epub。 | ExecutableParser | org.apache.tika.parser.executable | 它用于解析 executable。 | HtmlParser | org.apache.tika.parser.html | 它用于解析 html 文件。 | ImageParser | org.apache.tika.parser.image | 它用于解析图像文件。 | WebPParser | org.apache.tika.parser.image | 它用于解析 webp。 | IptcAnpaParser | org.apache.tika.parser.iptc | 它用于解析 iptcanpa。 | JpegParser | org.apache.tika.parser.jpeg | 它用于解析 jpeg。 | DBFParser | org.apache.tika.parser.dbf | 它用于解析 dbf 文件。 | Mp3Parser | org.apache.tika.parser.mp3 | 它用于解析 mp3。 | MP4Parser | org.apache.tika.parser.mp4 | 它用于解析 mp4。 | PDFParser | org.apache.tika.parser.pdf | 它用于解析 pdf 文件。 |
Tika 解析器示例在此示例中,我们使用 AutoDetectParser 自动检测文档类型,然后解析内容和元数据。 输出 以下是提取后的 hello.txt 文件的内容。 Hello Welcome to Javatpoint
|