Tika Jar 文件提取

2024 年 8 月 29 日 | 阅读 2 分钟

为了提取 Jar (Java 归档) 文件,Tika 提供了 PackageParser 类。这个类用于从 Jar 文件中提取内容和元数据。它位于 org.apache.tika.parser.pkg 包中,并包含各种构造函数和方法,如下表所示。

Tika PackageParser 构造函数

构造函数描述
public PackageParser()public PackageParser()

Tika PackageParser 方法

方法描述
public Set<MediaType> getSupportedTypes(ParseContext context)返回此解析器支持的媒体类型集。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException将文档流解析为 XHTML SAX 事件序列。
protected static Metadata handleEntryMetadata(String name, Date createAt, Date modifiedAt, Long size, XHTMLContentHandler xhtml) throws SAXException, IOException, TikaException

Tika PackageParser 示例

输出

Document Content:
META-INF/MANIFEST.MF
Manifest-Version: 1.0
Created-By: 1.7.0_01 (Oracle Corporation)
Main-Class: First





First.class
public synchronized class First {
    void First();
    public static void main(String[]);
}
Document Metadata:
Content-Type:   application/zip