Tika XML 文件提取

2024 年 8 月 29 日 | 阅读 2 分钟

要提取 XML 文件,Tika 提供了 XMLParser 类。此类用于从 XML 文件中提取内容和元数据。它位于 org.apache.tika.parser.xml 包中。

此类包含构造函数和方法,如下表所示。

Tika XMLParser 构造函数

构造函数描述
public XMLParser()它用于创建类的实例。

Tika XMLParser 方法

方法描述
public Set<MediaType> getSupportedTypes(ParseContext context)返回此解析器支持的媒体类型集。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException将文档流解析为 XHTML SAX 事件序列。
protected ContentHandler getContentHandler(ContentHandler handler, Metadata metadata, ParseContext context)它用于获取内容处理程序。

Tika XML 文件提取示例

在此示例中,我们将从 XML 文件中提取内容和元数据。请参见示例。

// web.xml

我们的 XML 文件。

输出

Document Content: 
         default
         org.apache.catalina.servlets.DefaultServlet
         
             debug
             0
        
         
             listings
             false
        
         1
    

Document Metadata:
Content-Type:   application/xml