Tika XML 文件提取

2024 年 8 月 29 日 | 阅读 2 分钟

要提取 XML 文件，Tika 提供了 XMLParser 类。此类用于从 XML 文件中提取内容和元数据。它位于 org.apache.tika.parser.xml 包中。

此类包含构造函数和方法，如下表所示。

Tika XMLParser 构造函数

构造函数	描述
public XMLParser()	它用于创建类的实例。

Tika XMLParser 方法

方法	描述
public Set<MediaType> getSupportedTypes(ParseContext context)	返回此解析器支持的媒体类型集。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException	将文档流解析为 XHTML SAX 事件序列。
protected ContentHandler getContentHandler(ContentHandler handler, Metadata metadata, ParseContext context)	它用于获取内容处理程序。

Tika XML 文件提取示例

在此示例中，我们将从 XML 文件中提取内容和元数据。请参见示例。

package tikaexample;

import java.io.InputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.xml.XMLParser;
import org.apache.tika.sax.BodyContentHandler;
public class XmlParserExample {	
	public static void main(String[] args) {
		 BodyContentHandler handler   = new BodyContentHandler();
		 XMLParser parser             = new XMLParser();
		 Metadata metadata            = new Metadata();
		 ParseContext pcontext        = new ParseContext();
		 try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("web.xml")) {
		        parser.parse(stream, handler, metadata, pcontext);
	     System.out.println("Document Content:" + handler.toString());
	     System.out.println("Document Metadata:");
	     String[] metadatas = metadata.names(); 
	     for(String data : metadatas) {
	         System.out.println(data + ":   " + metadata.get(data));  
	     }
		 }catch(Exception e) {System.out.println("Exception message: "+ e.getMessage());}
	}
}

// web.xml

我们的 XML 文件。

<?xml version="1.0" encoding="UTF-8"?>
   <servlet>
        <servlet-name>default</servlet-name>
        <servlet-class>org.apache.catalina.servlets.DefaultServlet</servlet-class>
        <init-param>
            <param-name>debug</param-name>
            <param-value>0</param-value>
        </init-param>
        <init-param>
            <param-name>listings</param-name>
            <param-value>false</param-value>
        </init-param>
        <load-on-startup>1</load-on-startup>
    </servlet>

输出

Document Content: 
         default
         org.apache.catalina.servlets.DefaultServlet
         
             debug
             0
        
         
             listings
             false
        
         1
    

Document Metadata:
Content-Type:   application/xml

下一个主题Tika 提取 MS Words 文件

← 上一个下一个 →

Tika XML 文件提取

Tika XMLParser 构造函数

Tika XMLParser 方法

Tika XML 文件提取示例

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Tika教程

Tika文档解析

Tika提取

Tika XML 文件提取

Tika XMLParser 构造函数

Tika XMLParser 方法

Tika XML 文件提取示例

相关帖子

提取Jar文件

提取Flv文件

提取Mp3文件

提取HTML文件

提取Class文件

提取MS Words文件

提取文本文件

提取Mp4文件

提取PDF文件

提取图像

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器