Tika 解析文档为 XHTML

2024 年 8 月 29 日 | 阅读 2 分钟

Tika 使用 ToXMLContentHandler 类来获取 XHTML 格式的输出。它将整个文档的 XHTML 内容作为字符串返回。

此类包含以下构造函数和方法。

Tika ToXMLContentHandler 构造函数

以下是 ToXMLContentHandler 类的构造函数。

构造函数	描述
public ToXMLContentHandler()	它用于创建类的实例。
public ToXMLContentHandler(String encoding)	它通过获取字符串参数来创建实例。

Tika ToXMLContentHandler 方法

以下是 ToXMLContentHandler 类的方法。

方法	描述
public void characters(char[] ch, int start, int length) throws SAXException	它将给定的字符写入给定的字符流。
protected void write(char ch) throws SAXException	它按原样写入给定的字符。
protected void write(String string) throws SAXException	它按原样写入给定的字符串。
public void startDocument() throws SAXException	它写入 XML 前缀。

Tika 解析文档为 XHTML 示例

此示例生成 XHTML 格式的输出，而输入为文本格式。

package tikaexample;

import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.ToXMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
public class XhtmlParseExample {
	public static void main(String[] args) throws IOException, SAXException, TikaException {
	    ContentHandler handler = new ToXMLContentHandler();
		 
	    AutoDetectParser pa0rser = new AutoDetectParser();
	    Metadata metadata = new Metadata(); 
	    try (InputStream stream = XhtmlParseExample.class.getResourceAsStream("Hello.txt")) {
	        parser.parse(stream, handler, metadata);
	        System.out.println(handler.toString());
	    }
	}
}

输出

以下是 hello.txt 文件的内容。

Hello Welcome to Javatpoint

提取后，它生成 XHTML 格式的输出。见下文。

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser" />
<meta name="X-Parsed-By" content="org.apache.tika.parser.txt.TXTParser" />
<meta name="Content-Encoding" content="ISO-8859-1" />
<meta name="Content-Type" content="text/plain; charset=ISO-8859-1" />
<title></title>
</head>
<body><p>Hello Welcome to Javatpoint</p>
</body></html>

下一个主题Tika 提取 HTML 文件

← 上一个下一个 →