Tika 解析文档为 XHTML

2024 年 8 月 29 日 | 阅读 2 分钟

Tika 使用 ToXMLContentHandler 类来获取 XHTML 格式的输出。它将整个文档的 XHTML 内容作为字符串返回。

此类包含以下构造函数和方法。

Tika ToXMLContentHandler 构造函数

以下是 ToXMLContentHandler 类的构造函数。

构造函数描述
public ToXMLContentHandler()它用于创建类的实例。
public ToXMLContentHandler(String encoding)它通过获取字符串参数来创建实例。

Tika ToXMLContentHandler 方法

以下是 ToXMLContentHandler 类的方法。

方法描述
public void characters(char[] ch, int start, int length) throws SAXException它将给定的字符写入给定的字符流。
protected void write(char ch) throws SAXException它按原样写入给定的字符。
protected void write(String string) throws SAXException它按原样写入给定的字符串。
public void startDocument() throws SAXException它写入 XML 前缀。

Tika 解析文档为 XHTML 示例

此示例生成 XHTML 格式的输出,而输入为文本格式。

输出

以下是 hello.txt 文件的内容。

Hello Welcome to Javatpoint

提取后,它生成 XHTML 格式的输出。见下文。

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser" />
<meta name="X-Parsed-By" content="org.apache.tika.parser.txt.TXTParser" />
<meta name="Content-Encoding" content="ISO-8859-1" />
<meta name="Content-Type" content="text/plain; charset=ISO-8859-1" />
<title></title>
</head>
<body><p>Hello Welcome to Javatpoint</p>
</body></html>