Tika解析文档为纯文本

2024年8月29日 | 1 分钟阅读

Tika允许我们以各种格式(如文本、html或xhtml等)获取提取的内容。 ContentHandler类负责返回内容。 如果我们想将文档正文的内容作为纯文本获取,我们也可以使用BodyContentHandler。

让我们看一个例子,在这个例子中,我们从html文件得到纯文本输出。

Tika解析为纯文本示例

输出

以下是我们的html文件。

// index. html

<html>
<head>
<title>Index Page</title>
</head>
<body>
<h2>Hello, Welcome to Javatpoint. </h2>
</body>
</html>

提取后,它以纯文本形式生成输出。

Hello, Welcome to Javatpoint.