Tika解析文档为纯文本2024年8月29日 | 1 分钟阅读 Tika允许我们以各种格式(如文本、html或xhtml等)获取提取的内容。 ContentHandler类负责返回内容。 如果我们想将文档正文的内容作为纯文本获取,我们也可以使用BodyContentHandler。 让我们看一个例子,在这个例子中,我们从html文件得到纯文本输出。 Tika解析为纯文本示例输出 以下是我们的html文件。 // index. html <html> <head> <title>Index Page</title> </head> <body> <h2>Hello, Welcome to Javatpoint. </h2> </body> </html> 提取后,它以纯文本形式生成输出。 Hello, Welcome to Javatpoint. 下一主题Tika解析文档为XHTML |
我们请求您订阅我们的新闻通讯以获取最新更新。