Tika 解析文档为 XHTML2024 年 8 月 29 日 | 阅读 2 分钟 Tika 使用 ToXMLContentHandler 类来获取 XHTML 格式的输出。它将整个文档的 XHTML 内容作为字符串返回。 此类包含以下构造函数和方法。 Tika ToXMLContentHandler 构造函数以下是 ToXMLContentHandler 类的构造函数。
Tika ToXMLContentHandler 方法以下是 ToXMLContentHandler 类的方法。
Tika 解析文档为 XHTML 示例此示例生成 XHTML 格式的输出,而输入为文本格式。 输出 以下是 hello.txt 文件的内容。 Hello Welcome to Javatpoint 提取后,它生成 XHTML 格式的输出。见下文。 <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser" /> <meta name="X-Parsed-By" content="org.apache.tika.parser.txt.TXTParser" /> <meta name="Content-Encoding" content="ISO-8859-1" /> <meta name="Content-Type" content="text/plain; charset=ISO-8859-1" /> <title></title> </head> <body><p>Hello Welcome to Javatpoint</p> </body></html> 下一个主题Tika 提取 HTML 文件 |
我们请求您订阅我们的新闻通讯以获取最新更新。