Tika Html 文件提取

2024 年 8 月 29 日 | 阅读 2 分钟

为了提取 HTML 文件的内容,Tika 使用 HtmlParser。 HtmlParser 是一个类,用于提取 HTML 文件的内容和元数据。 这个类位于 org.apache.tika.parser.html 包中。 它包含如下表的构造函数和方法。

Tika HtmlParser 构造函数

构造函数描述
public HtmlParser()它用于创建类的实例。
public HtmlParser(EncodingDetector encodingDetector)它通过获取 EncodingDetector 类的实例来创建 HtmlParser 类的实例。

Tika HtmlParser 方法

方法描述
public Set<MediaType> getSupportedTypes(ParseContext context)当与给定的解析上下文一起使用时,它返回此解析器支持的媒体类型集合。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException将文档流解析为 XHTML SAX 事件序列。
protected String mapSafeElement(String name)它用于将安全的 HTML 元素名称映射到语义 XHTML 等效项。
protected boolean isDiscardElement(String name)它检查是否应丢弃给定 HTML 元素内的所有内容,而不是将其包含在解析输出中。
public String mapSafeAttribute(String elementName, String attributeName)它使用 HtmlMapper 机制来自定义 HTML 映射。
@Field public void setExtractScripts(boolean extractScripts)它确定是否提取脚本实体中的内容。
public boolean getExtractScripts()它用于获取提取的脚本。

Tika Html 文件提取示例

在此示例中,我们提取 Html 文件的内容和元数据。 请参见示例。

输出

Document Content:
Hello, Welcome to Javatpoint. 

Document Metadata:
dc:title:   Index Page
Content-Encoding:   ISO-8859-1
title:   Index Page
Content-Type:   text/html; charset=ISO-8859-1