Tika Html 文件提取2024 年 8 月 29 日 | 阅读 2 分钟 为了提取 HTML 文件的内容,Tika 使用 HtmlParser。 HtmlParser 是一个类,用于提取 HTML 文件的内容和元数据。 这个类位于 org.apache.tika.parser.html 包中。 它包含如下表的构造函数和方法。 Tika HtmlParser 构造函数构造函数 | 描述 |
---|
public HtmlParser() | 它用于创建类的实例。 | public HtmlParser(EncodingDetector encodingDetector) | 它通过获取 EncodingDetector 类的实例来创建 HtmlParser 类的实例。 |
Tika HtmlParser 方法方法 | 描述 |
---|
public Set<MediaType> getSupportedTypes(ParseContext context) | 当与给定的解析上下文一起使用时,它返回此解析器支持的媒体类型集合。 | public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException | 将文档流解析为 XHTML SAX 事件序列。 | protected String mapSafeElement(String name) | 它用于将安全的 HTML 元素名称映射到语义 XHTML 等效项。 | protected boolean isDiscardElement(String name) | 它检查是否应丢弃给定 HTML 元素内的所有内容,而不是将其包含在解析输出中。 | public String mapSafeAttribute(String elementName, String attributeName) | 它使用 HtmlMapper 机制来自定义 HTML 映射。 | @Field public void setExtractScripts(boolean extractScripts) | 它确定是否提取脚本实体中的内容。 | public boolean getExtractScripts() | 它用于获取提取的脚本。 |
Tika Html 文件提取示例在此示例中,我们提取 Html 文件的内容和元数据。 请参见示例。 输出 Document Content:
Hello, Welcome to Javatpoint.
Document Metadata:
dc:title: Index Page
Content-Encoding: ISO-8859-1
title: Index Page
Content-Type: text/html; charset=ISO-8859-1
|