Tika Html 文件提取

2024 年 8 月 29 日 | 阅读 2 分钟

为了提取 HTML 文件的内容，Tika 使用 HtmlParser。 HtmlParser 是一个类，用于提取 HTML 文件的内容和元数据。这个类位于 org.apache.tika.parser.html 包中。它包含如下表的构造函数和方法。

Tika HtmlParser 构造函数

构造函数	描述
public HtmlParser()	它用于创建类的实例。
public HtmlParser(EncodingDetector encodingDetector)	它通过获取 EncodingDetector 类的实例来创建 HtmlParser 类的实例。

Tika HtmlParser 方法

方法	描述
public Set<MediaType> getSupportedTypes(ParseContext context)	当与给定的解析上下文一起使用时，它返回此解析器支持的媒体类型集合。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException	将文档流解析为 XHTML SAX 事件序列。
protected String mapSafeElement(String name)	它用于将安全的 HTML 元素名称映射到语义 XHTML 等效项。
protected boolean isDiscardElement(String name)	它检查是否应丢弃给定 HTML 元素内的所有内容，而不是将其包含在解析输出中。
public String mapSafeAttribute(String elementName, String attributeName)	它使用 HtmlMapper 机制来自定义 HTML 映射。
@Field public void setExtractScripts(boolean extractScripts)	它确定是否提取脚本实体中的内容。
public boolean getExtractScripts()	它用于获取提取的脚本。

Tika Html 文件提取示例

在此示例中，我们提取 Html 文件的内容和元数据。请参见示例。

package tikaexample;

import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class HtmlParse {
   public static void main(final String[] args) throws IOException,SAXException, TikaException {
	   BodyContentHandler handler = new BodyContentHandler();
	   HtmlParser parser          = new HtmlParser();
	   Metadata metadata          = new Metadata();
	   ParseContext pcontext      = new ParseContext();
	   try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {
	        parser.parse(stream, handler, metadata,pcontext);
	   }
      System.out.println("Document Content:" + handler.toString());
      System.out.println("Document Metadata:");
      String[] metadatas = metadata.names();
      for(String meta : metadatas) {
         System.out.println(meta + ":   " + metadata.get(meta));  
      }
   }
}

输出

Document Content:
Hello, Welcome to Javatpoint. 

Document Metadata:
dc:title:   Index Page
Content-Encoding:   ISO-8859-1
title:   Index Page
Content-Type:   text/html; charset=ISO-8859-1

下一主题Tika 提取 PDF 文件

Tika Html 文件提取

Tika HtmlParser 构造函数

Tika HtmlParser 方法

Tika Html 文件提取示例

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Tika教程

Tika文档解析

Tika提取

Tika Html 文件提取

Tika HtmlParser 构造函数

Tika HtmlParser 方法

Tika Html 文件提取示例

相关帖子

提取图像

提取Mp4文件

提取文本文件

提取Class文件

提取Flv文件

提取XML文件

提取Mp3文件

提取MS Words文件

提取PDF文件

提取Jar文件

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器