Tika 文本文件提取

2024 年 8 月 29 日 | 阅读 2 分钟

为了提取文本文件,Tika 提供了 TXTParser 类。这个类用于从文本文件中提取内容和元数据。它位于 org.apache.tika.parser.txt 包中。

这个类包含构造函数和方法,如下表所示。

Tika TextParser 构造函数

构造函数描述
public TXTParser()它用于创建类的实例。
public TXTParser(EncodingDetector encodingDetector)它创建带有编码检测器的实例。

Tika TextParser 方法

方法描述
public Set<MediaType> getSupportedTypes(ParseContext context)返回此解析器支持的媒体类型集。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException将文档流解析为 XHTML SAX 事件序列。

Tika 文本文件提取示例

在这个例子中,我们从一个文本文件中提取内容和元数据。请看下面的例子。

//javatpoint.txt

我们的文本文件内容。

欢迎来到 Javatpoint。

Javatpoint 是一个技术门户,包含最新的计算机科学主题。

输出

Document Content:Welcome to the Javatpoint.

Javatpoint is a Technical portal that contains latest computer science topics.


Document Metadata:
Content-Encoding:   ISO-8859-1
Content-Type:   text/plain; charset=ISO-8859-1

下一主题#