Tika 文本文件提取

2024 年 8 月 29 日 | 阅读 2 分钟

为了提取文本文件，Tika 提供了 TXTParser 类。这个类用于从文本文件中提取内容和元数据。它位于 org.apache.tika.parser.txt 包中。

这个类包含构造函数和方法，如下表所示。

Tika TextParser 构造函数

构造函数	描述
public TXTParser()	它用于创建类的实例。
public TXTParser(EncodingDetector encodingDetector)	它创建带有编码检测器的实例。

Tika TextParser 方法

方法	描述
public Set<MediaType> getSupportedTypes(ParseContext context)	返回此解析器支持的媒体类型集。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException	将文档流解析为 XHTML SAX 事件序列。

Tika 文本文件提取示例

在这个例子中，我们从一个文本文件中提取内容和元数据。请看下面的例子。

package tikaexample;

import java.io.InputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.txt.TXTParser;
import org.apache.tika.sax.BodyContentHandler;
public class TextFileExtraction {
	public static void main(String[] args) {
		 BodyContentHandler handler   = new BodyContentHandler();
		 TXTParser parser             = new TXTParser();
		 Metadata metadata            = new Metadata();
		 ParseContext pcontext        = new ParseContext();
		 try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("javatpoint.txt")) {
		        parser.parse(stream, handler, metadata, pcontext);
	     System.out.println("Document Content:" + handler.toString());
	     System.out.println("Document Metadata:");
	     String[] metadatas = metadata.names(); 
	     for(String data : metadatas) {
	         System.out.println(data + ":   " + metadata.get(data));  
	     }
		 }catch(Exception e) {System.out.println(e);}
	}
}

//javatpoint.txt

我们的文本文件内容。

欢迎来到 Javatpoint。

Javatpoint 是一个技术门户，包含最新的计算机科学主题。

输出

Document Content:Welcome to the Javatpoint.

Javatpoint is a Technical portal that contains latest computer science topics.


Document Metadata:
Content-Encoding:   ISO-8859-1
Content-Type:   text/plain; charset=ISO-8859-1

下一主题#

← 上一个下一个 →

Tika 文本文件提取

Tika TextParser 构造函数

Tika TextParser 方法

Tika 文本文件提取示例

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Tika教程

Tika文档解析

Tika提取

Tika 文本文件提取

Tika TextParser 构造函数

Tika TextParser 方法

Tika 文本文件提取示例

相关帖子

提取Mp3文件

提取图像

提取MS Words文件

提取Class文件

提取PDF文件

提取Jar文件

提取HTML文件

提取XML文件

提取Flv文件

提取Mp4文件

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器