Apache Tika 支持的格式

2024 年 8 月 29 日 | 阅读 2 分钟

众所周知，Apache Tika 支持超过上千种文档类型。在这里，我们列出一些常见的格式。这只是一个介绍，Tika 可以检测比下面列出的更广泛的范围。

Apache Tika 可以从以下文档类型中检测、提取内容和元数据。

超文本标记语言
XML 和派生格式
Microsoft Office 文档格式
OpenDocument 格式
iWorks 文档格式
WordPerfect 文档格式
便携式文档格式
电子出版格式
富文本格式
压缩和打包格式
文本格式
Feed 和联合格式
等等

超文本标记语言

要解析和提取 HTML 类型文档的内容、元数据，Tika 使用 HtmlParser 类，它负责提取 HTML 文件。

XML

它是一种可扩展的标记语言，用于各种类型的内容。 DcXMLParser 类用于从文档中提取内容并忽略 XML 结构。

Microsoft Office 文档格式

Microsoft Office 以通用 OLE 2 复合文档和 Office Open XML (OOXML) 格式生成文档。 OfficeParser 和 OOXMLParser 类使用 Apache POI 库来支持从 OLE2 和 OOXML 文档中提取文本和元数据。

OpenDocument 格式

它主要用作 OpenOffice.org 办公套件的默认格式。 OpenDocumentParser 类支持此格式。

iWorks 文档格式

各种 iWorks 文档格式（Numbers、Pages、Keynote）由 IWorkPackageParser 类支持，该类提取文本和元数据。

便携式文档格式

PDFParser 类用于使用 Apache PDFBox 库解析可移植文档格式 (PDF) 文档。

电子出版格式

电子出版格式由 EpubParser 类支持，该类用于许多数字图书。基于 Xml 的小说图书由 FictionBookParser 类支持。

富文本格式

RTFParser 类使用标准的 javax.swing.text.rtf 功能从富文本格式 (RTF) 文档中提取文本内容。

压缩和打包格式

Tika 使用 Commons Compress 库来支持各种压缩和打包格式。 CompressorParser 类处理顶层压缩格式的解析，然后 PackageParser 类及其子类解析打包格式，然后使用解析上下文中指定的解析器实例将解压缩的文档流传递到第二解析阶段。支持的格式包括 Tar、AR、ARJ、CPIO、Dump、Zip、7Zip、Gzip、BZip2、XZ、LZMA、Z 和 Pack200。

文本格式

从纯文本文件中提取文本内容似乎很简单，直到我们开始考虑所有可能的字符编码。 TXTParser 类使用 ICU 项目中的编码检测代码来自动检测文本文档的字符编码。

Feed 和联合格式

RSS 和 Atom feed 联合格式由 FeedParser 类支持。

下一个主题Tika 解析器 API

Apache Tika 支持的格式

超文本标记语言

XML

Microsoft Office 文档格式

OpenDocument 格式

iWorks 文档格式

便携式文档格式

电子出版格式

富文本格式

压缩和打包格式

文本格式

Feed 和联合格式

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Tika教程

Tika文档解析

Tika提取

Apache Tika 支持的格式

超文本标记语言

XML

Microsoft Office 文档格式

OpenDocument 格式

iWorks 文档格式

便携式文档格式

电子出版格式

富文本格式

压缩和打包格式

文本格式

Feed 和联合格式

相关帖子

Tika Parser API

Tika文档检测

Tika简介

Tika语言检测

Tika教程

Tika GUI应用程序

Tika安装

Tika组件堆栈

Tika特性

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器