Apache Tika 支持的格式

2024 年 8 月 29 日 | 阅读 2 分钟

众所周知,Apache Tika 支持超过上千种文档类型。 在这里,我们列出一些常见的格式。 这只是一个介绍,Tika 可以检测比下面列出的更广泛的范围。

Apache Tika 可以从以下文档类型中检测、提取内容和元数据。

  • 超文本标记语言
  • XML 和派生格式
  • Microsoft Office 文档格式
  • OpenDocument 格式
  • iWorks 文档格式
  • WordPerfect 文档格式
  • 便携式文档格式
  • 电子出版格式
  • 富文本格式
  • 压缩和打包格式
  • 文本格式
  • Feed 和联合格式
  • 等等

超文本标记语言

要解析和提取 HTML 类型文档的内容、元数据,Tika 使用 HtmlParser 类,它负责提取 HTML 文件。

XML

它是一种可扩展的标记语言,用于各种类型的内容。 DcXMLParser 类用于从文档中提取内容并忽略 XML 结构。

Microsoft Office 文档格式

Microsoft Office 以通用 OLE 2 复合文档和 Office Open XML (OOXML) 格式生成文档。 OfficeParser 和 OOXMLParser 类使用 Apache POI 库来支持从 OLE2 和 OOXML 文档中提取文本和元数据。

OpenDocument 格式

它主要用作 OpenOffice.org 办公套件的默认格式。 OpenDocumentParser 类支持此格式。

iWorks 文档格式

各种 iWorks 文档格式(Numbers、Pages、Keynote)由 IWorkPackageParser 类支持,该类提取文本和元数据。

便携式文档格式

PDFParser 类用于使用 Apache PDFBox 库解析可移植文档格式 (PDF) 文档。

电子出版格式

电子出版格式由 EpubParser 类支持,该类用于许多数字图书。 基于 Xml 的小说图书由 FictionBookParser 类支持。

富文本格式

RTFParser 类使用标准的 javax.swing.text.rtf 功能从富文本格式 (RTF) 文档中提取文本内容。

压缩和打包格式

Tika 使用 Commons Compress 库来支持各种压缩和打包格式。 CompressorParser 类处理顶层压缩格式的解析,然后 PackageParser 类及其子类解析打包格式,然后使用解析上下文中指定的解析器实例将解压缩的文档流传递到第二解析阶段。 支持的格式包括 Tar、AR、ARJ、CPIO、Dump、Zip、7Zip、Gzip、BZip2、XZ、LZMA、Z 和 Pack200。

文本格式

从纯文本文件中提取文本内容似乎很简单,直到我们开始考虑所有可能的字符编码。 TXTParser 类使用 ICU 项目中的编码检测代码来自动检测文本文档的字符编码。

Feed 和联合格式

RSS 和 Atom feed 联合格式由 FeedParser 类支持。


下一个主题Tika 解析器 API