Tika特性

2024年8月29日 | 1 分钟阅读

Apache Tika 提供了许多功能,其中一些如下所示。

  • 支持大量文档类型
  • 非 Java 程序的可访问性
  • 单个解析器
  • 轻量级
  • MIME 检测
  • 语言检测

支持大量文档类型

Apache Tika 可以识别超过一千种文档类型,并可以提取文档的内容和元数据。

非 Java 程序的可访问性

在 Tika 中,两个主要工具 RESTful 服务器和 CLI 工具允许非 Java 程序访问 Apache Tika 功能。

单个解析器

所有第三方库都由 Tika 封装在单个解析器接口中。此功能使用户易于选择解析器库。

轻量级

Tika 很轻量级,因为它使用较少的内存和资源。它很容易嵌入 Java 程序中,也可以在移动设备上运行。

MIME 和语言检测

Tika 可以检测 MIME 标准中列出的所有媒体类型。它还可以识别语言,因此可用于多语言文档。


下一个主题Tika 安装