Tika组件堆栈

17 Mar 2025 | 阅读 2 分钟

Tika 由四个构成组件形成一个组件栈。下图说明了组件的位置以及它们之间的交互。


Tika Component Stack

Tika-Core

它是其他三个软件包组件构建的基础组件。它提供以下内容。

  1. Tika facade 和用于检测 MIME 类型的类。所有 MIME 类都组织在 org.apache.tika.mime 包中。
  2. 一个核心解析器接口。
  3. 一个位于 org.apache.tika.language 包中的语言标识符接口。
  4. 组织在 org.apache.tika.metadata 包中的核心元数据结构。
  5. 用于输出结构化文本的方法存储在 org.apache.tika.sax 包中。

Tika-Parsers

它代表了不同解析库的 Tika 包装器。它还提供了通用 Parser 接口的实现。Tika-parser 提供了所有解析文本和元数据所需的类和方法。

Tika-App

它是一个提供 Tika 命令行和图形用户界面方面的应用程序。它位于 tika-parsers 的顶部。我们可以从命令行运行它,它会显示一个窗口,我们可以在其中拖动文件。它会生成被拖动文件的提取内容和元数据。要使用它,我们可以从 tika 的官方网站安装它。它是一个 jar 文件,所以我们可以使用 java 命令执行它。

Tika-Bundle

它是四个 Tika 组件之一,用于提供开放服务网关启动 (OGSI) 包。它有助于 Tika 包含在 OGSI 环境中。

OGSI 是一个软件组件模型,有助于在 Java 中开发基于组件的应用程序。它类似于 Java Beans,并支持模块化软件开发方法。

创建 tika-bundle 包的原因是,在最近的 Tika 部署中需要包含完整的 Tika 栈(理想情况下,tika-app)。