Tika简介

2024年8月29日 | 1 分钟阅读

Tika 是由 Apache 软件基金会设计和开发的用于内容分析的工具。它用 Java 编写,用于检测和提取文件中的内容和元数据。

它支持数千种文件类型,包括 .XML、XLS、PDF 等。

它是跨平台的,其存储库可在 github 上公开访问。

历史

2007 年,Apache 启动了一个项目,开发一种可以从任何类型的文件中提取内容的工具。主要目的是使其更易于与 CMS(内容管理系统)和 Web 爬虫程序一起使用。2011 年,第一个官方版本 1.0 发布。

Tika 的当前稳定版本是 1.17,发布于 2017 年 12 月 13 日。

受欢迎程度

Tika 在世界范围内被使用,并且顶级巨头正在使用它进行信息检索。以下是一些使用 Tika 的知名公司。

  • FICO (Fair Issac Corporation)
  • 高盛
  • NASA
  • Drupal(软件)
  • Alfresco(软件)

福布斯杂志发表了一篇关于 Tika 的关键作用的报告,该工具被 400 名记者用来提取 1150 万份文档以获取信息。


下一个主题Tika 功能