Tika简介2024年8月29日 | 1 分钟阅读 Tika 是由 Apache 软件基金会设计和开发的用于内容分析的工具。它用 Java 编写,用于检测和提取文件中的内容和元数据。 它支持数千种文件类型,包括 .XML、XLS、PDF 等。 它是跨平台的,其存储库可在 github 上公开访问。 历史2007 年,Apache 启动了一个项目,开发一种可以从任何类型的文件中提取内容的工具。主要目的是使其更易于与 CMS(内容管理系统)和 Web 爬虫程序一起使用。2011 年,第一个官方版本 1.0 发布。 Tika 的当前稳定版本是 1.17,发布于 2017 年 12 月 13 日。 受欢迎程度Tika 在世界范围内被使用,并且顶级巨头正在使用它进行信息检索。以下是一些使用 Tika 的知名公司。
福布斯杂志发表了一篇关于 Tika 的关键作用的报告,该工具被 400 名记者用来提取 1150 万份文档以获取信息。 下一个主题Tika 功能 |
我们请求您订阅我们的新闻通讯以获取最新更新。