Tika 文档类型检测2024 年 8 月 29 日 | 阅读 2 分钟 文档检测是识别文档类型的过程。文档类型各不相同,text/plain 表示文本文件,image/jpeg 表示图像类型文件。 Tika 检测文档类型,以便它可以调用适当的解析器来提取内容和元数据。 Tika 支持 MIME(多用途互联网邮件扩展)中提到的所有文档类型。 目前,互联网编号分配机构 (IANA) 支持八种官方顶级类型和数千种子类型。 以下是顶级媒体类型。
Tika 中的媒体类型媒体类型是文件类型,它们告诉计算机将哪些应用程序与哪些文件相关联。 准确检测媒体类型是 Tika 完美处理的一项主要任务。 Tika 提供 Java API 和类级别支持,用于与 Tika MIME 数据库进行交互 Tika 有自己的媒体类型注册表,用于存储 IANA 注册的类型和实践中正在使用的其他已知类型。 Tika 使用 MediaType 类来表示媒体类型。此类的实例是不可变的,仅包含媒体类型的类型/子类型对和可选的 name=value 参数。 以下是一些常用的文件扩展名。请参见下表。
Tika 使用其 detect() 方法来检测文档类型。请参见示例。 输出 File type : text/plain 下一主题Tika 语言检测 |
我们请求您订阅我们的新闻通讯以获取最新更新。