Tika 文档类型检测

2024 年 8 月 29 日 | 阅读 2 分钟

文档检测是识别文档类型的过程。文档类型各不相同,text/plain 表示文本文件,image/jpeg 表示图像类型文件。

Tika 检测文档类型,以便它可以调用适当的解析器来提取内容和元数据。

Tika 支持 MIME(多用途互联网邮件扩展)中提到的所有文档类型。

目前,互联网编号分配机构 (IANA) 支持八种官方顶级类型和数千种子类型。

以下是顶级媒体类型。

顶级类型描述
Text/*这意味着基于文本的文档,例如 HTML、CSS、CSV 和纯文本。
Image/*所有图像子类型,例如 JPEG、便携式网络图形、GIF 等。
Audio/*它包括音乐和其他音频格式,例如 MP3 和 Ogg 音频。
Video/*视频格式,例如 QuickTime 和 Mp4。
Model/*用于在各种领域中表达物理或行为模型的文件格式。
例如,VRML 格式用于表达 3D 模型
Application/*不一定适合任何其他顶级类别的特定于应用程序的文档格式。例如,PDF 和 Microsoft Word (application/msword) 文档。
Message/*通过互联网和其他网络发送的电子邮件和其他消息类型。
Multipart/*它显示了相关组件文档的容器格式。与 message/* 类型一样,multipart/* 文档是通过网络传输的消息。

Tika 中的媒体类型

媒体类型是文件类型,它们告诉计算机将哪些应用程序与哪些文件相关联。

准确检测媒体类型是 Tika 完美处理的一项主要任务。

Tika 提供 Java API 和类级别支持,用于与 Tika MIME 数据库进行交互

Tika 有自己的媒体类型注册表,用于存储 IANA 注册的类型和实践中正在使用的其他已知类型。

Tika 使用 MediaType 类来表示媒体类型。此类的实例是不可变的,仅包含媒体类型的类型/子类型对和可选的 name=value 参数。

以下是一些常用的文件扩展名。请参见下表。

扩展名文件格式媒体类型
.txt文本文件text/plain
.htmlHTML 页面text/html
.xlsMicrosoft Excel 电子表格application/vnd.ms-excel
.jpgJPEG 图像image/jpeg
.mp3MP3 音频audio/mpeg
.zipZip 压缩文件application/zip

Tika 使用其 detect() 方法来检测文档类型。请参见示例。

输出

File type : text/plain

下一主题Tika 语言检测