Tika 图像提取

2024 年 8 月 29 日 | 阅读 2 分钟

Tika ImageParser 是一个类,用于从图像文件中提取内容和元数据。这个类存储在 org.apache.tika.parser.image 包中。它包含构造函数和方法,如下表所示。

Tika ImageParser 构造函数

构造函数描述
public ImageParser()它用于创建类的实例。

Tika ImageParser 方法

以下是 ImageParser 类的方法。

方法描述
public Set<MediaType> getSupportedTypes(ParseContext context)返回此解析器在使用给定的解析上下文时支持的媒体类型集。
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException将文档流解析为 XHTML SAX 事件序列。在给定的元数据对象中填充相关的文档元数据。

Tika 图像解析器示例

在这个例子中,我们正在提取图像文件的内容和元数据。参见下面的例子。

输出

Document Content :
Document Metadata :
Exif Versi2on: 2.30
Brightness: 0
Compression Type: Baseline
Image Description: 
Number of Components: 3
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Focal Length: 4.1 mm
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/1 vert
Unknown tag (0x9410): [3656 values]
tiff:ResolutionUnit: Inch
Date/Time Original: 2015:06:11 20:53:00
tiff:Make: SONY
Unknown tag (0x201f): 0 0 0 0
Unknown tag (0x200d): 1
Flash Level: Normal
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
Flash Exposure Compensation: 0 EV
Unknown tag (0xb046): 0
F-Number: f/3.5
Unknown tag (0x2015): 65535
Focus Mode: Manual
Sensitivity Type: Recommended Exposure Index
tiff:BitsPerSample: 8
Unknown tag (0x0002): 0x00000001
Unknown tag (0x2027): 4896 3672 4375 1897

下一个主题Tika 提取 Mp3 文件