Tika语言检测

2025 年 3 月 17 日 | 阅读 1 分钟

Tika可以识别任何文档或文本的语言。当从文档格式中提取文本时,这很有用,这些格式的元数据中不包含语言信息。

Tika 使用 LanguageProfile 和 Language-Identifier 类来匹配 ISO 639 语言代码。

Tika 可以检测 18 种目前注册的 184 种 ISO 639-1 语言。

ISO 639 是由国际标准化组织(ISO)定义的一组标准。

Tika 能够检测各种语言,包括英语、德语、意大利语等。请参见下表。

代码名称语言
da丹麦语
de德语
et爱沙尼亚语
el希腊语
en英文
英语西班牙语
fi芬兰语
fr法语
hu匈牙利语
is冰岛语
it意大利语
nl荷兰语
挪威语
pl波兰语
pt葡萄牙语
ru俄语
sv瑞典语
th泰语

Tika 中的语言检测

下图显示了语言检测过程的关键组成部分。


Tika Language Detection

org.apache.tika.language 包包含检测文档或文本语言所需的所有类。 让我们看一个例子。

Tika 语言检测示例

输出

Language code is : en

下一个主题Tika GUI 应用程序