Tika语言检测2025 年 3 月 17 日 | 阅读 1 分钟 Tika可以识别任何文档或文本的语言。当从文档格式中提取文本时,这很有用,这些格式的元数据中不包含语言信息。 Tika 使用 LanguageProfile 和 Language-Identifier 类来匹配 ISO 639 语言代码。 Tika 可以检测 18 种目前注册的 184 种 ISO 639-1 语言。 ISO 639 是由国际标准化组织(ISO)定义的一组标准。 Tika 能够检测各种语言,包括英语、德语、意大利语等。请参见下表。
Tika 中的语言检测下图显示了语言检测过程的关键组成部分。 ![]() org.apache.tika.language 包包含检测文档或文本语言所需的所有类。 让我们看一个例子。 Tika 语言检测示例输出 Language code is : en 下一个主题Tika GUI 应用程序 |
我们请求您订阅我们的新闻通讯以获取最新更新。