人工智能中的信息检索

2025年7月19日 | 阅读14分钟

信息检索 (IR) 是人工智能的一个基础领域,它涉及以文档集合、网页、多媒体等形式恢复相关数据。IR 系统的目标是帮助人们找到最相关的信息以回答其精确的查询,通常通过索引、排名和自然语言处理等方法。

无论是搜索引擎还是数字图书馆,IR 都已被证明在管理和检索大量数据方面至关重要。随着数据量的增加,越来越复杂的 AI 技术被引入,以使检索到的信息更有效和相关。

基本概念和术语

形式和文件

在信息检索中,文档是任何可以存储、索引和检索的信息片段,例如文章、网页或多媒体文件。集合是系统中此类文档的集合。集合的异构性和组织方式显著阻碍了 IR 系统的设计和优化。

有效检索的第一步是让这些文档在系统中组织良好,以便于搜索和排名。了解文档集合的构成、大小和特征至关重要,因为它会影响索引技术、搜索效率以及检索模型的整体效率。

查询

查询表示用户对 IR 系统的请求。在最简单的情况下,查询可以像关键字列表一样简单;更高级的系统支持复杂的布尔表达式、自然语言问题甚至上下文提示。查询的制定直接影响检索结果的相关性和质量。更高级的系统可以促进查询建议、纠正和扩展,以便用户更好地表达其意图。学习用户查询行为对于开发能够理解意图并返回最相关文档的系统至关重要。

Information Retrieval in Artificial Intelligence

索引

以能够快速有效地访问信息的方式组织信息的行为称为索引。在 IR 系统中,索引构建通常涉及解析文档以生成术语(单词或标记)并构建数据结构(倒排索引),将术语与其在文档中的位置关联起来。正确的索引决定了即使是巨大的集合也可以实时搜索的事实。

分词、停用词去除、词干提取和词形还原等技术在有效索引中发挥着重要作用。索引是一个基本特征,因为它允许在存储和检索成本与有效搜索性能之间实现良好的权衡。

相关性和排名

排名是指根据对用户正在寻找的内容的相关性最佳猜测来对检索到的文档进行排序或列出的行为。在每个集合中有数千或数百万个文档的情况下,首先显示最有用的文档对用户的满意度至关重要。相关性通常根据一些数学模型计算,这些模型估计术语频率、文档相似性或用户交互信号。

现代方法可以使用机器学习或深度学习来定制排名。准确衡量相关性并努力改进它是 IR 中的主要问题之一,也是定义系统有效性的主要因素之一。

查准率和查全率

IR 系统的性能通过特殊的评估指标(查准率和查全率)来衡量。查准率是检索到的相关文档的比例,查全率是检索到的所有相关文档的比例。重要的因素是平衡这两者;高查准率和低查全率将导致返回的相关文档很少,而高查全率和低查准率可能导致返回许多不相关的文档。性能进一步通过其他指标(如F1分数、平均精度 (MAP) 和 NDCG)进行评估。

信息检索模型

Information Retrieval in Artificial Intelligence

布尔模型

信息检索中最简单和最古老的模型是布尔模型。它将文档和查询映射到一组关键字,并提供布尔逻辑运算符(AND、OR、NOT)以将查询与文档匹配。文档要么相关,要么不相关,不存在排名之类的东西。

举例来说,使用短语 AI AND 机器人技术 的搜索将只返回包含这两个词的文档。尽管其模型直观且计算效率高,但此模型的二元性通常会返回太多或太少的结果,而没有处理部分相关性的细微差别。因此,它可能限制了用户的复杂搜索。

向量空间模型

向量空间模型 (VSM) 提出了文档和查询的数学形式。文档和查询都映射为多维空间中的向量,每个维度都由词汇表中唯一的术语索引。文档相对于查询的相关性是向量的余弦相似度,这使得能够进行基于相关性的排名。

术语权重提供了更精细的控制,通常使用 TF-IDF 等度量来计算。VSM 允许部分匹配和分级相关性,因此作为现代 IR 系统和搜索引擎的基础而广受欢迎。

概率模型

概率模型计算特定文档与用户查询相关的可能性。它以概率方式对文档和查询进行建模,并假设相关性概率由观察到的数据给出。一个经典的例子是二元独立模型,它基于文档中每个术语的存在或不存在独立于所有其他术语的假设。

概率模型最终通过与相关反馈(用户反馈)的迭代概率进行调整,从而缩小搜索结果。此类模型处理自然语言使用中的不确定性和可变性,并启发了现代检索排名算法,例如贝叶斯方法和学习排名模型。

语言模型

IR 语言模型根据观察到的查询的语言模型估计每个文档的可能性。文档被建模为概率文本生成器,查询根据文档生成(或产生)查询的可能性进行评估。查询似然模型等方法比较文档之间的概率,这使得结果能够排名。

神经语言建模(例如基于 BERT 的排名)的最新突破极大地提高了 IR 准确性,因为此类模型可以捕获更多的语言和语义信息。语言模型已成为现代搜索引擎和问答系统的一部分。

神经信息检索模型

神经 IR 模型是使用深度学习方法进行信息检索任务的模型,它扩展了传统模型,因为它们直接从原始数据中自动学习表示和特征。深度神经网络、卷积神经网络 (CNN) 和 Transformer 架构(例如 BERT)是一些学习文本中的语义关系并增强排名的技术。

与以前的方法不同,神经模型能够处理复杂的查询、语言特性和上下文。它们需要大数据和计算,但已重新定义了搜索质量、推荐系统和问答。

索引和搜索技术

Information Retrieval in Artificial Intelligence

倒排索引

倒排索引是信息检索的核心数据结构,它提供了术语与其出现的文档之间的映射。系统不是以线性形式存储文档,而是构建一个查找表,其中每个不同的术语都指向包含该术语的文档标识符列表(倒排列表)。

这使得搜索引擎能够非常快速地处理查询(查找包含给定术语或术语的所有文档),无论集合的大小如何,因此关键字搜索在大集合上是快速和可扩展的。大多数当代搜索引擎都依赖倒排索引来高效地提供布尔和排名检索操作。

签名文件

另一种索引结构是签名文件,它也允许使用位运算进行高效搜索。文档由固定长度的位串(签名)建模,该位串是其术语集的哈希值。对于查询中的每个术语,系统在快速过滤步骤中将查询签名与文档签名进行比较,以消除不匹配的文档。

尽管签名文件比倒排索引使用更少的存储空间,但仍可能发生误报(由于哈希冲突),这只能通过额外的验证步骤来克服。签名文件在存储受限或数据量适中的系统中表现良好。

跳表和B树

IR 系统通常提供跳表和 B 树等数据结构,以加速索引访问,尤其是在处理大型数据集时。跳表添加指针以使搜索算法能够跳过(或绕过)倒排列表的段,从而在执行多术语查询时实现快速列表合并。

B 树是磁盘上组织和访问大数据块的数据结构,支持高效的删除、插入和范围查询。这些结构在最大程度地减少搜索引擎响应复杂或复合查询时召回文档所需的时间方面发挥着重要作用。

重写和查询扩展

查询扩展技术通过向用户输入的查询添加更多相关术语来提高搜索精度。可以使用同义词词典、词干提取、自动相关性反馈或使用 WordNet 等外部资源的语义分析来实现此目的。重新表达用户查询可以缩小查询语言和文档集合中的语言之间的语义差距,从而提高所有相关结果的查全率。

通过有效的查询扩展可以缓解词汇不匹配,这在医学或法律 IR 等 IR 应用中尤为重要,因为术语可能高度多样化。

分布式索引和实时搜索

更近期的 IR 系统能够支持实时搜索和分布式索引,以处理庞大且不断变化的数据集(例如,社交媒体和新闻提要)。Elasticsearch 和 Apache Solr 等框架基于复制,有助于分发负载并提供容错能力。这些方法使组织能够以高可伸缩性、可靠性和低延迟提供最新的搜索结果,这对于现代网络规模搜索引擎和大数据应用程序至关重要。

信息检索中的自然语言处理

Information Retrieval in Artificial Intelligence

句子分割和分词

将原始文本转换为可在信息检索 (IR) 中处理的形式的初始阶段是分词。在这种情况下,文本被连续地分成更小的段,称为标记,它们通常是单词或重要术语。一个相关的过程是句子分割,它将文本分成独立的句子,以便进行进一步分析。在处理具有复杂复合或形态的语言时,进行良好的分词很重要。

它会影响所有下游的 IR 活动,包括索引、排名和匹配。除非分词正确完成,否则相关术语可能会被低估或不相关标记被过度表示,从而降低系统效率。

词形还原和词干提取

词语规范化是重要的 IR NLP 技术,涉及词干提取和词形还原。词干提取通过删除后缀将单词最小化为其词干或词根形式,例如将 running 和 runner 变为 run。词形还原更进一步,检查单词的上下文并将其转换为其字典形式,将动词解析为现在时,或将复数解析为单数。

这些过程减少了文档和查询索引中的词汇量,从而加快了匹配速度并提高了检索质量。特别是在形态丰富的语言中,词干提取和词形还原确保系统不会因词形表面差异而未能捕获相关文档,并允许更具包容性的搜索。

同义词处理和消歧

IR 系统可以通过将查询中的术语或短语映射到文档中概念相似的术语(借助 WordNet 或领域本体等资源)来提高查全率,从而检索以不同词语表达相同概念的文档。

此外,词义消歧应用上下文来区分模糊词的含义,以便返回的文档与用户所指的内容相关。这些方法的组合减少了由于语言多义性而遗漏的相关内容和不相关结果的数量。

信息提取和命名实体识别

命名实体识别 (NER) 是识别和分类文本中人、地点、组织和日期等命名实体的任务。通过突出显示这些重要数据点,NER 使 IR 中的索引、搜索和过滤更加智能。在这种情况下,当用户使用命名实体(“诺贝尔物理学奖获得者”)进行搜索时,基于 NER 的系统将检索相关答案,尽管名称或标题可能不同。

信息提取方法还可以用于从非结构化文本中提取结构化信息,从而增强更高级的任务,例如问答和知识图谱构建。这些 NLP 工具比简单的字符串匹配更能深入理解内容。

上下文搜索、语义搜索

传统 IR 按字面意思搜索关键字,通常无法找到其中概念是隐含或意译的文档。具有上下文和语义搜索的 IR 基于 NLP 模型(例如词嵌入和基于 Transformer 的模型)来获取更深层次的语义含义并理解用户意图。语义模型理解医生和医师之间的关系,并且可以检索超出精确匹配的结果。

使用 BERT 和 GPT 等技术会考虑整个短语,而不是孤立的单词,这使得上下文处理成为可能并提高了准确性。这对于复杂查询处理、问答、会话式搜索和语音驱动助手至关重要,其结果更接近人类理解。

机器学习方法

Information Retrieval in Artificial Intelligence

学习排名算法

当代 IR 的一个主要组成部分是学习排名 (LTR) 模型,它提供 机器学习 模型来根据相关性对搜索结果进行排名。用户交互(点击或评级)的大型数据集用于训练模型,借助这些模型,这些算法计算新查询最合适的排名。典型的方法是点式、对式和列表式——每种方法都以不同方式评估相关性。

LTR 模型使用广泛的特征、关键字匹配、用户偏好等,使排名逐步提高。这使得搜索引擎更符合搜索者的期望,并且搜索者更加满意。

文档检索分类

在 IR 中,分类是一项提供 机器学习算法(包括 朴素贝叶斯、支持向量机 (SVM) 或神经网络)的任务,用于将文档自动分配到一组预定义的类别或主题。在过滤搜索或主题特定检索的情况下,需要它,因为它将范围缩小到适当的文档类别。

例如,新闻存储库搜索查询可以仅限于体育或技术部分。 监督学习 模型在带标签的文档上学习,并且可以针对复杂的分类标准进行调整,以通过大量多样的文档集合进一步提高专业搜索的精度。

无监督检索聚类

文档聚类算法(例如 K-means 或层次聚类)可用于根据其内容相似性对文档进行分组,而无需带标签的数据。聚类可应用于 IR,以按主题对搜索结果进行分组,从而使用户了解其查询的信息概况。

它还推动了探索性搜索,即用户在大量搜索结果中发现关联和子主题。文档聚类可以增强导航、分类法上的动态以及重复检测;因此,它是当代检索系统中一种有用的无监督学习方法。

相关性反馈和自适应检索

相关性反馈利用机器学习和用户输入对搜索结果进行迭代改进。当用户将某些结果标记为相关或不相关时,系统会利用这种交互来调整其模型,通常通过 Rocchio 等算法,或者在更近期的神经方法中,使用更复杂的算法。

这种自适应机制使检索更个性化地适应用户、其偏好和其上下文,并且查全率和精度会随着时间的推移而提高。这些在查询不确定或用户的信息需求随着与系统的交互而变化的情况下尤其成功。

深度学习在语义理解上的应用

深度学习的概念通过实现对查询和文档的复杂语义的理解,改变了 IR。卷积神经网络 (CNN)、循环神经网络 (RNN) 和 Transformer(例如 BERT)等模型被训练以自动学习上下文关系和其他微妙的语言现象。这些模型可以获取原始文本并输出高级特征,将用户意图与文档含义对齐,甚至提供问题的答案。

这带来了更精确、上下文感知的检索,并使深度学习成为现代 AI 驱动的 IR 中会话式搜索、问答和推荐系统的支柱。

公司的实时应用

Google

世界上最流行的人工智能信息检索应用是谷歌。其搜索引擎每天处理数十亿个查询,并结合 AI 提供高级 IR 算法以进行查询理解、个性化结果和语义搜索。

BERT 和 MUM 等 AI Transformer 有助于澄清模糊查询,并通过语义而不是简单的关键字匹配来恢复文档。谷歌学术和谷歌新闻中的 IR 也由 AI 驱动,展示了高质量和相关检索在跨平台质量改进方面的潜力。

微软(Bing、Microsoft 365 搜索、Azure 认知搜索)

信息检索已集成到微软的多个产品中。Bing 搜索引擎提供 AI 来理解用户查询和搜索,对相关网页进行排名,并提供直接答案。Microsoft 365 搜索是一种由 IR 和 AI 提供支持的解决方案,可根据用户的角色和之前的交互实时向用户呈现文档、电子邮件和其他企业数据。

Azure 认知搜索是一项云搜索服务,它将全文搜索与 AI 增强相结合,由 Azure 认知搜索服务提供支持,并提供从电子商务到法律研究和企业数据分析的各种应用程序。

亚马逊(产品搜索和 Alexa)

亚马逊利用信息检索,广泛应用于产品搜索引擎,AI 模型根据用户的历史记录和推断意图个性化结果。AI 增强的 IR 用于实现推荐、过滤器和预测查询,以确保购物者快速匹配产品。

IR 和 NLP 复杂应用的另一个例子是亚马逊语音助手 Alexa,它能够理解口头查询,找到必要的信息,并给出适当的答案,无论这些信息是在网络上还是存储在亚马逊生态系统中特定用户的帐户中。

领英

领英 (LinkedIn) 将 IR 和 AI 应用于将成员与有用的职位广告、个人和专业内容进行匹配。该平台的搜索和推荐引擎使用尖端 IR 来索引数百万个个人资料、职位空缺和文章,并将其与用户查询和活动对齐。

AI 模型根据用户交互进行训练,以获得更好的结果相关性并提供个性化的职业推荐。领英上的技能搜索和“你可能认识的人”功能也展示了 IR 如何改变专业网络。

Spotify

Spotify 利用信息检索和 AI 来处理和定制数亿用户的流媒体。其搜索超越了文本匹配功能,而是提供了 AI 模型来解释意图,从而通过情绪、流派或用户偏好搜索和获取音乐。

为 Spotify 提供支持的推荐引擎应用了深度学习增强型 IR 来创建个性化播放列表(例如 Discover Weekly),引入新艺术家,甚至播客剧集 - planet.com - IR 在数字媒体策划和发现中不可或缺。

IBM Watson Discovery

IBM Watson Discovery 是一个企业 AI 平台,它能从大量非结构化业务数据中释放价值。Watson Discovery 是一种 AI 增强的自然语言处理解决方案,它使用强大的 IR 技术来大规模搜索、分析和提取文档、电子邮件和网络中的洞察力。

该平台被企业用于管理知识、自动化客户支持流程和合规性监控,访问否则将丢失在复杂文档存储深处的信息。

结论

人工智能 已经改变了信息检索以及我们在各个行业中搜索、访问和使用大量信息的方式。无论是搜索引擎和电子商务、企业解决方案还是媒体流媒体,先进的 IR 系统都能使体验高效、相关且以用户为中心。

随着数据量和复杂性的不断增加,通过整合机器学习、NLP 和语义理解,检索准确性和个性化将得到进一步提高。凭借这些强大的技术,企业和个人比以往任何时候都更有能力将信息转化为有意义的知识和可操作的信息。