自动问答数据科学

2025 年 1 月 7 日 | 阅读 9 分钟

自动问答 (AQA) 是 R 和 NL 的复杂集成,主要侧重于开发 NL 中的问答系统。这项技术是数据科学的一部分;它包含了机器学习、深度学习、信息检索等。本简要回顾将重点关注 AQA 的几个基本角度、其使用的技术、其专业领域、遇到的困难以及其发展前景。

引言

AQA 系统,或智能问答系统,旨在用纯文本对用户提出的问题提供简短准确的答案。

这些系统可以根据其知识库的范围进行广泛分类

封闭域 QA

这些系统根据业务分支或生活领域进行区分(例如,人类技能包括回忆日常生活中遇到的特定物体(房屋、汽车、侵权行为、法庭上的行为等)的信息的能力,并以高度的精确度回答关于特定人类活动领域(医学、法律)的提问者的问题。

开放域 QA

这些是通用系统,被编程用于处理许多主题。它们通常使用互联网或大型数据库等大量资源来搜索答案。

主要目标是建立一个现实的模型,说明人们如何理解上下文并找到必要的信息来正确回答查询。

AQA 系统的关键组成部分

1. 问题处理

问题分类

作为分类步骤,需要确定要回答的问题类型。例如,作者将查询类型归类为几个封闭类别(参考、事实、列表、定义、竞争者和是/否),以便识别适当的响应方案。例如,以下问题将被归类为事实问题而不是定义问题:“法国的首都是什么?”而另一个将被归类为定义问题:“什么是机器学习?”

查询制定

在此,将自然语言中的问题转化为从数据集或知识库中提取信息的查询结构。这可能包括分解问题以找到最合适的关键字,以及基于语义分析自动构建问题。

2. 信息检索

文档检索

根据上述讨论,系统识别并优先处理可能包含答案的文档或段落。此步骤可能涉及网络浏览和爬行,或特定的技术来识别适当的文本。

摘要提取

基于其内容,可以从文档中检索到的摘要的特定片段可以回答当前查询。此步骤需要考虑定义文档中信息范围的地标。

3. 答案处理

答案提取

在流程的此步骤中,系统将答案缩小到摘要中最具体的细节,这些细节与问题相关。一些方法可能只是简单的基于规则的匹配简单关键字和短语,而其他方法则需要高级算法,例如可以解析上下文的深度学习神经网络。

答案生成

对于更复杂或语义上更模糊的问题,系统可能会通过使用组合刺激来重新组合一组相关的答案,以确保答案连贯且不缺少任何重要信息。

4. 评估和排名

答案评分

这些范围从相关性级别(用户根据相关性提供潜在查询的答案)到置信度级别(提供的答案对应于已识别的潜在查询和出现的可能性)。它涉及到对信息质量的评估以及信息满足问题的程度。

答案排名

然后将它们合并并排名,以提出用户问题最接近且最合理的答案。这种排名对于消除除当前焦点之外的其他担忧至关重要,从而从各种候选答案中确定最佳可能响应。

AQA 的方法论

基于规则的方法

另一方面,早期的 AQA 系统使用基于规则的方法,以成形规则和正则表达式作为解析问题和识别答案的主要组成部分。虽然这些方法易于实现,但它们存在一些明显的缺点,例如无法解决复杂任务,以及在以不同格式请求结果或单个查询存在许多变体时无法适应。

基于信息检索的方法

这些系统使用信息搜索技术来搜索与所提问题相关的文档,然后从这些文档中提取答案。关键技术包括

TF-IDF (词频-逆文档频率): 这种统计度量根据单词在文档中的可见性而不是在大量文档集合中的可见性来对单词进行排名。

BM25: 一个复杂的搜索过滤器,基于概率定理运行,它增强了现有的最佳关键字频率加权系统 (TF-IDF),同时考虑到某些单词可以在文档中重复出现特定次数以及每个文档的长度。

机器学习方法

AQA 系统的准确性得到了提高,这主要归功于机器学习的使用,尤其是监督学习算法。这些模型是通过广泛的问题和答案作为训练过程生成的,并用于积累经验。关键模型包括

支持向量机 (SVM): 用于机器学习中的分类和回归,这可能与问题分类和相关性排序相关。

随机森林: 而 DTM 是一个单一的决策树,可以根据其训练数据预测结果,AD 树由多个决策树组成,并且结果是使用构成 AD 树的决策树的平均值来预测的。

梯度提升机: 另一种集成策略是创建一组模型,其中每个新模型都有助于补偿前一个模型的错误并提高性能。

深度学习方法

神经网络在增强 AQA 系统方面非常有效,因为它们能够分析语言的复杂性。关键模型包括

循环神经网络 (RNN): 适用于数据点流,如字符或单词序列,RNN 可以保留先前序列的信息,使其非常适合捕捉上下文。

卷积神经网络 (CNN): CNN 最初是为图像处理而开发的,可以应用于文本数据以清晰地识别语言中的模式和层次结构。

Transformer 模型: 无论是 BERT(Transformer 的双向编码器表示)、GPT(生成式预训练 Transformer)还是 T5(文本到文本传输 Transformer)。所有这些都通过自注意力机制提高了标准,使它们能够理解上下文并给出正确的答案。

基于知识的方法

这些系统利用知识库中的结构化信息(例如,Lucas:我们知道有效的方法,例如使用知识库(如 Wikidata 和 Freebase)并能够直接从数据库中回答问题。它们非常适合答案是事物实例、知识库中特定知识的问题。

AQA 的应用

信息检索和自动问答系统由于能够以合理的准确性和极高的速度在基于软件的环境中自然地处理复杂的对话查询,因此在多种不同环境中都有使用。在此,我们将详细介绍 AQA 的一些关键应用:在此,我们将详细介绍 AQA 的一些关键应用

1. 客户支持

自动化客户服务代表:特别是,AQA 系统在客户支持中得到了广泛应用。计算机自动回答常见查询。这些系统可以编程以响应大量查询,并可能提供即时结果,以免给客户带来不便。电信和银行使用聊天机器人提供时刻表、ATM、信用卡信息、通话详情以及其他常见问题解答。

全天候可用

 

上面识别的 AQA 系统还具有全天候工作的优势,这意味着客户将始终获得必要的支持。这种持续可用性的另一个优点是客户可以随时随地访问他们最想要的汽车。

升级处理

在无法通过预定义规则和算法解决的情况下,AQA 系统可以设计查询,将其智能地转发给人工操作员,人工操作员则获得先前的详细信息,以加快解决阶段。

2. 医疗保健

医疗信息检索

医疗保健场景中的 AQA 系统帮助患者和医疗保健专业人员更快地访问信息。例如,患者可以查询症状、治疗方法或药物,并从专业医疗信息和数据库中获得正确答案。

临床决策支持

医疗保健提供者使用 AQA 系统,他们可以访问临床指南、研究文章和患者病例文件等资源,以协助他们做出决策。例如,医生可以输入系统以请求某些疾病的推荐治疗方案,这将提高患者护理质量。

远程医疗和远程咨询

在远程医疗中,初步咨询被委托给 AQA 系统。在患者与医疗保健提供者接触之前,患者会被提供基本信息并确定其疑虑。这种效率有利于远程医疗机构。

3. 教育

辅导和家庭作业帮助

教育机构甚至在线学习环境都使用 AQA 系统来协助学生。这些系统还可以针对特定领域的问答生成答案,进一步解释学科内容,并提供进一步阅读材料。

个性化学习

AQA 系统的另一个优点是它们可以应用学习者历史和学习者偏好来帮助学生查找相关信息和资源,并推荐学习特定科目的路径。这种学习方法激励学生并带来期望的结果。

考试准备

所有备考学生都可以从给定的 AQA 系统中受益,通过进行一系列模拟题,这些模拟题与可能在考试中出现的题目相似。这类研究还可以受益于系统详细解释输出并提供与搜索查询相关的学习材料参考的能力。

4. 搜索引擎

增强的搜索结果

许多搜索引擎,包括 Google,都使用 AQA 直接从 SERP 顶部提供查询的确切答案。这些最常见的类型被称为“精选摘要”或“答案框”,它们允许用户在 SERP 中找到他们正在寻找的信息,而无需点击任何其他链接。

语音搜索集成

越来越多的网络用户通过智能手机或智能音箱使用语音激活搜索,这使得 AQA 系统在处理口语查询和提供连贯语音答案方面高度相关。

上下文理解

AQA 系统的最新发展已经掌握了揭示搜索查询明显含义的技能,从而为搜索查询提供适当的结果。例如,如果用户说,“告诉我更多关于当前天气的信息”,模型就可以为用户提供本地天气更新。

5. 虚拟助手

个人助理

因此,AQA 系统被 Siri、Alexa 和 Google Assistant 等虚拟助手使用,以响应用户查询、执行各种任务和提供见解。用户可以询问任何主题的问题,包括天气或日历上的某个约会等一般性问题,这些问题将立即得到解答。

智能家居集成

在智能家居中,虚拟助手通过 AQA 控制设备、安排例程和提供数据。例如,人们可以指示助手打开特定的灯,设置闹钟提醒他们某个场合,甚至播放他们喜欢的歌曲。

自然交互

AQA 系统的对话组织特性提高了虚拟助手的使用,因为与这些系统的交互变得更加流畅和无缝。这些系统是下一代产品,可以提出后续问题,并且在交互过程中不会丢失上下文。

结论

由于这些变化,自动生成问答系统正被各行各业采用,通过为系统提出的问题或查询提供高效、准确且上下文敏感的答案。从客户服务和销售行业,如医疗保健、教育、零售电子商务、搜索引擎、虚拟个人助理、BI 和分析,到全球各种规模的企业,AQA 的用途非常广泛且日益增长。为此,这些系统将仅在一段时间后才能在优化用户和客户体验、灵活优化业务交易以及有效地为组织决策者提供支持方面取得进展,从而促进在各个行业的应用扩展。