人工智能 (AI) 中的不确定性2025年4月1日 | 阅读12分钟 每一刻都充满了不确定性,人工智能(AI)系统的决策也是如此。理想情况下,对某件事感到完全确定会感觉很好,看起来也很高效。然而,现实世界并非如此理想,并非所有数据都是完整的。在许多领域,数据要么不完整,要么不足,即使是我们人类,也只能根据现有和可用的信息来做决定。这些不确定的数据部分被称为“噪声”数据,因为它们可能有助于决策,也可能毫无用处。不确定性伴随着很大的随机性和因此很大的变异性。因此,有人说 AI 系统会考虑一定程度的不确定性,以便做出“明智”的决策。 ![]() AI 中观察到的不确定性类型基于缺失数据(我们称之为噪声)的随机性及其随机分布,AI 系统中存在许多关于不确定性的理论和类型。然而,我们将讨论三种基本类型的不确定性,它们又可以推导出其他类型的不确定性。这些不确定性如下:
偶然不确定性 (Aleatoric Uncertainty)当说一个 AI 系统具有偶然不确定性时,意味着其拥有的可用数据是系统不确定性的根源。数据通常充满噪声,包含大量异常值、随机性和变异性。系统可能会产生不准确之处,而这种不准确的程度主要取决于这些数据。数据之所以相当不确定的主要原因在于它们直接从实时提取。尽管像传感器这样的来源会捕获实时信息,但如果系统使用平衡的数据进行训练,则可以使其足够强大,能够以足够的准确性处理这些随机情况。 可以通过实施概率建模等技术来减少和管理数据中的此类不确定性,这些技术基于贝叶斯统计模型。此外,还可以通过强大的噪声消除算法来管理,这些算法可以识别异常值并从随机性中发现新模式。语音识别和图像识别等 AI 系统会遇到偶然不确定性,因为这些系统必须处理各种真实世界参数的实时数据。然而,其他环境或背景因素所涉及的不确定性则属于本体不确定性。 认识不确定性 (Epistemic Uncertainty)认识不确定性的概念侧重于 AI 模型的能力,而不是输入给它的数据。在这些情况下,要么是模型无法处理广泛的数据,要么是模型从未遇到过如此多的数据变异。系统架构可以理解模型的无能,并通过此来研究数据流和用于缩小决策范围的算法,以减少这种不确定性。 至于第二部分——即使模型足够强大,如果它是在不平衡的数据集上训练的,也没有帮助。因此,可以通过尝试整理出一个平衡的数据集来利用这种不确定性。“平衡”数据集的含义是包含所有主要的观测值,无论是积极的还是消极的,都密切类似于真实世界的情况,但随机性和变异性有限。这表明了模型不确定性的可减少性。 还可以通过主动学习系统来增强这一点,这意味着模型在使用过程中会“学习”。在基本层面进行管理时,还会考虑贝叶斯推理方法。一些实践还包括同时运行多个模型来采用集成学习技术。例如医疗和金融系统等具有敏感且多变真实数据的 AI 系统会遇到认识不确定性。 本体不确定性 (Ontological Uncertainty)本体不确定性谈论的是环境因素中的不确定性,即使 AI 模型在高质量、平衡的数据上工作得非常好。模型所处的并非所有情况都是理想的,并且可能会遇到意外的边缘情况。这通常被称为“未知未知”,其中涉及的随机性变异性很难预测。做一个轻松的类比,这相当于在印度繁忙的交通高峰期开车,行人会突然出现在你的车前,骑自行车的人会使用远光灯并逆行。所有这些随机参数都使 AI 系统难以在几秒钟内进行考虑和决策。 这种不确定性可能是新颖的,意味着模型在训练阶段从未见过它。因此,这被认为是预测起来最困难的不确定性。然而,有一些通用的技术用于减轻这种不确定性。最好的技术,尽管耗时,但会是重新运行模型训练过程来处理更新的数据集。这个过程可以是定期的,以确保之前未识别的数据被包含在新数据集中。对于实时模型,使用混合方法是一个不错的选择,即在后台使用更新的数据集作为批次来训练模型的某些部分。 与自动驾驶相关的应用会遇到本体不确定性,因为它需要像人类一样经历类似的事情,参考上述类比。在一定程度上,这也适用于客户行为预测系统,因为购买模式和趋势具有高度动态性,以及其他不可预见的因素。 ![]() 管理不确定性的方法现在我们了解了存在哪些类型的不确定性,了解如何管理这种不确定性也很重要。通常使用以下六种方法来管理 AI 模型中的不确定性:
概率方法为了解决数据随机性问题,通过概率来量化此类数据的发生。这种量化允许模型评估每个事件的频率,确保具有较高频率的事件得到优先处理。这还可以通过避免发生概率低的事件来确保模型不会出现过拟合。通常,采用贝叶斯建模或蒙特卡洛丢弃技术来找出事件的概率。贝叶斯技术涉及使用一些先验知识 *P* 以及在贝叶斯神经网络 *N* 上训练的观测值来给出概率分布。主要应用包括金融和医疗领域的诊断。 模糊逻辑模糊逻辑是一种寻找数据歧义结果的传统方法。在这里,每个结果都使用隶属函数(更像概率)来计算,以找出与之相关的真实程度。这种程度可以是少量、部分或完全。模糊逻辑使用风险参数(低、中、高)而不是通常的“是”或“否”二元分类来找出最合适的结果。它用于自然语言处理 (NLP) 系统中,以识别语言中的歧义。 集成学习如在认识不确定性中简要介绍的,集成学习涉及收集多个模型的输出以考虑多数投票结果。这有助于验证结果及其推理,并最终减少不确定性。这是一种流行的技术,用于许多训练任务,因为它还提高了模型训练的准确性。集成的流行技术是 **提升(boosting)** 和 **装袋(bagging)**。它用于图像识别和欺诈检测模型的训练。 在提升中,模型以时期(epochs)作为数据进行训练,时期是持续训练模型的迭代。当前迭代会学习前一次迭代的错误,从而每个时期都会提高模型准确性。通常,根据数据集的大小,会运行 30、50 或 100 个时期来获得可接受的结果。梯度提升(例如 XGBoost)是提升中的常用技术。 在装袋中,模型通过子集进行训练,这些模型并行训练以共同获得最佳结果。这有助于减少不确定性,特别是偶然不确定性。 正则化通常,正则化是指控制某个实体并使其保持在限制范围内以防止过度的过程。类似地,在机器学习模型中使用正则化技术来避免过拟合相关问题。过拟合是指模型几乎记住了训练数据(包括不必要的部分或噪声),以至于难以理解新的数据模式,导致测试或验证集出现不准确。 需要正则化来减少噪声数据,从而减少不确定性。像 Lasso (L1) 和 Ridge (L2) 正则化等一些技术,以及其他方法,如丢弃(dropout)和提前停止(early stopping),有助于实现正则化 AI 模型。正则化用于提高监督(分类和回归)模型的准确性。 数据增强当训练数据不足时,与其添加新的数据项(来自不同的来源,这会进一步混淆模型),不如复制现有数据项并稍作修改来增强新数据,从而增加数据集的大小。这还保留了数据集的同质性,因为新数据项也来自同一来源。保留数据集同质性很重要,因为模型只显示来自单一分布源的项目,因此可以找到一致的噪声水平以进行公平评估。数据增强主要用于与图像检测和识别相关的应用中的基于图像的数据。在这里,增强是通过旋转、缩放、锐化、模糊或变换(仿射变换)所选图像来完成的。 主动学习和自适应系统主动学习系统通过明确咨询专家系统来标记从模型训练过程中收集到的不确定性较高的数据项,从而帮助减少认识不确定性。而自适应系统通过实时学习新数据来帮助减少本体不确定性,从而允许模型适应与训练数据相距甚远的较新测试用例。 还存在一种混合系统,它同时接受确定性和概率输入来产生相关结果。混合系统有助于减少偶然不确定性或与概率相关的不确定性。尽管理想情况下,像自动驾驶这样的应用会遇到本体不确定性,但实时数据也可能包含偶然不确定性和认识不确定性。因此,混合模型可用于减少所有类型的不确定性,尤其是在复杂应用中。 AI 中处理不确定性的应用到目前为止,我们已经回顾了不确定性的理论部分以及它们是如何被发现的。然而,每个行业都有许多应用领域存在不确定性。下面将讨论一些应用中的具体问题以及它们在各个行业中的处理方式。 医疗保健医疗行业围绕诊断和建议,但要求最高的准确性。为了实现这种准确性,必须减轻或消除所有类型的不确定性。给定结果的不确定性级别可以通过定量测量来理解,即使用确定性、概率性或混合技术。这就是为什么由 AI 驱动的医疗系统可能无法自行做出决定,而是会协助医疗专家做出更好、更明智的决定。 这同样适用于推荐系统,在给出高置信度的响应之前会考虑多个参数。然而,通过此类医疗分析系统可以识别极端情况和结果,从而帮助医疗专家做出高风险决策。AI 模型还能够从医学成像系统中生成建议和见解。总的来说,医疗保健所需的准确性限制了自主应用,但却促进了基于建议的模型,以帮助从业者做出更好的决定。 自动驾驶汽车自动驾驶最终将成为未来交通的标准,因此自动驾驶汽车是当今的热门话题。这些车辆包含多个传感器和执行器来感知环境并做出实时决策。这意味着所有信息都通过传感器实时提取,引入了各种不确定性,从偶然不确定性到本体不确定性。在一般环境变化(例如天气)出现的地方可以看到偶然不确定性。尽管这种变化并不意外,但它们可能会导致传感器堵塞,给提供准确结果带来很大困难。 然而,在模型尚未接触过某些交通场景(例如意外的交通高峰期、路面上的随机障碍物)的情况下,会发现认识不确定性。为了减轻这些不确定性,使用了传感器融合技术。传感器融合一次性包含来自多个传感器的数据,其结果被平均化。如果一次性来自多个传感器的数据不可用,则还可以考虑集成模型。 尽管自动驾驶尚未完全部署,但已经使用了部分自动驾驶汽车(配备 ADAS,即高级驾驶辅助系统)以及此类技术来最小化不确定性。ADAS 包括碰撞警告和避免系统、车道检测和辅助系统以及自适应巡航控制系统。所有 ADAS 功能都利用 LIDAR 和摄像头等不同传感器来处理并做出实时决策。在训练 AI 模型时会考虑诸如车道线模糊、路面坑洼和突然停车等不确定性,但仅在一定程度上。 融资金融和股票市场充满不确定性。我们在几秒钟或几分钟内会观察到巨大的市场崩盘,这通常是由于世界上非常微小但巨大的因素(主要是外部因素)造成的。这些不确定性出现在金融预测模型、股票预测和分析以及公众情绪对市场的影响中。大多数情况下,不确定性是本体不确定性,因为市场可能受到几乎任何事情的影响,而任何事情都可能是“未知未知”。然而,这些事件影响市场的规模稍微容易预测。 自然语言处理NLP 模型处理所有类型的不确定性,因此需要注意力机制。当提供给模型的关于上下文的数据不足,或者实时数据不清晰或有噪声时,就会引入偶然不确定性。这还可能由于语言歧义(例如翻译)或上下文变异性(例如习语)而产生。 当在测试或验证阶段出现词汇表外单词时,会出现认识不确定性,这可以通过主动学习系统来缓解。当任务未定义或出现完全意外的数据项时,就会出现本体不确定性。在 NLP 中,通过使用概率模型和多模态系统来处理不确定性。 AI 中不确定性相关的重大挑战虽然最小化不确定性很好,但实际实施耗时且复杂。两个最重要的挑战是计算能力和数据伦理,下面将对此进行讨论。 计算能力为了运行各种模型并进行比较,考虑训练成本至关重要。这可能意味着利用能源、在数据库系统中存储数据以及其他任何高强度任务。像 GPT 这样的模型在训练和维护方面计算成本很高。维护所有类型不确定性的参数可能会变得非常复杂。 伦理立场许多领域的决策不仅至关重要,而且准确性也很重要。这会导致对所产生结果的沟通不畅,在公众中造成歧义。这引入了一个伦理立场,即应在所有情况下消除偏见。这也可能由于训练模型缺乏透明度(因为层通常是隐藏的)而引入。总的来说,需要解决伦理挑战,以确保决策公平且准确。 结论每一刻都充满了不确定性,人工智能(AI)系统的决策也是如此。理想情况下,对某件事感到完全确定会感觉很好,看起来也很高效。然而,现实世界并非如此理想,并非所有数据都是完整的。在许多领域,数据要么不完整,要么不足,即使是我们人类,也只能根据现有和可用的信息来做决定。这些不确定的数据部分被称为“噪声”数据,因为它们可能有助于决策,也可能毫无用处。 不确定性伴随着很大的随机性和因此很大的变异性。因此,有人说 AI 系统会考虑一定程度的不确定性,以便做出“明智”的决策。当说一个 AI 系统具有偶然不确定性时,意味着其拥有的可用数据是系统不确定性的根源。数据通常充满噪声,包含大量异常值、随机性和变异性。系统可能会产生不准确之处,而这种不准确的程度主要取决于这些数据。 数据之所以相当不确定的主要原因在于它们直接从实时提取。模型所处的并非所有情况都是理想的,并且可能会遇到意外的边缘情况。这通常被称为“未知未知”,其中涉及的随机性变异性很难预测。做一个轻松的类比,这相当于在印度繁忙的交通高峰期开车,行人会突然出现在你的车前。理想情况下,尽量减少任何形式的不确定性非常重要。 下一个主题GoogleNet in AI |
我们请求您订阅我们的新闻通讯以获取最新更新。