衡量模型不确定性的方法

2025 年 2 月 3 日 | 阅读 12 分钟

模型不确定性概述

为了提供准确的预测和明智的判断,理解和量化模型不确定性至关重要。量化不确定性有助于确定预测的置信度,并可以指导未来的行动和决策。

含义与重要性

模型不确定性是指模型预测中的不确定性或怀疑。它源于多种因素,包括参数估计、模型结构和数据变异性。出于多种原因,理解和衡量这种不确定性至关重要:

  • 更好的决策能力:理解不确定性有助于根据预测的置信度做出明智的决策。
  • 风险控制:有助于识别和降低与不确定结果相关的风险。
  • 模型验证:评估不确定性有助于揭示模型的稳健性和可靠性。

不确定性类型:认知不确定性与偶然不确定性

模型不确定性可以分为两大类:

  • 偶然不确定性(Aleatoric Uncertainty):也称为不可约减不确定性,这是数据中固有的、由噪声或随机事件引起的可变性。更多的数据收集无法减少这种类型的不确定性。
    示例:由传感器噪声引起的测量变异性。
  • 认知不确定性(Epistemic Uncertainty):有时也称为可减约不确定性,它源于对系统或模型的认知不足。通过改进模型或收集新数据,可以减少这种类型的不确定性。
    示例:由于训练数据不足或模型设计不佳引起的不确定性。

为什么需要衡量模型不确定性?

出于多种原因,量化模型不确定性至关重要:

  • 可靠性:为模型的预测提供了一定程度的保证,这有助于提高其可信度。
  • 模型比较:能够根据不确定性估计来比较不同的模型。
  • 误差分析:有助于识别潜在的误差来源以及模型需要改进的地方。
  • 资源分配:指导资源在收集数据和改进模型的领域上的分配,重点关注不确定性高的区域。

在应用中使用不确定性量化

在多个领域中,不确定性量化被用于提高模型的韧性和可靠性:

  • 医疗保健:评估诊断模型的置信度,以改善患者的治疗效果。
  • 金融:量化金融模型中的不确定性和风险,以改善投资决策。
  • 工程:评估结构模型的可靠性,以确保性能和安全。
  • 气候科学:评估模型的不确定性,以指导政策制定。

衡量模型不确定性的多种技术

统计学中评估不确定性的技术

在试图衡量模型预测周围不确定性程度时,统计技术至关重要。这些技术提供了一种表达对模型结果的信任程度的方法,以提高模型的韧性并做出明智的决策。

置信区间

  • 置信度:置信区间是一组可以从样本统计量中获得的值,用于确定未知总体参数的真实值存在的概率。
  • 计算:使用样本均值、平均误差以及来自标准统计分布(如 t 分布)的关键值,在特定的置信水平(例如 95%)下构建区间。
  • 解释:我们相信,在从总体中周期性抽样并计算置信值所获得的置信区间中,有一定比例(例如 95%)会包含真实的参数值。

预测区间

  • 定义:预测区间在一定的置信度下,提供了一个范围,未来观测值预计会落入该范围。
  • 计算:这些与置信区间相似,但它们考虑了单个观测值之间的差异以及计算出的均值可能存在的误差。
  • 用例:回归分析经常使用此方法来预测未来数据点的范围,具体取决于模型。

自举法

  • 定义:自举法是一种重采样技术,通过重复从数据中(有放回地)选择样本来估计统计量的概率分布。
  • 方法
    • 通过随机选择一个有放回的样本,从原始数据集中生成多个自举样本。
    • 确定每个自举样本的相关统计量(方差、均值等)。
    • 利用自举数据分布来计算置信区间和其他不确定性度量。
  • 优势:适用于广泛的数据,并且不依赖于关于数据分布的先验假设。

贝叶斯推断

  • 概述:为了更新关于参数的信念(后验分布),贝叶斯推断结合了先验知识(先验分布)和观测到的数据。
  • 贝叶斯技术
    • 一类称为 MCMC(马尔可夫链蒙特卡洛)的技术,使用来自后验分布的样本来估计不确定性。
    • 贝叶斯神经网络:使用分布而不是点估计来解释其权重和偏差不确定性的人工神经网络。
  • 实例与应用
    • 医疗保健:使用预测区间和置信度度量来估计患者治疗期间的潜在结果范围。
    • 金融:使用自举法来衡量投资组合回报的不确定性。
    • 工程:应用贝叶斯估计,根据新数据更新系统可靠性。
  • 实际方面
    • 样本量:更大的样本量通常会产生更准确的不确定性估计。
    • 假设:模型和数据假设(正态性、独立性等)决定了这些技术的可行性。
    • 计算复杂度:MCMC 和自举法是计算密集型技术的例子。

贝叶斯方法论

贝叶斯方法提供了一个衡量模型预测不确定性的随机框架。贝叶斯方法通过融合先验知识和观测到的数据来更新对模型参数和预测的信念,从而得到捕捉不确定性的后验分布。

贝叶斯推断

  • 概述:当出现新的数据或信息时,贝叶斯推断会更新一个命题的概率。
  • 组成部分
    • 先验分布:表示在看到数据之前对参数的看法。
    • 在给定条件下观测到数据的概率称为似然度。
    • 后验分布:通过应用贝叶斯定理确定的、由数据观测得出的修正参数信念。

如何使用马尔可夫链蒙特卡洛模拟 (MCMC) 的方法

  • 概述:当后验分布难以直接计算时,使用 MCMC 技术从复杂的后验分布中采样。
  • 典型算法
    • Metropolis-Hastings 算法通过提出一个新样本,并根据概率标准决定是否接受或拒绝该样本,从而生成一系列样本。
    • Gibbs Sampling:在给定其他参数的当前值的情况下,迭代地从每个参数的条件分布中进行采样。
  • 应用:用于在机器学习、金融和遗传学等多个领域中估计后验分布和不确定性。

贝叶斯神经网络 (BNNs)

  • 概述:通过将偏差和权重视为分布而不是固定值,BNNs 将贝叶斯概念应用于神经网络。
  • 好处
    • 不确定性量化:捕捉网络特性的变异性,以提供预测不确定性的度量。
    • 正则化:通过将先验知识整合到学习过程中,减少过拟合。
  • 执行
    • 变分推断:使用更小、更易处理的分布,变分推断来近似后验分布。此技术通常与变分自编码器 (VAEs) 一起使用。
    • 蒙特卡洛 Dropout:这是 BNNs 的一种实用近似方法,在训练和推理过程中使用 dropout 来量化模型不确定性。

高斯过程 (GPs)

  • 概述: GPs 是用于回归和分类的通用模型,因为它们是描述函数上概率分布的非参数模型。
  • 重要特点
    • 均值函数:描述正在建模的函数的平均行为。
    • 协方差函数(也称为核函数)通过定义输入空间中点之间的关系来控制函数的平滑度和变化程度。
  • 估计不确定性:为了表示预测中的不确定性,GPs 为每个预测提供一个包含均值和方差的分布。

贝叶斯方法的应用

  • 医疗保健:利用贝叶斯模型来衡量医学诊断和治疗结果中的不确定性程度。
  • 金融:通过对回报不确定性进行建模,贝叶斯方法有助于风险评估和投资组合优化。
  • 机器人技术:通过考虑传感器数据和模型预测中的不确定性,贝叶斯方法被用于提高自主系统的韧性和可靠性。
  • 机器学习:通过提供概率性预测和不确定性估计,贝叶斯方法提高了机器学习模型的可解释性和可靠性。

实际方面

  • 计算复杂度:贝叶斯方法,尤其是 MCMC,可能计算量很大,需要使用先进的实现技术。
  • 先验选择:由于您的选择对后验分布有很大影响,因此选择合适的先验至关重要。先验不应不当地限制模型,而应代表真实的先验知识。
  • 可扩展性:为了使贝叶斯方法适用于大型数据集或复杂模型,可能需要使用近似推断技术,如变分推断或蒙特卡洛 Dropout。

集成方法

通过融合多个模型的预测,集成方法可以提高预测性能。这些技术利用每个独立模型的优势来降低模型方差、消除偏差或增强预测。以下三种集成技术被广泛使用:随机森林、堆叠与融合以及装袋与自举聚合。

装袋和自举聚合

  • 概述:通过训练多个在不同训练数据子集上的模型,称为“装袋”(自举聚合)的集成方法可以降低方差并最小化过拟合。
  • 方法:使用替换采样,通过自举采样从初始训练集中创建多个子集。每个子集的大小与原始数据集相同,尽管可能存在重复。
  • 训练不同模型:为每个自举样本训练一个模型。
  • 聚合:汇总每个模型的预测。对于回归,使用预测平均值;对于分类,使用多数投票。

好处

  • 方差减少:通过平均多个模型,装袋可以降低预测的方差。
  • 鲁棒性:提高模型的稳定性和鲁棒性,降低其对训练集中的噪声和异常值的敏感度。

用途

虽然它可以用于任何类型的模型,但装袋通常与决策树一起使用,从而产生了随机森林方法。

随机森林

  • 概述:作为装袋的扩展,随机森林通过在特征选择过程中引入随机性,从而增加模型的变异性。
  • 方法
    • 自举采样:像装袋一样,从训练集中创建多个自举样本。
    • 随机特征选择:为每个决策树分裂随机选择一组特征,然后仅使用这些特征来确定最佳分裂。
    • 模型训练:使用适当的自举样本训练每个决策树。
  • 聚合:汇总每个树的预测。对于回归,使用预测平均值;对于分类,使用多数投票。

好处

  • 方差减少:通过平均许多树,与装袋类似,降低了预测的方差。
  • 性能提升:通过减少树之间的相关性,随机特征选择有助于提高鲁棒性和整体性能。
  • 可解释性:可以构建特征重要性度量,提供有关每个特征相对重要性的信息。

用途

  • 随机森林在营销、银行和医疗保健等众多行业中,经常用于特征选择、回归和分类等任务。

堆叠与融合

  • 概述:堆叠和融合是集成过程,它们通过组合多个模型(称为基学习器)的预测来提高预测性能,并使用一个元模型。

堆叠

  • 基学习器:使用训练数据训练多个模型。
  • 元模型:利用基学习器的预测来训练一个元模型。元模型学习如何最优地组合基学习器的预测。
  • 最终预测:使用元模型进行最终预测。

融合

  • 保留集:将训练数据分为两个子集:一个用于融合的验证集,以及一个用于基学习器的训练集。
  • 基学习器:利用训练集训练多个模型。
  • 融合器:利用验证集上基学习器的预测来训练一个融合器模型。
  • 最终预测:使用融合器模型进行最终预测。

好处

  • 性能提升:堆叠和融合结合起来,可以通过利用多个模型的优势来超越单一模型。
  • 灵活性:允许融合多种模型类型,例如支持向量机、决策树和神经网络。

问题

  • 复杂性:堆叠和融合的整合需要仔细选择和调整基学习器和元模型。
  • 过拟合:如果整体模型相对于训练数据量而言过于复杂,可能会发生过拟合。

用途

在预测准确性至关重要的实际应用中,如推荐系统、银行和医疗保健,以及 Kaggle 等各种机器学习竞赛中,都会采用堆叠和融合。

高斯过程 (GPs)

高斯过程 (GPs) 提供了一个强大的非参数框架,用于表示和预测函数上的分布。它们在需要估计不确定性的回归和分类任务中特别有用。下面是高斯过程的概述。

总结

  • 非参数框架:由于它们可以适应数据而无需假设特定的函数形式,因此 GPs 是非参数模型。
  • 函数分布:GPs 模拟可以解释数据的函数分布,而不是预测单个点估计。
  • 贝叶斯框架:GPs 是一种贝叶斯机器学习方法,它允许我们根据可观测数据更新关于函数的先验假设并整合新数据。

关键要素

  • 均值函数:反映正在建模的函数的预期值。为简化起见,通常取零,但可根据先验数据或假设进行修改。
  • 协方差函数,通常称为核函数,通过定义输入空间中点之间的相似度来描述函数。它捕获了输入点之间的差异程度以及函数结果如何一起变化。问题
    • 复杂性:堆叠和融合的整合需要仔细选择和调整基学习器和元模型。
    • 过拟合:如果整体模型相对于训练数据量而言过于复杂,可能会发生过拟合。

用途

在预测准确性至关重要的实际应用中,如推荐系统、银行和医疗保健,以及 Kaggle 等各种机器学习竞赛中,都会采用堆叠和融合。

问题

  • 复杂性:堆叠和融合的整合需要仔细选择和调整基学习器和元模型。
  • 过拟合:如果整体模型相对于训练数据量而言过于复杂,可能会发生过拟合。

用途

在预测准确性至关重要的实际应用中,如推荐系统、银行和医疗保健,以及 Kaggle 等各种机器学习竞赛中,都会采用堆叠和融合。

典型核函数包括:

  • 平方指数核:假设函数是光滑的。
  • Matérn 核:将平滑度假设扩展到不同程度的可微性。
  • 傅立叶有理核:通过组合多个长度尺度提供灵活性。
  • 超参数:核函数(如方差和长度尺度)的特性,它们控制 GP 建模的函数的平滑度和变异性。通常,使用最大似然估计或贝叶斯优化等技术从数据中学习它们。

不确定性估计

  • GPs 预测函数值的分布,而不是预测单个点估计,从而为不确定性评估提供了概率框架。
  • 对于每个输入点,不确定性由预测的均值和方差表示。
  • 在训练数据稀疏或函数值变化较大的输入区域,不确定性较高。

用途

  • 回归:在根据输入属性进行连续值预测的同时估计不确定性。
  • 分类:使用高斯过程分类 (GPC) 方法预测类别标签,该方法会产生跨类别的概率分布。
  • 超参数优化:GPs 用于贝叶斯优化来优化机器学习模型超参数,尽管评估目标函数可能成本高昂。

好处

  • 适应性:GPs 可以表示复杂函数,而无需特定的参数形式。
  • 量化不确定性:提供可理解的不确定性估计,这对于在可靠性至关重要的场景中做出决策非常重要。
  • 可解释性:GPs 通过提供关于函数平滑度和变异性的见解来帮助理解模型。

挑战

  • 计算复杂度:由于协方差矩阵的求逆(随着数据点数量呈指数增长),GPs 扩展到大型数据集的能力受到限制。
  • 核函数选择:选择正确的核函数至关重要,这通常需要实验或领域知识。

关键学习要点

  • 统计方法:自举法、预测区间和置信区间是评估各种情况不确定性的可靠技术。
  • 贝叶斯方法:贝叶斯神经网络、MCMC 技术和贝叶斯推断提供了一个全面的概率框架,用于整合先验知识并根据新数据修订信念,从而实现先进的不确定性评估。
  • 集成方法:通过利用多个模型来提高预测准确性和降低方差,装袋、随机森林建模和堆叠等技术通过聚合有效地捕捉了模型中的不确定性。
  • 高斯过程 (GPs):GPs 特别适用于需要全面不确定性量化的任务,因为它们在函数上定义了分布,提供了非参数、灵活的不确定性建模方式。

通过利用这些技术的组合,实践者可以更好地理解其模型的局限性和可靠性,从而获得更鲁棒和可信的预测。这些技术持续的开发和应用将提高在不同领域管理和减轻不确定性的能力,从而推动理论和应用机器学习的进步。


下一个主题机器学习模型