贝叶斯主动学习与最优实验设计

2025年6月23日 | 阅读 9 分钟

引言

主动学习和最优实验设计 (OED) 是机器学习和统计学的关键组成部分,尤其是在数据获取成本高昂或耗时的情况下。贝叶斯方法通过利用概率模型指导决策,为这些任务提供了一个原则性的框架。

最后,读者将全面了解贝叶斯方法如何有效地优化数据收集和模型改进。

贝叶斯主动学习

什么是主动学习?

主动学习是一种机器学习范式,算法选择最具信息量的数据点进行标记,而不是依赖随机抽样。目标是以最少的标记数据最大限度地提高模型性能。

贝叶斯视角

在贝叶斯主动学习中,我们使用概率模型量化不确定性并选择能够最大化信息增益的样本。该过程包括:

  1. 后验推断:根据观测数据更新对模型参数的信念。
  2. 采集策略:选择最佳地减少不确定性的新数据点。

关键采集函数

贝叶斯主动学习中,有几个标准指导查询选择:

  1. 不确定性采样
    • 查询模型最不确定的点(例如,熵最高)。
    • 对于分类:x∗=arg max⁡⁡⁡⁡⁡⁡f()xH(y∣x,D)x∗=argmaxxH(yx,D),其中 HH 是熵。
  2. 预期模型变化
    • 选择导致模型发生最大变化的点。
    • 示例:预期梯度长度 (EGL)。
  3. 预期误差减少
    • 最小化未来的泛化误差。
    • 计算成本高昂但理论上最优。
  4. 贝叶斯委员会查询 (QBC)
    • 使用模型集成,并查询分歧最大的点。
  5. 互信息 (MI) 最大化
    • 选择 xx,使模型参数和预测之间的互信息最大化:
x∗=arg max⁡f()xI(y;θ∣x,D)x∗=xargmaxI(y;θ∣x,D)

 

最优实验设计 (OED)

什么是 OED?

最优实验设计是一种统计方法,用于选择能够最大化关于未知参数的信息增益的实验。它广泛应用于:

  • 药物发现
  • 传感器布设
  • 超参数调优

最优实验设计 (OED) 代表了一个原则性的统计框架,用于策略性地选择实验,以最大限度地获取信息增益,同时最大限度地减少资源支出。OED 的核心是提供方法来确定哪些实验或测量将为参数估计、模型辨别或预测改进产生最有价值的数据。这种方法在实验成本高昂、耗时或受伦理约束的领域尤为重要,例如药物开发、材料科学或大型物理实验。OED 的数学基础可以追溯到 Fisher 和 Kiefer 等统计学家的开创性工作,但随着复杂计算模型和数据驱动科学发现的出现,其重要性再次得到提升。现代应用已超越传统科学领域,扩展到机器学习超参数优化和工业 A/B 测试框架。

贝叶斯 OED

在贝叶斯 OED 中,我们通过最大化预期效用 UU 来优化实验,其定义如下:

其中

  • ee= 实验(例如,输入条件),
  • yy= 观测结果,
  • DD= 现有数据。

贝叶斯最优实验设计 (BOED) 通过结合先验知识并将所有未知量视为具有概率分布的随机变量来扩展经典 OED。贝叶斯框架通过预期效用函数评估实验,该函数量化不同实验结果的价值。此效用可以设计为捕获各种目标,例如参数精度、模型证据或预测性能。贝叶斯方法的一个关键优势是其对不确定性的自然处理——包括模型参数和实验结果的不确定性。近似推断的最新计算进展使得 BOED 对于复杂的、高维问题成为可能,而这些问题分析解决方案是棘手的。该框架还自然地适应顺序决策,其中每个实验都是根据所有先前观察到的数据选择的。

常见设计标准

  1. A-最优性:最小化后验协方差的迹(减少参数方差)。
  2. D-最优性:最大化信息矩阵的行列式(最大化信息增益)。
  3. E-最优性:最大化信息矩阵的最小特征值。
  4. V-最优性:最小化平均预测方差。

最优性标准的最终选择取决于实验者的最终目标。A-最优性侧重于通过最小化平均方差来实现精确的参数估计,当所有参数同等重要时,它非常适用。D-最优性可能是最广泛使用的标准,它通过优化信息矩阵的行列式来最大化整体信息内容,这对应于最小化置信椭球的体积。E-最优性通过最大化最小特征值来确保鲁棒性,该特征值控制最坏情况的方差方向。V-最优性通过最小化指定域内的平均预测方差来专门针对预测质量。最近,针对特定应用出现了专门的标准,例如用于模型判别的鲁棒最优性或用于临床试验的安全约束标准。这些标准的数学特性和计算可处理性差异很大,在实际实施中需要仔细考虑。

顺序与批量 OED

  • 顺序:一次选择一个实验,每次观测后更新模型。
  • 批量:同时选择多个实验(更高效但计算更困难)。

实验设计的顺序方法在每次观察后更新概率模型,从而允许响应累积知识的自适应实验。这种短视策略通常在预算受限的场景中被证明是最佳的,并且在早期实验可能会显著改变对系统的理解时特别有效。然而,当实验具有显著的设置成本或当并行化成为可能时,它可能是次优的。批量设计虽然在计算上更具挑战性,但在许多现实世界环境中通过允许同时执行多个实验提供了显著的实际优势。现代方法通常通过非近视近似或混合顺序-批量策略等技术来平衡这些极端。顺序设计和批量设计之间的选择最终取决于实验基础设施、成本结构以及底层模型中的不确定性程度。

贝叶斯主动学习和最优实验设计算法

本节深入探讨了贝叶斯主动学习和最优实验设计 (OED) 中使用的关键算法,以及实际的 Python 实现。

基于高斯过程 (GP) 的方法

高斯过程 (GP) 是强大的非参数贝叶斯模型,可提供不确定性估计,使其成为主动学习和 OED 的理想选择。

1. GP-UCB(上置信区间)

GP-UCB 平衡探索(采样不确定区域)和利用(采样高预测值)。采集函数为:

其中

  • μ(x)μ(x) = 预测均值,
  • σ(x)σ(x) = 预测标准差,
  • κκ = 权衡参数。

Python 实现(使用 GPyTorch)

2. 熵搜索

搜索通过最小化最优输入 x∗x∗ 的后验分布的熵来最大化关于最优输入 x∗x∗ 的信息增益。

Python 实现(使用 BoTorch)

3. 贝叶斯优化 (BO)

贝叶斯优化 (BO) 广泛用于使用代理模型(通常是 GP)优化昂贵的黑盒函数。

采集函数

预期改进 (EI)
倾向于选择有望改进最佳观测值的点。

EI(x)=E[max⁡f()(f(x)−f(x+),0)]EI(x)=E[max(f(x)−f(x+),0)]

改进概率 (PI)
选择最有机会改进 f(x+)f(x+) 的点。

PI(x)=P(f(x)≥f(x+))PI(x)=P(f(x)≥f(x+))

上置信区间 (UCB)

与 GP-UCB 相同。

Python 实现(使用 Scikit-Optimize)

4. 汤普森采样

汤普森采样是一种贝叶斯多臂赌博机算法,它从后验分布中采样并选择最佳行动。

Python 实现(用于多臂赌博机)

5. 贝叶斯神经网络 (BNN)

BNN 在权重上放置分布,允许进行不确定性估计。

Python 实现(使用 Pyro)

6. 蒙特卡罗 Dropout

测试时的 Dropout 近似贝叶斯推断。

Python 实现(使用 PyTorch)

应用

  • 药物发现
    贝叶斯主动学习正在通过优化高通量筛选过程彻底改变药物发现。制药公司面临着评估数百万种化合物同时最大限度地降低实验室测试成本的挑战。主动学习算法通过迭代选择化合物,最大限度地提高关于生物活性的预期信息增益,从而优先选择最有前途的候选药物。
  • 机器人与自主系统
    在机器人领域,主动学习能够更有效地获取技能和探索环境。自主系统使用贝叶斯方法来识别最具信息量的状态或动作以进行查询,从而显著减少所需的训练数据量。这对于实际机器人中的强化学习尤为重要,因为物理试验成本高昂且耗时。应用范围从工业机器人抓取(系统学习最优操纵策略)到自动驾驶汽车(需要高效探索罕见但关键的边缘情况)。
  • 气候建模
    气候科学家采用最优实验设计来最大限度地利用有限的观测资源。贝叶斯方法有助于确定气象站、海洋浮标或卫星测量的理想位置,以改进气候预测模型。
  • 推荐系统
    主动学习通过最大限度地减少理解用户偏好所需的查询数量来改变推荐系统中的用户体验。贝叶斯方法不是要求用户评价大量项目,而是识别最具信息量的产品进行查询,从而显著减少用户疲劳,同时保持推荐质量。
  • 新兴应用
    除了这些已建立的领域,贝叶斯主动学习还在材料科学(加速新合金和聚合物的发现)、精准农业(优化田地中的传感器布局)和医疗保健(设计高效的临床试验)中找到新的应用。该方法也正在适应社会科学研究,帮助设计更具信息量的调查和实验。

挑战与未来方向

计算复杂性

贝叶斯主动学习和最优实验设计面临的最大挑战之一是计算复杂性。对于复杂模型而言,精确的贝叶斯推断变得棘手,需要采用变分推断和马尔可夫链蒙特卡罗 (MCMC) 等近似方法。虽然这些近似使计算变得可行,但它们引入了权衡:变分推断速度更快,但可能会低估不确定性,而 MCMC 提供更准确的后验估计,但收敛速度较慢。未来的研究正在探索更具可扩展性的推断技术,例如随机梯度 MCMC 和分布式贝叶斯优化,以有效处理更大的数据集。此外,硬件加速和并行计算的进步正在帮助缓解这些计算瓶颈,使贝叶斯方法在实际应用中更具实用性。

高维数据

许多现实世界问题涉及高维数据,例如图像、文本和图表,传统贝叶斯方法难以处理。例如,高斯过程随着维度增加而扩展性差,而深度贝叶斯模型(例如贝叶斯神经网络)面临训练稳定性和不确定性校准的挑战。深度核学习和基于注意力架构的最新进展提供了有希望的解决方案,但在开发能够平衡可扩展性和可靠不确定性量化的模型方面仍有大量工作要做。未来的方向可能涉及结合深度学习和贝叶斯推断优势的混合方法,以及保留不确定性信息的新型降维技术。

人机协同主动学习

虽然自动化查询选择在受控环境中表现良好,但许多实际应用需要人类专业知识来指导学习过程。一个关键挑战是设计能够有效整合领域知识和算法决策的系统,确保查询既具有信息量又可解释。主动学习框架还必须考虑人类偏见和不同级别的专业知识,这些都可能影响标签质量。未来的研究应侧重于适应用户反馈的交互式学习系统,以及量化学习循环中人类输入价值的方法。

多目标与安全实验设计

在许多科学和工业应用中,实验设计必须平衡多个相互竞争的目标,例如最大化信息增益同时最小化成本或风险。安全实验设计在医疗保健和自主系统等领域尤为关键,因为不安全的查询可能会导致严重后果。当前的贝叶斯优化方法通常将约束视为次要考虑,但未来的工作必须开发更强大的多目标和约束优化框架。这包括风险感知采集函数的进步以及将关于安全边界的先验知识纳入实验设计过程的方法。

结论

贝叶斯主动学习和最优实验设计为高效数据收集和模型改进提供了强大的框架。通过利用概率模型和智能查询策略,这些方法能够在科学和工业应用中显著节省成本。未来的发展将侧重于可扩展性、鲁棒性以及与深度学习的集成。