用于机器学习分类的共形预测

2025年2月3日 | 阅读 6 分钟

共形预测导论

共形预测是一种统计框架,用于评估机器学习分类任务中预测的可靠性。它通过生成预测区间或预测集来量化预测的置信度,这些区间或集合保证以指定的概率包含真实标签。这是通过利用过去的预测性能来创建一个一致性分数来实现的,该分数衡量新数据与已建立的模型一致的程度。

什么是共形预测?

共形预测是一种可用于类别或子组的技术,也是一种对案例进行分类和量化不确定性的方法。分类到一组可能的类别而不是单个预测可以传达不确定性。

共形预测提供了覆盖率,即预测区域覆盖真实结果的可能性。根据任务的不同,共形预测对预测区域的解释也不同。我们得到回归的预测区间和分类的预测集。

下面是共形预测(集合)与“传统”分类(概率平衡)之间差异的说明。

Conformal Prediction for Machine Learning Classification

为什么我们应该关注不确定性量化?

因为不确定性量化有助于阐明机器学习模型的可靠性和弹性,所以它至关重要。为了做出明智的决策,了解我们对模型输出的信心程度非常重要。这可以通过衡量预测中的不确定性来完成。决策和风险管理因其能够确定模型中可能模糊或易出错的区域而得到增强。这在医疗保健、银行业和自动驾驶系统等选择具有重大影响的领域尤其如此。衡量不确定性还有助于开发模型并确定是否需要更多信息或更改来改进其性能。总而言之;它将预测从粗略的近似值转变为知情、有用的见解。

示例

输出

Conformal Prediction for Machine Learning Classification

说明

这段代码片段演示了如何为分类任务生成和可视化合成数据集。它使用 `make_classification` 创建一个包含 10,000 个样本的数据集,总共有 5 个特征(2 个信息性)。生成了三个类别,但通过将类别 0 的样本数量减少到原始数量的 30% 来使其不平衡。它使用合成数据来测试模型在类别不平衡条件下的性能,将数据分为训练集、校准集和测试集,并使用散点图可视化结果来评估类别分布和分离。这种不平衡是通过随机选择并保留类别 0 的较少样本,同时保持其他类别的完整性来实现的。然后将数据集分为训练集、校准集和测试集,其中测试集被可视化。散点图显示了测试样本在二维空间中的分布,其中不同的颜色代表不同的类别,有助于说明类别不平衡的影响以及类别的分离。这种设置对于测试模型性能和评估模型处理不平衡数据的能力非常有用。

使用此方法的优点

  1. 共形预测
    共形预测为预测集提供了覆盖率保证,确保以指定的最小目标覆盖率捕获真实结果。与其他方法不同,共形预测不需要模型校准良好;它只假设新样本来自与训练集和校准集相似的数据分布。这种方法确保在不同的数据分布下都能获得可靠的性能。此外,覆盖率可以扩展到各种类别或子组,尽管这需要额外的技术步骤。这种灵活性使共形预测成为生成具有保证覆盖率的可靠预测集的稳健选择,而无需考虑模型的校准。
  2. 易于使用
    共形预测方法非常容易实现,即使是机器学习新手也能轻松上手。只需几行代码,您就可以从头开始设置共形预测框架。这种简单性源于该方法简单的要求:训练模型、获得预测以及计算不一致性分数。易用性与该方法强大的理论保证相结合,使实践者能够快速有效地将共形预测应用于各种问题。这使其成为快速实验和在实际应用中稳健部署的吸引人的选择。
  3. 模型无关
    共形预测是模型无关的,这意味着它可以应用于任何机器学习模型,而无需依赖模型的具体细节。这种灵活性使其可以与各种算法一起使用,从简单的线性模型到复杂的深度学习架构。由于共形预测通过评估模型的输出来工作,而不是评估其内部机制,因此它提供了可靠的预测集,而与底层模型无关。这种多功能性使其成为确保各种应用和模型类型中可靠预测的宝贵工具。
  4. 广泛应用
    共形预测在各种领域和数据类型中具有广泛的适用性。它可以用于表格数据分类、图像分类、时间序列分类、回归以及许多其他任务。该方法的一般原理和模型无关的性质有助于其适应性。共形预测提供具有覆盖率保证的可信预测集,独立于数据或任务。在本演示中,我们将重点关注分类任务,展示共形预测如何生成考虑模型输出不确定性的预测集。由于其广泛的应用范围,它是确保在各种行业中获得可靠性能的重要工具。
  5. 量化不确定性
    由于共形预测提供一系列可能的输出而不是单个点估计,因此它为量化预测中的不确定性提供了一种逻辑方法。这在涉及高风险的情况下尤其有用,在这些情况下,了解预测的置信度至关重要。
  6. 灵活的校准
    该技术使用户能够根据所需的确定性程度设置预测区间,从而易于调整所需的置信度。这种灵活性有助于在覆盖率和预测准确性之间的权衡中取得平衡。
  7. 无分布假设
    共形预测即使在数据分布不明确或复杂的情况下也可以使用,因为它不对底层数据分布做出任何强假设。
  8. 适应性
    序列和图是结构化数据类型的示例,共形预测可以扩展到处理这些类型。它也可以修改以适应各种问题上下文,例如多类分类和回归。
  9. 性能监控
    它提供了一个跟踪和维持性能随时间变化的结构,这有助于识别数据分布的变化导致模型预测失去可靠性的实例。

这些优点使共形预测成为增强各种应用中机器学习模型的可靠性和可解释性的强大工具。

结论

共形预测为在机器学习分类问题中提供可信的不确定性估计提供了一个强大的框架。通过生成具有给定置信度的预测集,它使实践者能够理解模型预测的保证水平。此方法在需要高可靠性的领域(例如金融预测或医疗诊断)中非常有用,因为它会随预测一起提供置信度。与传统方法不同,共形预测不依赖于对数据分布的强假设,因此在各个领域都具有适应性。总而言之,它通过提供不仅是点预测,还包括显示各种结果可能性的区间,从而提高决策水平,从而增强对模型预测的信心。这种策略确保了更深思熟虑和更明智的决策,尤其是在后果重大的情况下。