用于机器学习分类的共形预测2025年2月3日 | 阅读 6 分钟 共形预测导论共形预测是一种统计框架,用于评估机器学习分类任务中预测的可靠性。它通过生成预测区间或预测集来量化预测的置信度,这些区间或集合保证以指定的概率包含真实标签。这是通过利用过去的预测性能来创建一个一致性分数来实现的,该分数衡量新数据与已建立的模型一致的程度。 什么是共形预测?共形预测是一种可用于类别或子组的技术,也是一种对案例进行分类和量化不确定性的方法。分类到一组可能的类别而不是单个预测可以传达不确定性。 共形预测提供了覆盖率,即预测区域覆盖真实结果的可能性。根据任务的不同,共形预测对预测区域的解释也不同。我们得到回归的预测区间和分类的预测集。 下面是共形预测(集合)与“传统”分类(概率平衡)之间差异的说明。 ![]() 为什么我们应该关注不确定性量化?因为不确定性量化有助于阐明机器学习模型的可靠性和弹性,所以它至关重要。为了做出明智的决策,了解我们对模型输出的信心程度非常重要。这可以通过衡量预测中的不确定性来完成。决策和风险管理因其能够确定模型中可能模糊或易出错的区域而得到增强。这在医疗保健、银行业和自动驾驶系统等选择具有重大影响的领域尤其如此。衡量不确定性还有助于开发模型并确定是否需要更多信息或更改来改进其性能。总而言之;它将预测从粗略的近似值转变为知情、有用的见解。 示例输出 ![]() 说明这段代码片段演示了如何为分类任务生成和可视化合成数据集。它使用 `make_classification` 创建一个包含 10,000 个样本的数据集,总共有 5 个特征(2 个信息性)。生成了三个类别,但通过将类别 0 的样本数量减少到原始数量的 30% 来使其不平衡。它使用合成数据来测试模型在类别不平衡条件下的性能,将数据分为训练集、校准集和测试集,并使用散点图可视化结果来评估类别分布和分离。这种不平衡是通过随机选择并保留类别 0 的较少样本,同时保持其他类别的完整性来实现的。然后将数据集分为训练集、校准集和测试集,其中测试集被可视化。散点图显示了测试样本在二维空间中的分布,其中不同的颜色代表不同的类别,有助于说明类别不平衡的影响以及类别的分离。这种设置对于测试模型性能和评估模型处理不平衡数据的能力非常有用。 使用此方法的优点
这些优点使共形预测成为增强各种应用中机器学习模型的可靠性和可解释性的强大工具。 结论共形预测为在机器学习分类问题中提供可信的不确定性估计提供了一个强大的框架。通过生成具有给定置信度的预测集,它使实践者能够理解模型预测的保证水平。此方法在需要高可靠性的领域(例如金融预测或医疗诊断)中非常有用,因为它会随预测一起提供置信度。与传统方法不同,共形预测不依赖于对数据分布的强假设,因此在各个领域都具有适应性。总而言之,它通过提供不仅是点预测,还包括显示各种结果可能性的区间,从而提高决策水平,从而增强对模型预测的信心。这种策略确保了更深思熟虑和更明智的决策,尤其是在后果重大的情况下。 下一主题用于机器学习的统计数据类型 |
我们请求您订阅我们的新闻通讯以获取最新更新。