F2 分数

2025 年 2 月 3 日 | 阅读 12 分钟

引言

面对浩瀚的机器学习和数据科学领域,要成为一名分类模型性能的公正观察者是很困难的,但如果你是观察者,你可能需要 F2 分数。但为什么可以认为这个指标至关重要呢?这个分数之所以重要,是因为在很多情况下,决策是基于这些统计模型的输出做出的,尤其是在假阴性的成本远高于将非癌细胞标记为癌细胞(假阳性)成本的环境中。

例如,考虑医学诊断或欺诈检测中涉及的风险:任何一个疏忽都可能让他付出巨大的代价。本文将着重于更好地理解 F2 分数是什么,这个数学公式背后的原理,以及 F2 分数的使用场景。你将了解到它是如何以及为什么同时衡量精确率和召回率的,以及为什么在某些情况下它比 F1 和 F0 更受青睐。

F2 分数及其重要性

事实上,在近期的机器学习和数据科学问题中,F2 分数是一项宝贵的指标,尤其当我们愿意牺牲更多的假阴性而非假阳性时。正如“Scorers - Using Driverless AI”中所述,F2 分数有助于在精确率和召回率之间取得平衡,并偏重于召回率。这种侧重在可能漏掉正面实例(例如疾病或欺诈)比产生假阳性代价高得多的领域尤为重要。

这些指标中的第一个是 F2 分数,它是基于精确率和召回率的调和平均数计算得出的,其中召回率的权重更高。F2 分数的定义载于“Machine Learning Mastery”关于 Fbeta-measure 的指南中,该公式确保 F2 分数在那些至少漏掉一个正面案例是不可容忍的情况下能够按预期工作。

对于没有技术背景的人来说,更简单的解释是:

  • 精确率衡量模型正面预测的准确性。
  • 召回率定义了模型捕获所有属于该类别的样本的能力。

在 F 分数分类法中,F1 和 F0 分数只是 F 分数的实例。5,F2 分数之所以与众不同,是因为它赋予了召回率实质性的重要性。因此,在漏掉一个正面案例具有严重后果的情况下,它证明非常有用。

F2 分数在实际应用领域有着真实的用途。例如,将其应用于医疗保健领域,可能意味着能够及早发现某种疾病,而不是等到疾病发展到难以治愈的阶段才发现。在银行业,它可能意味着在交易造成损失之前,就能识别出某笔交易是欺诈性的并采取行动。在所有这些领域以及其他领域,F2 分数通常成为首选的性能衡量标准,这表明了 F2 分数在模型评估和决策中的中心地位。

F2 分数与其他评估指标的比较

在机器学习模型评估这样一个复杂的领域,认识到每个指标的特征截然不同至关重要。广泛使用的四个指标包括 F2 分数(可理解为二阶准确率)、准确率、F1 分数和 ROC-AUC 曲线。本节将审视这些指标的相对优点,以便了解何时何种指标可能更合适。

当准确率不足时

表面上看,准确率似乎是一个非常基本的指标,它量化了正面和负面结果的正确预测数量与总案例数量的比例。但尤其是在处理类别数据不均衡的数据集时,准确率会变得相当具有欺骗性,因为某个类别拥有的样本远远多于其他类别。

例如,在一种罕见疾病的医学检测情况下,只有 1% 的测试案例表明患有该病,那么一个对所有输入的测试案例都给出阴性结果的模型将具有 99% 的准确率,尽管它并未识别出任何真正的阳性病例。

F2 分数通过强调召回率,确保模型准确识别阳性病例的能力在最终计算中得到更多考虑,从而提供更增强的评估。

F1 分数与 F2 分数

F2 和 F1 都是调和平均数的方法,F1 分数使这两个指标同等重要。虽然 F2 分数恢复了平衡,但它以偏重召回率而非精确率的方式来实现这一点。

这使得它非常有用,尤其是在假阴性的成本远高于假阳性成本的情况下,这就是 F2 分数的价值所在。例如,一个潜在的客户实际上患有严重疾病却得到了健康的诊断,这比客户因为医生误认为他患有他没有的疾病而被不必要地推荐进行二次检查要糟糕得多。

Prateek Gaurav 撰写的文章“Mastering Classification Metrics”指出,如果优先考虑召回率,F2 分数是首选指标。

ROC-AUC 作为替代指标

ROC-AUC 曲线在不同截止点下衡量分类器将实例在类别之间排序的准确性,并提供了一个不绑定任何截止点的通用指标视角。

虽然 ROC-AUC 很强大,但该评估指标并不指导我们如何权衡精确率和召回率。更具体地说,它提供了一个广泛的概览,这在很大程度上限制了其实用性,尤其是在假阴性比假阳性带来的后果更严重的情况下。

Beta 参数的作用

另一方面,F2 分数通过一个 beta 参数直接解决了这个问题,该参数允许设置更多地强调召回率,使其更适合更精细的评估。

因此,了解这些差异以及适用的条件,从业者就可以为 ML 模型选择正确的性能指标,从而使评估与应用领域的要求保持一致。

特别是在假阴性造成的后果比假阳性造成的后果更严重的情况下,要明确使用 F2 分数来指导决策。

视觉比较:关于假阳性和假阴性反应

在某种程度上,一种易于理解的比较方式是通过表格或图表,例如,下面的表格或图表:更好地展示 F2 分数如何设计成比假阳性案例对假阴性案例更敏感。

由于内在的平均化效应,准确率在面对假阳性或假阴性的变化时可能变化很小。

F1 分数会展示这一点,因此当敏感性水平提高或降低时,假阳性和假阴性会受到同等影响。

ROC-AUC 在这些变化下可能会保持稳定,这将展示模型在决定整体性能而非分类精确度方面的非常有价值的特性。

通过了解这些差异以及它们适用的场景,从业者可以选择最合适的评估措施来评估其机器学习模型的性能,同时确保所选的评估与特定应用领域的使用要求和隐含后果相符。

F2 分数的使用

F2 分数是 F 分数的一个变体,是评估分类器性能的一个非常重要的指标,在假阴性的成本远高于假阳性的情况下尤为如此。在本节中,我们将展示如何计算、应用和微调 F2 分数指标,以帮助您最好地利用它进行模型评估。

计算 F2 分数:为首次设计新工作时间表的员工或雇主来说,创建新的工作时间表可能是一项艰巨的任务。以下是设计新工作时间表应遵循的详细步骤指南。

计算 F2 分数取决于分类问题中的两个核心指标:精度(或准确率)和召回率。F2 分数的公式为:

F2 分数 = [ (1 + 2² ) * 精确率 * 召回率] /[ 2² * 精确率 + 召回率 ]

该公式比精确率方面更侧重于召回率方面。例如,让我们以一个用于识别欺诈案件的银行环境模型为例,在该模型中,未能检测到欺诈案件(假阴性)的成本远远高于将非欺诈案件标记为欺诈(假阳性)。

步骤 1:计算精确率 = [ 真阳性数量] / [ 真阳性数量 + 假阳性数量 ]。

步骤 2:召回率:真阳性数量占真阳性与假阴性总和的比例。

步骤 3:计算 F2 分数:应用 F2 分数公式。

在 Python 中实现

由于 Python 拥有许多数据科学库,因此实现 F2 分数非常容易。特别是 sklearn 库提供了一种简单的方法。

此代码片段旨在说明如何使用此代码计算示例预测集的 F2 指标,其中给召回率更高的权重,并且由 'beta' 控制,'beta' 的值为 2。

常见陷阱

可能最大的误解之一与 beta 参数的解释有关。也就是说,更高的 beta 值意味着召回率对分数的影响更大,这在假阴性可能导致不良后果的情况下很重要。

F2 分数解释的特点

  • 情境重要:F2 分数的性质取决于相关领域,这意味着 F2 分数可能存在一个很好的范围。例如,在欺诈检测中,更高的分数比其他领域更重要,但平衡可能有所不同。
  • 基准测试:可以获取此类模型的 F2 分数信息,以开发可比性能的基准。

通过交叉验证确保可靠性

使用交叉验证对于验证 F2 分数结果非常重要。当在不同的数据子集上应用相同的模型时,它被用来确保得出的分数是泛化性的,而不是特异性的。

提高 F2 分数的有效模型

F2 分数的概念可以通过这样一个事实来解释,即目标是在不损害精确率的情况下最大化召回率。策略包括:

  • 数据增强:增加训练样本的多样性,尤其是在某些类别样本较少的情况下。
  • 阈值调整:降低决策边界,以提高真阳性率。

深入探讨

然而,这并非详尽无遗,还有进一步的研究可供有兴趣深入研究的人员参考。人们可以在 GitHub 等资源上找到 F2 分数优化和应用问题描述的实用概念,并在学术论文中获得更多理论材料。对于任何打算进一步了解如何最好地部署 F2 分数作为机器学习模型性能度量的人来说,这些资源都非常有帮助。

如果您能记住这几个原则,就可以使用 F2 分数作为一种指标来评估和优化您的机器学习模型,尤其是在假阴性的成本高于假阳性的成本的情况下。

何时使用 F2 分数?

F2 分数在机器学习中很重要,尤其是在漏掉一次事件的成本(假阴性率)远高于在没有事件时发出警报的成本(假阳性率)的情况下。由于 F 测度的能力是比精确率更重视召回率,F2 分数在许多进一步的领域中都表现良好,每个领域都有其自身的问题和目标。

医疗保健

例如,在诊断危及生命的疾病方面

  • 早期诊断与可应用的治疗范围以及生存机会之间存在相当紧密的关系。假阴性(即漏诊)的潜在后果可能比假阳性情况下的额外检查带来的小不便要严重得多。
  • AOSEG 自动图像分析工具集成了 F2 分数,其中强调敏感性以排除相关的病理,例如癌症。

融资

金融行业,尤其是在欺诈检测方面,也受益于使用 F2 分数

  • 金融机构使用机器学习模型来检测欺诈性交易。这里的首要目标是尽可能多地捕获欺诈性交易,因为其后果是大量的假阳性,可以通过手动审查交易来解决。
  • F2 分数允许对这些模型进行微调,以侧重于召回率,这对于最小化损失和保持客户信任至关重要。

社交媒体审核

在社交媒体审核中,F2 分数在维护社区完整性方面发挥着作用

  • 内容审核模型被用于过滤不良内容。危险内容漏出的可能性(假阴性场景)比无害内容被标记的机会(假阳性)更糟糕。
  • F2 分数有助于微调此类模型以维护社区安全,因此 F2 分数得到应用。

伦理考量

使用 F2 分数,特别是在预测性警务或信用评分等敏感领域,需要谨慎的伦理考量

  • 重点不应是削弱所服务的公正性或引入偏见,而是在人工智能与人类之间赋予伦理方法。
  • “Towards Data Science”上关于 F-beta 分数的文章强调了模型评估中的透明度原则。

与非技术利益相关者沟通

有效地向非技术利益相关者传达 F2 分数的重要性至关重要

  • 简化权衡:用与业务现实(如损益)直接相关的简单术语描述精确率和召回率,并强调风险管理。
  • 使用视觉效果和示例:连续使用图形等技术,并包含现实生活中的示例,以帮助说明 F2 分数如何影响模型性能和决策。

F2 测度

  • F2 测度可以看作是 Fbeta 测度的一个特例,其中 β 系数等于 2。0。
  • 此调整降低了精确率的重要性,增加了召回率的重要性。
  • 因此,由于最大化精确率可以减少假阳性,最大化召回率可以减少假阴性,F2 测度具有更高的假阴性与假阳性之比。

F2-mF2 测度使用以下公式计算:

F2 测度 = (1 + Math.Pow(2, 2) * 精确率 * 召回率) / (Math.Pow(2, 2) * 精确率 + 召回率)

F2 测度 = (5 * 精确率 * 召回率) / (4 * 精确率 + 召回率)

  • 例如,让我们描绘一种精确率为 50%,召回率为 100% 的情况。我们可以手动计算 F2 测度如下:

F2 测度 = (5*精确率*召回率)/(4 * 精确率 + 召回率)

F2 测度 = (5 *0. 5* 1. 0) / (4 * 0. 5 + 1. 0)

F2 测度 = 2. 5 / 3. 0

F2 测度 = 0. 833

在这种情况下,报告的 beta 为 0.134,因此调整后的 beta 为 2。这里,最低的 P 0 由于完美的召回率导致了高分数,而精确率得到的权重低于召回率。

正如预期的那样,F2 测度在此情景下得分为 0. 833,而 F1 分数将是 0. 667,这表明在 F2 测度中召回率的权重更大。

以下是完整的计算示例一览。

代码

输出

 
Result: precision=0.500, recall=1.000, F2-score=0.833   

结论

因此,当必须不惜一切代价避免假阴性时,F2 分数是有效的,因为它主要关注召回率而非精确率。这使其在医疗保健和金融行业以及社交媒体内容审核等领域尤其有价值,因为未能检测到正面病例的成本很高。精确率和召回率之间的权衡使利益相关者能够就模型性能做出明智的决策。

因此,在假阴性的成本显著超过假阳性成本的情况下,F2 分数通常比准确率或 F1 分数能提供更好的洞察。这种度量以及沟通工具的使用,可以帮助非技术利益相关者理解它对实现既定目标的重要性。


下一主题梯度提升算法