机器学习中的统计功效

2025年2月28日 | 阅读 6 分钟

统计功效是假设检验和实验设计的重要概念,但它对整个机器学习领域都有显著影响。它被定义为当一个效应或模式确实存在时,检验检测到该效应或模式的能力。很大的功效意味着模型在机器学习中能够恰当地评估并获得有意义的数据模式而不遗漏任何东西。

假设备择假设为真时,检验正确拒绝零假设的概率。它实际上是衡量检验检测真实效应的灵敏度。

数学上,功效定义为

功效 = 1 - β

其中

  • β 是犯第二类错误(即在备择假设为真时未能拒绝零假设)的概率。
  • 高统计功效,通常高于 0.8 或 80%,表明检验有很好的机会检测到数据中的真实效应。

影响统计功效的因素包括样本量、α 水平、效应大小和数据变异性。

影响机器学习功效的因素

机器学习实验的统计功效取决于几个关键因素。每个因素都有助于检测真实效应或模式。了解这些事实对于设计成功的实验、在模型之间进行稳健的比较以及充分评估稳健的性能至关重要。以下是对影响统计功效的关键要素的更详细解释:

  • 样本量:数据集的样本量决定了统计功效。通常,随着样本量的增加,功效也会增加,因为与性能指标和模型参数估计相关的 N 程度降低。当样本量较低时,很难判断某些模式是真实的还是仅仅是随机噪声。模式可能会被随机波动所掩盖。这通常会降低选择所研究模型或特征之间显著差异的可能性。
  • 效应大小:两个组之间的差异有多大,或者变量之间关系的强度;也就是说:在机器学习中,效应大小可能指模型性能指标(如准确率、精确率或 F1 分数)的差异,或者某些单个特征对目标变量的影响。
  • 显著性水平 (α):这是研究人员设定的决定检验结果是否具有统计学意义的水平。它表示犯所谓的 I 类错误(或更简单地说,拒绝真实的零假设)的概率。α 的常见值为 .05 或 .01,这意味着如果检验结果不具有统计学意义,那么犯此类错误的概率可能只有 5% 或 1%。
  • 数据方差:方差用于描述给定数据集中各项的分布或离散度。数据中的高方差会引入噪声,因此很难区分有意义的模式或任何可观察到的效应。在机器学习实验中,方差可能来自多种来源,例如与数据收集相关的 N 程度、某些特征值的尺度范围较宽,或者输入分布不均匀。

平衡 I 类和 II 类错误

因此,必须平衡 I 类和 II 类错误,以确保结果可靠。I 类错误或假阳性是拒绝错误的零假设。另一方面,II 类错误或假阴性发生在零假设未能检测到真实效应时。随着统计功效的增加,它会减少 II 类错误,但可能会导致 I 类错误增加,因此必须权衡前者与后者。显著性水平越低,假阳性越少,但假阴性的可能性越大。可以通过多种策略来管理此类错误,例如增加样本量、交叉验证或基于效应大小的分析。在医疗保健及相关领域,在不采取行动的风险和可能错过重要发现的风险之间取得平衡至关重要,以避免不必要的行动和漏报。

为了参考,我们现在以 t 功效分析为例。

功效分析

统计功效通过诸如 Student's t-test 之类的示例得以实现:这是一种假设检验,用于检查从高斯分布中抽取的两个样本值的均值是否不同。零假设是没有两个样本均值之间的差异。也就是说,它们被假定属于同一个总体。它返回一个 p 值,其值有助于确定是拒绝零假设还是不拒绝。通常,α=0.05 被视为标准值。换句话说,当不存在差异时,它有 0.05 的概率说存在差异。

t 检验中的重要考虑因素之一是效应大小:它计算样本均值之间的差异有多大。Cohen's d 是通常使用的度量之一,它以标准差表示差异。较大的效应大小被认为是 0.80 或更高。最后,功效(通常设置为 80% 或 0.80)是检测真实效应(如果存在)的概率;这与 20% 的遗漏概率(即犯 II 类错误)相平衡。

为了规划一项具有良好功效的实验,必须估算所需的最小样本量。现在,假设我们希望在 α 水平为 0.05 的情况下,检测效应大小为 0.80 的功效为 80%。在这种情况下,通过功效分析获得最小样本量至关重要。statsmodels 库中有一个针对 TTestIndPower 类的此类分析。该类实现了独立样本 t 检验,并且 solve_power() 方法允许计算四个参数之一:样本量、效应大小、功效或显著性水平。如果两个样本的观测次数相等,则参数 ratio 设置为 1.0;否则,它可以反映不同的组大小——因此,对于半规模的组,设置为 0.5。

以下是如何计算所需样本量的示例

输出建议每组需要 25.525 个样本,以便以 80% 的功效和 5% 的显著性水平检测到 0.80 的效应大小。

功效曲线

另一个非常有用的功效分析工具是功效曲线,它在控制效应大小的同时,绘制了样本量对统计功效的影响。这些图显示了更多观测次数会带来观测收益递减。例如,如果捕获 0.80 的大效应大小很重要,那么功效可能会在 40 到 50 次观测后趋于平稳。

输出

Statistical Power in Machine Learning

此图显示了小 (0.2)、中 (0.5) 和大 (0.8) 效应大小的功效函数。在曲线中,样本量超过 50 次观测后,功效的增加不大;也就是说,一旦样本量超过 50 左右,样本量的进一步增加就没有多大好处了。

功效分析和功效曲线的可视化使研究人员能够平衡样本量、alpha 水平和效应大小,以便就其实验做出最佳决策,确保结果既有意义又不浪费资源。