机器学习中的统计功效2025年2月28日 | 阅读 6 分钟 统计功效是假设检验和实验设计的重要概念,但它对整个机器学习领域都有显著影响。它被定义为当一个效应或模式确实存在时,检验检测到该效应或模式的能力。很大的功效意味着模型在机器学习中能够恰当地评估并获得有意义的数据模式而不遗漏任何东西。 假设备择假设为真时,检验正确拒绝零假设的概率。它实际上是衡量检验检测真实效应的灵敏度。 数学上,功效定义为 功效 = 1 - β 其中
影响统计功效的因素包括样本量、α 水平、效应大小和数据变异性。 影响机器学习功效的因素机器学习实验的统计功效取决于几个关键因素。每个因素都有助于检测真实效应或模式。了解这些事实对于设计成功的实验、在模型之间进行稳健的比较以及充分评估稳健的性能至关重要。以下是对影响统计功效的关键要素的更详细解释:
平衡 I 类和 II 类错误因此,必须平衡 I 类和 II 类错误,以确保结果可靠。I 类错误或假阳性是拒绝错误的零假设。另一方面,II 类错误或假阴性发生在零假设未能检测到真实效应时。随着统计功效的增加,它会减少 II 类错误,但可能会导致 I 类错误增加,因此必须权衡前者与后者。显著性水平越低,假阳性越少,但假阴性的可能性越大。可以通过多种策略来管理此类错误,例如增加样本量、交叉验证或基于效应大小的分析。在医疗保健及相关领域,在不采取行动的风险和可能错过重要发现的风险之间取得平衡至关重要,以避免不必要的行动和漏报。 为了参考,我们现在以 t 功效分析为例。 功效分析统计功效通过诸如 Student's t-test 之类的示例得以实现:这是一种假设检验,用于检查从高斯分布中抽取的两个样本值的均值是否不同。零假设是没有两个样本均值之间的差异。也就是说,它们被假定属于同一个总体。它返回一个 p 值,其值有助于确定是拒绝零假设还是不拒绝。通常,α=0.05 被视为标准值。换句话说,当不存在差异时,它有 0.05 的概率说存在差异。 t 检验中的重要考虑因素之一是效应大小:它计算样本均值之间的差异有多大。Cohen's d 是通常使用的度量之一,它以标准差表示差异。较大的效应大小被认为是 0.80 或更高。最后,功效(通常设置为 80% 或 0.80)是检测真实效应(如果存在)的概率;这与 20% 的遗漏概率(即犯 II 类错误)相平衡。 为了规划一项具有良好功效的实验,必须估算所需的最小样本量。现在,假设我们希望在 α 水平为 0.05 的情况下,检测效应大小为 0.80 的功效为 80%。在这种情况下,通过功效分析获得最小样本量至关重要。statsmodels 库中有一个针对 TTestIndPower 类的此类分析。该类实现了独立样本 t 检验,并且 solve_power() 方法允许计算四个参数之一:样本量、效应大小、功效或显著性水平。如果两个样本的观测次数相等,则参数 ratio 设置为 1.0;否则,它可以反映不同的组大小——因此,对于半规模的组,设置为 0.5。 以下是如何计算所需样本量的示例 输出建议每组需要 25.525 个样本,以便以 80% 的功效和 5% 的显著性水平检测到 0.80 的效应大小。 功效曲线另一个非常有用的功效分析工具是功效曲线,它在控制效应大小的同时,绘制了样本量对统计功效的影响。这些图显示了更多观测次数会带来观测收益递减。例如,如果捕获 0.80 的大效应大小很重要,那么功效可能会在 40 到 50 次观测后趋于平稳。 输出 ![]() 此图显示了小 (0.2)、中 (0.5) 和大 (0.8) 效应大小的功效函数。在曲线中,样本量超过 50 次观测后,功效的增加不大;也就是说,一旦样本量超过 50 左右,样本量的进一步增加就没有多大好处了。 功效分析和功效曲线的可视化使研究人员能够平衡样本量、alpha 水平和效应大小,以便就其实验做出最佳决策,确保结果既有意义又不浪费资源。 下一个主题机器学习数学课程 |
我们请求您订阅我们的新闻通讯以获取最新更新。