机器学习中的 AIC 和 BIC 是什么?

2025年2月3日 | 阅读10分钟

引言

决定回归模型的选择以分析数据是最重要但也最具挑战性的过程之一。在评估变量之间的依赖性并做出精确预测时,选择合适的机器学习算法至关重要。由于存在多种类型的回归模型,因此使用严格而全面的标准来选择模型至关重要。在这方面最常用的两个值分别是赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC)。

AIC 和 BIC 有助于衡量各种模型的拟合质量,同时它们补偿了相关模型的大小。本文对 AIC 和 BIC 的思想、起源及其应用进行了广泛分析。因此,如果分析师和研究人员能够充分理解和应用上述感知准则,在连续数据的情况下,他们将对应用哪些机器学习回归模型做出正确决策,并在此过程中做出正确预测。

What are AIC and BIC in Machine Learning

在回归分析模型选择中,可能遇到的主要问题之一是确定哪个模型在拟合度和模型复杂性之间提供了最佳权衡。给定模型用于解释特定现象或服务给定功能的程度通常需要考虑以下事实之一:

为此目的最常用的两个标准是学者中的赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC)。本质上,可以看出 AIC 和 BIC 都提供了评估和比较众多模型的方法,以便数据科学家可以做出理性决策。本次讨论将介绍上述标准的公式和原理。

赤池信息准则 (AIC)

AIC 代表赤池信息准则,是 Hirotugu Akaike 提出的一种模型选择度量,旨在评估模型拟合的相对“优度”,同时考虑到模型的复杂性。Akaike 撰写的关于 AIC 概念的原始论文题为“统计模型识别的新视角”。AIC 的概念是找到与数据相关的最大似然值并调整所用参数数量的模型。

AIC 的公式为:AIC = -2*log(L) + 2*k

说明

在此公式中,L 代表模型的最大似然,它衡量模型与数据的拟合程度。

符号 k 代表模型中的系数数量,包括常数和其他自变量。

因此,AIC 可以被视为一种衡量模型拟合度和参数数量的度量,这是模型复杂性的一个重要方面。它促进选择能够准确映射数据的模型,但同时,它不鼓励模型变得过于复杂,从而最大限度地降低模型“过度学习”数据或换句话说,选择数据中噪声的机会。

AIC 的另一种估计 在另一种情况下,我们可以使用平方误差和 SSE 并进行以下调整

在许多情况下,计算或估计似然值很麻烦。因此,SE 用平方误差和 (SSE) 表示。AIC 的第二种公式在实际中经常使用,当直接计算似然很困难或不可能时。使用 SSE 的修改后的 AIC 公式是

AIC = n * ln(SSE/n) + 2*k

说明

在此公式中,n 是样本大小,SSE 代表平方误差或残差和,k 代表模型中的参数数量。

这就是为什么建议使用一种称为小样本修正 AIC (AICc) 的 AIC 估计值。

小样本修正 AIC (AICc)

语言的 AICc 值,针对小样本量进行了调整,差异显著。

当样本量相对较小时,AICc 校正发挥作用,它代表“修正的赤池信息准则”。AICc 根据样本量修改 AIC,目的是在样本量受限的情况下作为模型选择的更好标准。AICc 的具体细节将在本文的后续部分中给出。

用于估计模型选择 AICc 的方程,这是针对较小样本量的修正赤池信息准则。值得注意的是,AIC 在模型选择中也很有用,尽管此标准通常倾向于更复杂的模型,尤其是在样本量较小时。为了克服这种情况,开发了 AICc(修正 AIC)来解决此问题,它广泛用于生态数据分析。AICA 在 AIC 之下推荐,因为它最大限度地减少了源于受限样本量的偏差,因此在此处将起到相同的作用。

因此,当数据量明显少于模型中的参数数量时,AICc 变得适用。原始 AIC 扩展到 AICc,它为模型复杂性增加了一个额外的校正,该校正与样本量之比成比例。AICc 的公式如下:AICc 的公式如下

AICc= AIC + [2 * k * (k+1) ]/ (n-k-1)

说明

在此公式中,AIC 代表赤池信息准则值,k 是所用模型的参数数量,n 是样本量。

但是,如果无法计算似然值,则使用下面显示的小样本 AIC 公式。

额外的校正项

在 AICc 中,2*k*(k+1)/ (n−k−1) 的值随着参数数量相对于样本量的增加而变大;这有效地阻止了更复杂的模型。因此,AICc 提供了更好的模型拟合估计,因为它具有此校正因子,尤其对于样本量不是很大的情况。如果样本量很大,则 AICc 方程中存在的校正项实际上为零,因此,AIC 可以不经校正直接使用。

贝叶斯信息准则 (BIC)

与 AIC 类似,BIC 是另一个旨在量化特定模型与给定数据集在模型拟合和模型复杂性方面的偏差的标准。BIC 源自贝叶斯模型选择,其对模型复杂性施加的惩罚比 AIC 严厉得多。Gideon Schwarz 于 1978 年发表的论文“估计模型的维度”阐述了 BIC 的基本思想和原理。BIC 的公式为:BIC 的公式为

在此公式中

AIC 的公式如下:AIC = - 2 * log(L) + 2 * k + log(n),其中 log(L) 表示给定模型的最大似然,它决定了模型对真实数据集的适用性,k 指模型中的参数数量,包括截距和所有预测变量,log(n) 指样本集大小的对数。在 BIC 的情况下,我们有项 log(n),它增加了模型复杂性的惩罚,因为它取决于样本大小。

AIC 和 BIC 之间的唯一区别在于模型复杂性的惩罚因子。Park 和 Casella 还指出,尽管 AIC 的惩罚项为 2.k,但 BIC 的惩罚项以 log(n) 的速率随样本量增加,因此比 AIC 的惩罚更严厉。因此,与 AIC 不同,BIC 更支持参数较少的模型,这有利于选择最简单的模型。

用于模型选择的 AIC 和 BIC:一个示例

AIC 和 BIC 是回归分析模型评估中的重要标准。为了从多个回归模型中选择最合适的模型,这些标准非常有效。AIC 使用的检验标准通过结合似然、参数数量和样本大小来平衡模型拟合样本数据的能力和其复杂性。相比之下,BIC 对模型复杂性施加更严厉的惩罚,因此更倾向于简单模型。本文通过估计反映不同模型性能的 AIC 和 BIC 值,帮助数据科学家决定在面临模型复杂性问题时采用哪种回归模型。

这是一个示例数据集,展示了各种回归模型及其评估指标:RMSE、AIC、BIC、调整 R² 和 Mallow's Cp 按以下顺序计算并报告。现在有必要讨论如何根据上述指标选择最佳模型。

模型名称算法RSME调整 R^2AICBICCp
模型 A线性4.800.821150.451201.789.45
模型 B多项式4.500.851150.121165.257.85
模型 C4.400.861125.301157.847.20
模型 DLasso4.600.841135.891176.448.10
模型 E随机森林4.550.851132.781169.247.65

模型选择分析

为了从数据集中确定最佳模型,我们可以根据模型的 AIC 和 BIC 值进行分析

比较 AIC 值

因此,模型 C(岭回归)的 AIC 最小,为 1125,这表明它是所有模型中拟合度最好的,NFI 为 30。

模型 B(多项式回归)和模型 E(随机森林)的 AIC 也相对较低,这意味着它们也可以被认为是好模型。

比较 BIC 值

与模型 A 类似,模型 C(岭回归)的 BIC 值也最低,为 1157.84,因此总体拟合表明 GUIDELINE 是最佳拟合模型。

与之前类似,模型 B(多项式回归)和模型 E(随机森林)的 BIC 值也相对较低,这意味着它们表现良好。

从上表可以看出,通过使用 AIC 和 BIC 这两个标准,岭回归(模型 C)被认为是最佳模型,因为它的这些标准值最低。这表明岭回归在拟合函数解释数据的能力和模型的复杂性之间取得了最佳折衷。

另一个表现良好的模型是模型 B(多项式回归)和模型 E(随机森林),它们的 AIC 和 BIC 略高,但调整 R² 更接近其他模型。

模型 C 的选择可以根据总体较低的 AIC 和 BIC 值来证明,尽管与模型 B 和 E 的比较也相对接近,因此重申了模型拟合与其复杂性之间的权衡,以实现最佳预测能力。

自由度调整后的决定系数 (Adjusted R²) 表示目标变量变异中由模型中使用的预测变量造成的比例;它考虑了预测变量的数量和样本大小。增加的 Adjusted R² 意味着所显示的模型比其他模型解释了数据中更多的变异。

然而,AIC 和 BIC 同时关注准确性和模型的简洁性。这两个标准都惩罚模型,因为它们具有大量参数或预测变量。它们的目标是在拟合优度和包含的模型复杂性之间实现最佳平衡,因此它们更喜欢具有高解释数据拟合度的模型。

然而,模型 C 的 Adjusted R² 略高于模型 B 和模型 E,但其 AIC 和 BIC 值较低。这意味着,考虑到模型拟合度和模型复杂性,模型 C 的表现优于其他模型。

模型 C(岭回归)的 AIC 和 BIC 值小于其余模型,这表明该模型在采用更少参数或预测变量的情况下提供了相对更好的拟合。确实,这使得可以得出结论,模型 C 是一个更好的选择,因为它不会过度拟合数据并最大限度地减少捕获噪声或非显著变量的机会。

因此,尽管模型 C 的 Adjusted R² 值略高,但它仍被使用,因为它具有处于最佳范围内的 AIC 和 BIC 值,并在模型剥夺与其以更少变量提供更好拟合的能力之间提供了良好的权衡,从而提供了更好的可靠性和给定数据的解释。

结论

最后,赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC) 是选择正确回归模型的宝贵技术,因为它们确定了涉及拟合和模型大小的最佳方案。在这种情况下,从 AIC 和 BIC 值来看,岭回归(模型 C)是最好的,因为它具有所有 AIC 和 BIC 中最低的值,表明用更少参数实现更好的拟合。模型 E(随机森林)以及模型 B(多项式回归模型)也表现出色,但使用更简单的决策树使模型 C 在测试集和训练集上达到最佳平衡。因此,AIC 和 BIC 为高效的模型选择以及结果排名提供了坚实的基础,以确保准确和可解释的结果。


下一主题机器学习书籍