机器学习中的 L1 和 L2 正则化方法2024年11月16日 | 阅读 8 分钟 过拟合是机器学习中一个持续存在的难题,特别是在回归分析中。过拟合是指模型在训练数据上表现良好,但在未见过的测试数据上泛化能力下降。这种现象通常发生在模型过于复杂,学习到了训练数据中的噪声而不是潜在模式时。正则化技术被用来解决过拟合问题,其中 L1 和 L2 正则化是最常用的方法。 正则化的必要性在深入探讨 L1 和 L2 正则化的具体细节之前,了解正则化的重要性至关重要。 在机器学习领域,最终目标不仅是最小化训练数据中的错误,还要确保模型能够充分适应新的、未预料到的数据。然而,如果没有足够的约束,模型很容易出现训练问题。 过拟合发生在模型过于复杂,能够更好地捕捉训练数据,而不是识别普遍趋势时。因此,当模型遇到新数据时,过拟合模型表现不佳,因为它实际上是捕捉了噪声,而不是数据中的真实关系。 正则化技术通过向学习算法添加约束或惩罚项来解决这个问题,这些约束可以阻止模型过拟合。通过实施这些约束,正则化迫使模型专注于数据中的重要模式,避免训练集中存在的噪声和不必要的数据。 本质上,正则化是一种在模型复杂度和泛化能力之间取得平衡的机制,确保训练好的模型能够很好地泛化到新的未见过的数据,同时避免过拟合的陷阱。 L1 正则化 (Lasso 回归)L1 正则化,通常称为 Lasso 回归,是一种机器学习技术,通过向模型的成本函数添加惩罚项来减少过拟合。这种正则化方法对于特征选择特别有用,因为它通过将某些系数置零来鼓励模型稀疏化。 L1 正则化的精髓在于其能够将系数的绝对值添加到成本函数中。通过惩罚较大的系数,L1 正则化有效地鼓励模型优先处理重要的信息,同时忽略不重要的信息。 从数学上讲,在 L1 正则化中,正则化项被添加到成本函数中。w 代表权重向量。L1 范数(也称为曼哈顿范数)的计算方法是所有系数绝对值之和。 L1 正则化一个显著的特点是,它能够将某些系数精确地设置为 0,从而有效地进行特征选择。这一特性使得 Lasso 回归在数据集包含大量特征,其中一些特征可能不合适或不相关的情况下特别有用。 使用 L1 正则化技术使机器学习实践者能够构建不仅能很好地泛化到新数据,而且具有灵活且可解释结构的模型,其中只有最相关的特征被保留。 超参数设置与许多正则化方法一样,L1 正则化需要调整正则化参数以实现模型复杂度和性能的最佳平衡。这个过程称为超参数调优,通常包括交叉验证等技术来选择最小化模型在验证数据集上误差的最佳参数值。 技术效率虽然 L1 正则化在特征选择方面效果很好,但它在计算效率方面可能存在问题,特别是对于具有多个特征的大型数据集。因为 L1 范数没有闭式解,需要迭代优化算法,如坐标下降或次梯度下降。然而,优化技术的进步和并行计算使得 L1 正则化能够应用于大规模应用。 处理分类变量在处理类别变量时,需要进行适当的编码以确保与 L1 正则化的一致性。通常使用独热编码或哑变量编码将类别变量转换为数值格式,以便 L1 正则化在模型训练期间能够更有效地处理它们。 处理不平衡数据当数据集不平衡,即某一类的数量显著超过其他类时,L1 正则化可能无法充分处理类别不平衡问题。在这种情况下,可以采用类别加权或过采样、欠采样等替代模型来确保在训练模型时所有类别都得到充分表示。 优点和应用L1 正则化在实际的机器学习应用中提供了许多优势:
L2 正则化 (Ridge 回归)L2 正则化,通常称为 Ridge 回归,是机器学习中用于处理过拟合和提高模型泛化能力的基本方法。与 L1 正则化类似,L2 正则化通过向标准的损失函数添加惩罚项来实现这一点。然而,与 L1 正则化不同,L2 正则化惩罚的是模型系数平方和。 L2 正则化的核心原理L2 正则化的核心是惩罚模型系数的平方和。通过这样做,它阻止了较大的系数,同时仍然允许所有系数保持非零。与 L1 正则化相比,这一特性产生了更平滑、更稳定的模型,这使得 Ridge 回归在所有特征可能都相关并且目标是减少过拟合而不完全丢弃任何特征的情况下特别适用。 数学公式在 L2 正则化中,添加到损失函数中的正则化项表示为: λ * ||w||₂² 其中,λ (lambda) 表示正则化参数,控制正则化的强度,w 是权重向量。L2 范数计算为所有系数平方和的平方根。 超参数调整与 L1 正则化类似,L2 正则化的有效性在很大程度上取决于正则化参数 λ 的调整。可以采用交叉验证等超参数调优技术来选择最佳的 λ 值,以最小化模型在验证数据集上的错误。网格搜索或随机搜索是探索不同 λ 值并识别产生最佳性能的 λ 值的常用方法。 计算效率与 L1 正则化相比,Ridge 回归通常涉及计算上更简单的优化技术。L2 正则化最小化成本函数具有闭式解的存在,通常会带来更快的模型训练收敛速度。这种计算效率使得 Ridge 回归在处理大规模数据集和计算资源受限的实时应用中特别有吸引力。 处理多重共线性L2 正则化的一个关键优势在于其有效处理多重共线性(特征之间的高度相关性)的能力。通过惩罚较大的系数,Ridge 回归可以更均匀地将相关特征的影响分布到模型中,从而降低共线性导致的过拟合风险。这一特性使得 Ridge 回归成为处理高度相关特征数据集的合适选择,例如在经济学和社会科学等领域出现的数据集。 特征缩放应用 Ridge 回归时,正确地缩放特征至关重要,以确保在模型训练过程中得到一致的处理。可以采用标准化(均值归一化)或最小-最大缩放等特征缩放技术,将特征重新缩放到相似的范围。这确保了具有大数值的特征不会主导正则化过程,从而产生更均衡、更稳定的模型。 优点和用例L2 正则化提供了多种优势,并且非常适合各种机器学习任务:
选择 L1 和 L2 正则化之间在面临机器学习中的正则化挑战时,实践者常常纠结于在 L1 和 L2 正则化方法之间进行选择。虽然这两种方法都通过向模型成本函数添加惩罚项来对抗过拟合,但它们具有独特的特性,使其适用于不同的场景。以下是选择 L1 和 L2 正则化时需要考虑的因素的详细分析: 特征选择
模型复杂度和可解释性
计算注意事项
下一个主题用于时间序列的机器学习方法 |
我们请求您订阅我们的新闻通讯以获取最新更新。