最小角回归2024年8月28日 | 阅读 7 分钟 LARS 和前向逐步回归是可比较的。它在每个阶段找到与目标最相关的特征。当许多函数具有相同的相关性时,它会沿着这些函数的等角路径前进,而不是沿着同一特征继续。 LARS 的优点是- 当特征数量远大于样本数量时,它在数值上效率很高。
- 它的复杂性与普通最小二乘法相同,并且计算速度与前向选择一样快。
- 它生成一个完整的分段线性解路径,以微调模型,例如交叉验证。
- 与目标几乎同等相关的两个特征的系数应该以大致相同的速率增长。因此,该算法更稳定,行为符合直觉。
- 它可以进行修改以获得不同估计器的答案,例如 Lasso。
以下是 LARS 方法的一些缺点- LARS 对噪声的影响更敏感,因为它的基础是残差的迭代重拟合。
- 标准化系数显示为收缩比例的函数。
- 与预测分类或离散值的分类不同,回归是一种监督式机器学习任务,可以预测连续值(实数)。
- 对于具有多种属性的高维记录,使用最小角度回归 (LARS) 规则集。前向逐步回归和最小角度回归非常相似。LARS 在每个阶段确定与目标值最强的属性,因为它用于包含多个属性的数据。
- 两个属性之间的关系可能适用于其中一个或多个。在这种情况下,LARS 会考虑这些属性,并沿与这些属性垂直的方向移动。因此,这种方法被称为最小角度回归。LARS 沿计算出的最佳路径移动,而不会过度拟合模型。
算法- 在这种情况下,LARS 会考虑这些属性,并沿与这些属性垂直的方向移动。
- 因此,这种方法被称为最小角度回归。LARS 沿计算出的最佳路径移动,而不会过度拟合模型。
注意:实际值与预测值之间的差异称为残差。在这种情况下,变量表示一个属性。当两个变量之间存在相关性时,回归线应以两个变量之间的最小角度移动。 最小角度回归在数学上工作原理如下- 所有系数都设置为零(“B”)。
- 发现预测变量 xj 与 y 最相关。
- 当您发现另一个与 y 的相关性等于或大于 xj 的预测变量 xk 时,您应该停止在该方向上增加系数 Bj。
- (Bj, Bk) 应该以等角方向扩展到 xj 和 xk。
- 重复此过程,直到模型包含所有预测变量。
在 Python3 中实现最小角度回归在此示例中,我们将使用波士顿房价数据集,该数据集包含大波士顿地区房屋中位价的信息。以下是有关此数据集的更多详细信息。 最大 r2 值为 1.0。如果预测器始终预测一个恒定值,无论属性的值如何,它也可以是负数且等于 0。 优点 - 虽然计算速度比直接选项慢,但有时可能更准确。
- 当特征数量超过数据实例数量时,它在数值上非常高效。
- 很容易将其改编为提供不同估计器的答案。
缺点 - 由于最小角度回归对噪声非常敏感,因此其输出有时可能不可靠。
寻找与答案联系最紧密的变量是 LAR 的第一步。LAR 不是完全拟合该变量,而是不断地将其系数向其最小二乘值推进,从而减小其与不断变化的残差的关联的绝对大小。当另一个变量在与残差的相关性方面“追赶上来”时,该过程停止。然后第二个变量成为活动集的一部分,并且它们的系数被移近以保持它们绑定的和减弱的相关性。 一旦实现了完整的最小二乘拟合,该过程就会重复进行,直到所有变量都包含在模型中。LAR 算法使用的计算顺序与具有 p 个预测变量的单个最小二乘拟合相同,使其效率极高。为了获得完整的最小二乘估计,最小角度回归始终需要 p 步。即使它们有时相对相似,Lasso 路径也可能比 p 步多。 更具体地说,LARS 的工作原理如下- 为简单起见,我们假设解释变量已被标准化为零均值和单位方差,并且响应变量具有零均值。
- 用没有变量的模型开始。
- 与残差具有最强相关性的变量是 $ x_1 $。(请注意,与残差具有最高相关性的变量也是角度最小的变量;因此得名。)
- 继续沿此方向移动,直到另一个变量 $ x_2 $ 与此变量具有相同的相关性。
- 从这一点开始移动,使残差与变量 $ x_1 $ 和 $ x_2 $ 保持相等的关联性(即,残差与两个变量形成相等的角度),并继续移动,直到变量 $ x_3 $ 与我们的残差获得相等的关联性。
- 依此类推,直到我们确定我们的模型足够大。
很容易将其改编为提供不同估计器的解决方案。 - 在开始时,所有系数 bj 都设置为零。
- 选择与 y 最相关的因子 xj。
- 系数 bj 应沿 y 轴与它的关联方向增加。沿途,取残差 r=y-yhat。当另一个预测变量 xk 与 r 的相关性与 xj 相同程度时停止。
令人惊讶的是,通过一次微调,该方法在 s 从 0 变到无穷大的整个路径上提供了所有的 Lasso 解。 在统计学和机器学习中,流行且有效的线性回归技术——最小角度回归 (LARS)——被用于特征选择和建模。该方法旨在通过选择预测变量的最佳子集来解释响应变量的变化,从而最大限度地减少过拟合。LARS 在处理高维数据集时尤其有用,在这些数据集中,预测变量的数量远大于观测数量。它依赖于前向逐步回归的概念。 LARS 的关键步骤- 初始化: LARS 在开始时将所有系数设置为零,然后确定与响应变量具有最高相关性的预测变量。
- 添加预测变量: LARS 在接近其普通最小二乘 (OLS) 系数时,逐步将该预测变量纳入模型。
- 持续监控: LARS 在每一步确定与残差(实际响应与当前模型预测之间的差异)“最相关”的预测变量。然后,预测变量的系数以最小角度(因此得名)的方向移动,直到另一个预测变量与残差表现出同等的相关性。
- 活动集: 具有当前模型中非零系数的预测变量构成了 LARS 的预测变量活动集。当预测变量与残差表现出同等相关性时,它们会被包含在活动集中。
- 收缩: LARS 还包含收缩,它控制系数被引入模型的速率。此参数确保该方法不会过拟合并保持稳定。
- 停止标准: LARS 会一直进行,直到达到预定的预测变量数量或包含所有预测变量。用户可以指定停止条件。
LARS 的优势- 高效: LARS 可有效处理高维数据集,使其适用于现代数据分析,在这些分析中,预测变量的数量可能远大于观测数量。
- 正则化: 通过控制预测变量的添加速率,LARS 会自动整合一种正则化。这样做可以避免过拟合。
- 可解释性: LARS 提供了一种透明的将预测变量纳入模型的过程,从而更容易理解每个变量的重要性。
- LARS: 最小角度回归优雅地处理多重共线性,因为它不会引入与模型中已存在变量高度相关的预测变量。
LARS 的应用- 数据挖掘: 数据挖掘工作中使用 LARS 进行特征选择,以找到预测建模最相关的变量。
- 机器学习: LARS 可用于机器学习中的回归问题,尤其是在处理高维数据时。
- 变量选择: 在遗传学、经济学和环境科学等领域,研究人员使用 LARS 从庞大的数据集中选择相关的变量。
LARS 已进行了多次迭代,以适应各种需求和限制。LARS-lasso、LARS-EN(弹性网络)以及各种变体都属于此类。 结论总之,最小角度回归 (LARS) 是一种有用且有效的特征选择和线性回归方法。它的创建旨在应对高维数据集带来的挑战,在这些数据集中,预测变量的数量远远超过观测的数量。除了处理多重共线性、提供清晰易懂的预测变量选择方法以及整合一种正则化以防止过拟合之外,LARS 还具有许多重要特性。 在数据挖掘、机器学习、遗传学、经济学和环境研究等众多领域,LARS 都得到了广泛的应用。由于其多功能性和效率,它是数据分析师、学者和机器学习从业者的重要工具。
|