机器学习中的线性回归

2025年3月29日 | 阅读 5 分钟

线性回归是最简单和最流行的机器学习算法之一。它是一种用于预测分析的统计方法。线性回归对连续/真实或数值变量进行预测,例如销售额、薪资、年龄、产品价格等。

线性回归算法显示了因变量 (y) 与一个或多个自变量 (x) 之间的线性关系,因此称为线性回归。由于线性回归显示的是线性关系,这意味着它会找出因变量的值如何根据自变量的值发生变化。

线性回归模型提供一条倾斜的直线,表示变量之间的关系。请看下图:

Linear Regression in Machine Learning

在数学上,我们可以将线性回归表示为

y= a0+a1x+ ε

此处,

Y = 因变量(目标变量)
X = 自变量(预测变量)
a0 = 线的截距(提供额外的自由度)
a1 = 线性回归系数(每个输入值的比例因子)。
ε = 随机误差

x 和 y 变量的值是线性回归模型表示的训练数据集。

线性回归的类型

线性回归可进一步分为两种算法类型

  • 简单线性回归
    如果使用单个自变量来预测数值因变量的值,则此类线性回归算法称为简单线性回归。
  • 多元线性回归
    如果使用多个自变量来预测数值因变量的值,则此类线性回归算法称为多元线性回归。

线性回归线

显示因变量和自变量之间关系的直线称为回归线。回归线可以显示两种类型的关系:

  • 正线性关系
    如果因变量在 Y 轴上增加,自变量在 X 轴上增加,则这种关系称为正线性关系。
Linear Regression in Machine Learning
  • 负线性关系
    如果因变量在 Y 轴上减少,自变量在 X 轴上增加,则这种关系称为负线性关系。
Linear Regression in Machine Learning

寻找最佳拟合线

使用线性回归时,我们的主要目标是找到最佳拟合线,这意味着预测值和实际值之间的误差应最小化。最佳拟合线将具有最小的误差。

权重或直线系数 (a0, a1) 的不同值会给出不同的回归线,因此我们需要计算 a0 和 a1 的最佳值以找到最佳拟合线,为此我们使用成本函数。

成本函数 -

  • 权重或直线系数 (a0, a1) 的不同值会给出不同的回归线,成本函数用于估计最佳拟合线的系数的值。
  • 成本函数优化回归系数或权重。它衡量线性回归模型的性能。
  • 我们可以使用成本函数来查找映射函数的准确性,该函数将输入变量映射到输出变量。这个映射函数也称为假设函数

对于线性回归,我们使用均方误差 (MSE) 成本函数,它是预测值和实际值之间发生的平方误差的平均值。它可以写成:

对于上述线性方程,MSE 可以计算为:

Linear Regression in Machine Learning

其中,

N = 观测总数
Yi = 实际值
(a1xi+a0) = 预测值。

残差:实际值与预测值之间的距离称为残差。如果观测点远离回归线,则残差将很高,因此成本函数也将很高。如果散点接近回归线,则残差将很小,因此成本函数也将很小。

梯度下降

  • 梯度下降用于通过计算成本函数的梯度来最小化 MSE。
  • 回归模型使用梯度下降通过减少成本函数来更新直线的系数。
  • 通过随机选择系数的值,然后迭代更新这些值以达到最小成本函数来完成。

模型性能

拟合优度决定了回归线如何拟合观测值集。从各种模型中找到最佳模型的过程称为优化。它可以通过以下方法实现:

1. R 平方方法

  • R 平方是一种统计方法,用于确定拟合优度。
  • 它衡量因变量和自变量之间关系的强度,范围为 0-100%。
  • 高 R 平方值表示预测值和实际值之间的差异较小,因此代表一个好的模型。
  • 对于多元回归,它也称为决定系数多元决定系数
  • 它可以通过以下公式计算:
Linear Regression in Machine Learning

线性回归的假设

以下是线性回归的一些重要假设。这些是在构建线性回归模型时的一些正式检查,可确保从给定数据集中获得最佳结果。

  • 特征和目标之间的线性关系
    线性回归假设因变量和自变量之间存在线性关系。
  • 特征之间存在少量或没有多重共线性
    多重共线性是指自变量之间高度相关。由于多重共线性,可能难以找到预测变量和目标变量之间的真实关系。或者我们可以说,很难确定哪个预测变量正在影响目标变量,哪个没有。因此,模型假设特征或自变量之间只有少量或没有多重共线性。
  • 同方差性假设
    同方差性是指误差项对于自变量的所有值都相同的情况。在同方差性下,散点图中不应有明显的数据分布模式。
  • 误差项的正态分布
    线性回归假设误差项应遵循正态分布模式。如果误差项不是正态分布的,则置信区间将变得过宽或过窄,这可能导致难以找到系数。
    可以使用 q-q 图进行检查。如果图显示一条没有偏差的直线,这意味着误差是正态分布的。
  • 无自相关
    线性回归模型假设误差项中没有自相关。如果误差项中存在任何相关性,则会大大降低模型的准确性。自相关通常发生在残差之间存在依赖关系时。

下一主题简单线性回归