机器学习中的线性回归

2025年3月29日 | 阅读 5 分钟

线性回归是最简单和最流行的机器学习算法之一。它是一种用于预测分析的统计方法。线性回归对连续/真实或数值变量进行预测，例如销售额、薪资、年龄、产品价格等。

线性回归算法显示了因变量 (y) 与一个或多个自变量 (x) 之间的线性关系，因此称为线性回归。由于线性回归显示的是线性关系，这意味着它会找出因变量的值如何根据自变量的值发生变化。

线性回归模型提供一条倾斜的直线，表示变量之间的关系。请看下图：

在数学上，我们可以将线性回归表示为

y= a₀+a₁x+ ε

此处，

Y = 因变量（目标变量）
X = 自变量（预测变量）
a0 = 线的截距（提供额外的自由度）
a1 = 线性回归系数（每个输入值的比例因子）。
ε = 随机误差

x 和 y 变量的值是线性回归模型表示的训练数据集。

线性回归的类型

线性回归可进一步分为两种算法类型

显示因变量和自变量之间关系的直线称为回归线。回归线可以显示两种类型的关系：

使用线性回归时，我们的主要目标是找到最佳拟合线，这意味着预测值和实际值之间的误差应最小化。最佳拟合线将具有最小的误差。

权重或直线系数 (a₀, a₁) 的不同值会给出不同的回归线，因此我们需要计算 a₀ 和 a₁ 的最佳值以找到最佳拟合线，为此我们使用成本函数。

对于线性回归，我们使用均方误差 (MSE) 成本函数，它是预测值和实际值之间发生的平方误差的平均值。它可以写成：

对于上述线性方程，MSE 可以计算为：

其中，

N = 观测总数
Yi = 实际值
(a1x_i+a₀) = 预测值。

残差：实际值与预测值之间的距离称为残差。如果观测点远离回归线，则残差将很高，因此成本函数也将很高。如果散点接近回归线，则残差将很小，因此成本函数也将很小。

拟合优度决定了回归线如何拟合观测值集。从各种模型中找到最佳模型的过程称为优化。它可以通过以下方法实现：

1. R 平方方法

以下是线性回归的一些重要假设。这些是在构建线性回归模型时的一些正式检查，可确保从给定数据集中获得最佳结果。

特征和目标之间的线性关系
线性回归假设因变量和自变量之间存在线性关系。
特征之间存在少量或没有多重共线性
多重共线性是指自变量之间高度相关。由于多重共线性，可能难以找到预测变量和目标变量之间的真实关系。或者我们可以说，很难确定哪个预测变量正在影响目标变量，哪个没有。因此，模型假设特征或自变量之间只有少量或没有多重共线性。
同方差性假设
同方差性是指误差项对于自变量的所有值都相同的情况。在同方差性下，散点图中不应有明显的数据分布模式。
误差项的正态分布
线性回归假设误差项应遵循正态分布模式。如果误差项不是正态分布的，则置信区间将变得过宽或过窄，这可能导致难以找到系数。
可以使用 q-q 图进行检查。如果图显示一条没有偏差的直线，这意味着误差是正态分布的。
无自相关
线性回归模型假设误差项中没有自相关。如果误差项中存在任何相关性，则会大大降低模型的准确性。自相关通常发生在残差之间存在依赖关系时。