机器学习中的线性回归2025年3月29日 | 阅读 5 分钟 线性回归是最简单和最流行的机器学习算法之一。它是一种用于预测分析的统计方法。线性回归对连续/真实或数值变量进行预测,例如销售额、薪资、年龄、产品价格等。 线性回归算法显示了因变量 (y) 与一个或多个自变量 (x) 之间的线性关系,因此称为线性回归。由于线性回归显示的是线性关系,这意味着它会找出因变量的值如何根据自变量的值发生变化。 线性回归模型提供一条倾斜的直线,表示变量之间的关系。请看下图:  在数学上,我们可以将线性回归表示为 此处, Y = 因变量(目标变量) X = 自变量(预测变量) a0 = 线的截距(提供额外的自由度) a1 = 线性回归系数(每个输入值的比例因子)。 ε = 随机误差 x 和 y 变量的值是线性回归模型表示的训练数据集。 线性回归的类型线性回归可进一步分为两种算法类型 - 简单线性回归
如果使用单个自变量来预测数值因变量的值,则此类线性回归算法称为简单线性回归。 - 多元线性回归
如果使用多个自变量来预测数值因变量的值,则此类线性回归算法称为多元线性回归。
线性回归线显示因变量和自变量之间关系的直线称为回归线。回归线可以显示两种类型的关系: - 正线性关系
如果因变量在 Y 轴上增加,自变量在 X 轴上增加,则这种关系称为正线性关系。
 - 负线性关系
如果因变量在 Y 轴上减少,自变量在 X 轴上增加,则这种关系称为负线性关系。
 寻找最佳拟合线使用线性回归时,我们的主要目标是找到最佳拟合线,这意味着预测值和实际值之间的误差应最小化。最佳拟合线将具有最小的误差。 权重或直线系数 (a0, a1) 的不同值会给出不同的回归线,因此我们需要计算 a0 和 a1 的最佳值以找到最佳拟合线,为此我们使用成本函数。 成本函数 -- 权重或直线系数 (a0, a1) 的不同值会给出不同的回归线,成本函数用于估计最佳拟合线的系数的值。
- 成本函数优化回归系数或权重。它衡量线性回归模型的性能。
- 我们可以使用成本函数来查找映射函数的准确性,该函数将输入变量映射到输出变量。这个映射函数也称为假设函数。
对于线性回归,我们使用均方误差 (MSE) 成本函数,它是预测值和实际值之间发生的平方误差的平均值。它可以写成: 对于上述线性方程,MSE 可以计算为:  其中, N = 观测总数 Yi = 实际值 (a1xi+a0) = 预测值。 残差:实际值与预测值之间的距离称为残差。如果观测点远离回归线,则残差将很高,因此成本函数也将很高。如果散点接近回归线,则残差将很小,因此成本函数也将很小。 梯度下降- 梯度下降用于通过计算成本函数的梯度来最小化 MSE。
- 回归模型使用梯度下降通过减少成本函数来更新直线的系数。
- 通过随机选择系数的值,然后迭代更新这些值以达到最小成本函数来完成。
模型性能拟合优度决定了回归线如何拟合观测值集。从各种模型中找到最佳模型的过程称为优化。它可以通过以下方法实现: 1. R 平方方法 - R 平方是一种统计方法,用于确定拟合优度。
- 它衡量因变量和自变量之间关系的强度,范围为 0-100%。
- 高 R 平方值表示预测值和实际值之间的差异较小,因此代表一个好的模型。
- 对于多元回归,它也称为决定系数或多元决定系数。
- 它可以通过以下公式计算:
 线性回归的假设以下是线性回归的一些重要假设。这些是在构建线性回归模型时的一些正式检查,可确保从给定数据集中获得最佳结果。 - 特征和目标之间的线性关系
线性回归假设因变量和自变量之间存在线性关系。 - 特征之间存在少量或没有多重共线性
多重共线性是指自变量之间高度相关。由于多重共线性,可能难以找到预测变量和目标变量之间的真实关系。或者我们可以说,很难确定哪个预测变量正在影响目标变量,哪个没有。因此,模型假设特征或自变量之间只有少量或没有多重共线性。 - 同方差性假设
同方差性是指误差项对于自变量的所有值都相同的情况。在同方差性下,散点图中不应有明显的数据分布模式。 - 误差项的正态分布
线性回归假设误差项应遵循正态分布模式。如果误差项不是正态分布的,则置信区间将变得过宽或过窄,这可能导致难以找到系数。 可以使用 q-q 图进行检查。如果图显示一条没有偏差的直线,这意味着误差是正态分布的。 - 无自相关
线性回归模型假设误差项中没有自相关。如果误差项中存在任何相关性,则会大大降低模型的准确性。自相关通常发生在残差之间存在依赖关系时。
|