机器学习中的回归分析

2025年6月4日 | 阅读 8 分钟

回归分析是一种统计方法，用于模拟因变量（目标）与一个或多个自变量（预测变量）之间的关系。更具体地说，回归分析帮助我们理解当其他自变量保持不变时，因变量的值如何随着自变量的变化而变化。它预测连续/实数值，例如温度、年龄、薪水、价格等。

我们可以通过以下示例来理解回归分析的概念

示例：假设有一家营销公司A，该公司每年进行各种广告宣传并从中获得销售额。下表显示了公司过去5年的广告支出和相应的销售额。

现在，该公司希望在2019年进行200美元的广告宣传，并希望了解今年的销售预测。因此，为了解决机器学习中的这类预测问题，我们需要回归分析。

回归是一种监督学习技术，它有助于发现变量之间的相关性，并使我们能够根据一个或多个预测变量预测连续的输出变量。它主要用于预测、预测、时间序列建模以及确定变量之间的因果关系。

在回归中，我们在变量之间绘制一条最适合给定数据点的图。利用此图，机器学习模型可以对数据进行预测。简单来说，“回归显示一条直线或曲线，该直线或曲线以一种方式穿过目标-预测器图上的所有数据点，使得数据点与回归线之间的垂直距离最小。” 数据点与直线之间的距离可以告诉我们模型是否捕获了强关系。

回归的一些例子如下

使用温度和其他因素预测降雨量
确定市场趋势
预测因鲁莽驾驶造成的交通事故。

回归分析相关术语

因变量：回归分析中我们想要预测或理解的主要因素称为因变量。它也称为目标变量。
自变量：影响因变量或用于预测因变量值的因素称为自变量，也称为预测变量。
异常值：异常值是指与其他观测值相比，包含非常小值或非常大的值的观测值。异常值可能会影响结果，因此应避免。
多重共线性：如果自变量之间高度相关，则称这种情况为多重共线性。它不应存在于数据集中，因为它会在对影响最大的变量进行排名时产生问题。
欠拟合和过拟合：如果我们的算法在训练数据集上表现良好，但在测试数据集上表现不佳，则称此问题为过拟合。如果我们的算法甚至在训练数据集上表现不佳，则称此问题为欠拟合。

为什么我们使用回归分析？

如上所述，回归分析有助于预测连续变量。现实世界中有许多需要未来预测的场景，例如天气状况、销售预测、市场趋势等。在这种情况下，我们需要一种能够更准确地进行预测的技术。因此，在这种情况下，我们需要回归分析，它是一种统计方法，在机器学习和数据科学中使用。以下是使用回归分析的其他一些原因：

回归估计目标变量和自变量之间的关系。
它用于查找数据中的趋势。
它有助于预测真实/连续值。
通过执行回归，我们可以自信地确定最重要因素、最不重要因素以及每个因素如何影响其他因素。

回归类型

数据科学和机器学习中有各种类型的回归。每种类型在不同场景下都有其重要性，但核心上，所有回归方法都分析自变量对因变量的影响。这里我们讨论一些重要的回归类型，如下所示：

线性回归
逻辑回归
多项式回归
支持向量回归
决策树回归
随机森林回归
岭回归
Lasso 回归

线性回归

线性回归是一种用于预测分析的统计回归方法。
它是最简单易懂的算法之一，可用于回归并显示连续变量之间的关系。
它用于解决机器学习中的回归问题。
线性回归显示自变量（X轴）和因变量（Y轴）之间的线性关系，因此称为线性回归。
如果只有一个输入变量（x），则这种线性回归称为简单线性回归。如果有多个输入变量，则这种线性回归称为多元线性回归。
可以通过下图解释线性回归模型中变量之间的关系。这里我们根据工作年限来预测员工的薪资。

以下是线性回归的数学方程

其中，Y = 因变量（目标变量），
X = 自变量（预测变量），
a 和 b 是线性系数

线性回归的一些流行应用包括

分析趋势和销售估算
薪资预测
房地产预测
在交通中估算到达时间。

逻辑回归

逻辑回归是另一种监督学习算法，用于解决分类问题。在分类问题中，我们的因变量是二元或离散格式，例如0或1。
逻辑回归算法处理类别变量，例如0或1、是或否、真或假、垃圾邮件或非垃圾邮件等。
它是一种预测分析算法，基于概率的概念。
逻辑回归是一种回归类型，但它在用法上与线性回归算法不同。
逻辑回归使用sigmoid函数或逻辑函数，这是一个复杂的成本函数。该sigmoid函数用于在逻辑回归中对数据进行建模。该函数可以表示为

f(x)= 输出值在0到1之间。
x = 函数的输入
e = 自然对数的底数。

当我们将输入值（数据）提供给函数时，它会生成如下的S形曲线

它使用阈值水平的概念，高于阈值水平的值四舍五入为1，低于阈值水平的值四舍五入为0。

有三种类型的逻辑回归

二元（0/1，通过/失败）
多分类（猫、狗、狮子）
有序（低、中、高）

多项式回归

多项式回归是一种回归类型，它使用线性模型对非线性数据集进行建模。
它类似于多元线性回归，但它拟合x值和y的相应条件值之间的非线性曲线。
假设有一个数据集，其中包含以非线性方式分布的数据点，在这种情况下，线性回归将无法很好地拟合这些数据点。为了覆盖这些数据点，我们需要多项式回归。
在多项式回归中，原始特征被转换为给定阶数的多项式特征，然后用线性模型进行建模。这意味着数据点使用多项式线进行最佳拟合。

多项式回归的方程也源自线性回归方程，这意味着线性回归方程 Y= b₀+ b₁x 被转换为多项式回归方程 Y= b₀+b₁x+ b₂x²+ b₃x³+.....+ b_nxⁿ。
这里 Y 是预测/目标输出，b₀, b₁,... b_n 是回归系数。x 是我们的自变量/输入变量。
该模型仍然是线性的，因为系数与二次项仍然是线性的。

注意：这与多元线性回归不同之处在于，在多项式回归中，单个元素具有不同的阶数，而不是具有相同阶数但具有多个变量。

支持向量回归

支持向量机是一种监督学习算法，可用于回归和分类问题。因此，如果将其用于回归问题，则称为支持向量回归。

支持向量回归是一种适用于连续变量的回归算法。以下是支持向量回归中使用的一些关键词：

核：它是一种用于将低维数据映射到高维数据的函数。
超平面：通常在SVM中，它是两个类别之间的分隔线，但在SVR中，它是一条有助于预测连续变量并覆盖大多数数据点的线。
边界线：边界线是除了超平面之外的两条线，它们为数据点创建了一个边距。
支持向量：支持向量是离超平面最近且属于相反类别的数据点。

在SVR中，我们总是试图确定一个具有最大边距的超平面，以便该边距能够覆盖最多的数据点。SVR的主要目标是将最多的数据点包含在边界线内，并且超平面（最佳拟合线）必须包含最多的数据点。考虑下图：

在这里，蓝线称为超平面，另外两条线称为边界线。

决策树回归

决策树是一种监督学习算法，可用于解决分类和回归问题。
它可以解决分类和数值数据的问题。
决策树回归构建了一个树状结构，其中每个内部节点表示一个属性的“测试”，每个分支表示测试的结果，每个叶节点表示最终的决策或结果。
决策树从根节点/父节点（数据集）开始构建，该节点分裂成左子节点和右子节点（数据集的子集）。这些子节点进一步分裂成它们的子节点，并本身成为这些节点的父节点。考虑下图：