机器学习中的回归分析2025年6月4日 | 阅读 8 分钟 回归分析是一种统计方法,用于模拟因变量(目标)与一个或多个自变量(预测变量)之间的关系。更具体地说,回归分析帮助我们理解当其他自变量保持不变时,因变量的值如何随着自变量的变化而变化。它预测连续/实数值,例如温度、年龄、薪水、价格等。 我们可以通过以下示例来理解回归分析的概念 示例:假设有一家营销公司A,该公司每年进行各种广告宣传并从中获得销售额。下表显示了公司过去5年的广告支出和相应的销售额。  现在,该公司希望在2019年进行200美元的广告宣传,并希望了解今年的销售预测。因此,为了解决机器学习中的这类预测问题,我们需要回归分析。 回归是一种监督学习技术,它有助于发现变量之间的相关性,并使我们能够根据一个或多个预测变量预测连续的输出变量。它主要用于预测、预测、时间序列建模以及确定变量之间的因果关系。 在回归中,我们在变量之间绘制一条最适合给定数据点的图。利用此图,机器学习模型可以对数据进行预测。简单来说,“回归显示一条直线或曲线,该直线或曲线以一种方式穿过目标-预测器图上的所有数据点,使得数据点与回归线之间的垂直距离最小。” 数据点与直线之间的距离可以告诉我们模型是否捕获了强关系。 回归的一些例子如下 - 使用温度和其他因素预测降雨量
- 确定市场趋势
- 预测因鲁莽驾驶造成的交通事故。
回归分析相关术语- 因变量:回归分析中我们想要预测或理解的主要因素称为因变量。它也称为目标变量。
- 自变量:影响因变量或用于预测因变量值的因素称为自变量,也称为预测变量。
- 异常值:异常值是指与其他观测值相比,包含非常小值或非常大的值的观测值。异常值可能会影响结果,因此应避免。
- 多重共线性:如果自变量之间高度相关,则称这种情况为多重共线性。它不应存在于数据集中,因为它会在对影响最大的变量进行排名时产生问题。
- 欠拟合和过拟合:如果我们的算法在训练数据集上表现良好,但在测试数据集上表现不佳,则称此问题为过拟合。如果我们的算法甚至在训练数据集上表现不佳,则称此问题为欠拟合。
为什么我们使用回归分析?如上所述,回归分析有助于预测连续变量。现实世界中有许多需要未来预测的场景,例如天气状况、销售预测、市场趋势等。在这种情况下,我们需要一种能够更准确地进行预测的技术。因此,在这种情况下,我们需要回归分析,它是一种统计方法,在机器学习和数据科学中使用。以下是使用回归分析的其他一些原因: - 回归估计目标变量和自变量之间的关系。
- 它用于查找数据中的趋势。
- 它有助于预测真实/连续值。
- 通过执行回归,我们可以自信地确定最重要因素、最不重要因素以及每个因素如何影响其他因素。
回归类型数据科学和机器学习中有各种类型的回归。每种类型在不同场景下都有其重要性,但核心上,所有回归方法都分析自变量对因变量的影响。这里我们讨论一些重要的回归类型,如下所示: - 线性回归
- 逻辑回归
- 多项式回归
- 支持向量回归
- 决策树回归
- 随机森林回归
- 岭回归
- Lasso 回归
 线性回归- 线性回归是一种用于预测分析的统计回归方法。
- 它是最简单易懂的算法之一,可用于回归并显示连续变量之间的关系。
- 它用于解决机器学习中的回归问题。
- 线性回归显示自变量(X轴)和因变量(Y轴)之间的线性关系,因此称为线性回归。
- 如果只有一个输入变量(x),则这种线性回归称为简单线性回归。如果有多个输入变量,则这种线性回归称为多元线性回归。
- 可以通过下图解释线性回归模型中变量之间的关系。这里我们根据工作年限来预测员工的薪资。
 其中,Y = 因变量(目标变量), X = 自变量(预测变量), a 和 b 是线性系数 线性回归的一些流行应用包括 - 分析趋势和销售估算
- 薪资预测
- 房地产预测
- 在交通中估算到达时间。
逻辑回归- 逻辑回归是另一种监督学习算法,用于解决分类问题。在分类问题中,我们的因变量是二元或离散格式,例如0或1。
- 逻辑回归算法处理类别变量,例如0或1、是或否、真或假、垃圾邮件或非垃圾邮件等。
- 它是一种预测分析算法,基于概率的概念。
- 逻辑回归是一种回归类型,但它在用法上与线性回归算法不同。
- 逻辑回归使用sigmoid函数或逻辑函数,这是一个复杂的成本函数。该sigmoid函数用于在逻辑回归中对数据进行建模。该函数可以表示为
 - f(x)= 输出值在0到1之间。
- x = 函数的输入
- e = 自然对数的底数。
当我们将输入值(数据)提供给函数时,它会生成如下的S形曲线  - 它使用阈值水平的概念,高于阈值水平的值四舍五入为1,低于阈值水平的值四舍五入为0。
有三种类型的逻辑回归 - 二元(0/1,通过/失败)
- 多分类(猫、狗、狮子)
- 有序(低、中、高)
多项式回归- 多项式回归是一种回归类型,它使用线性模型对非线性数据集进行建模。
- 它类似于多元线性回归,但它拟合x值和y的相应条件值之间的非线性曲线。
- 假设有一个数据集,其中包含以非线性方式分布的数据点,在这种情况下,线性回归将无法很好地拟合这些数据点。为了覆盖这些数据点,我们需要多项式回归。
- 在多项式回归中,原始特征被转换为给定阶数的多项式特征,然后用线性模型进行建模。这意味着数据点使用多项式线进行最佳拟合。
 - 多项式回归的方程也源自线性回归方程,这意味着线性回归方程 Y= b0+ b1x 被转换为多项式回归方程 Y= b0+b1x+ b2x2+ b3x3+.....+ bnxn。
- 这里 Y 是预测/目标输出,b0, b1,... bn 是回归系数。x 是我们的自变量/输入变量。
- 该模型仍然是线性的,因为系数与二次项仍然是线性的。
注意:这与多元线性回归不同之处在于,在多项式回归中,单个元素具有不同的阶数,而不是具有相同阶数但具有多个变量。支持向量回归支持向量机是一种监督学习算法,可用于回归和分类问题。因此,如果将其用于回归问题,则称为支持向量回归。 支持向量回归是一种适用于连续变量的回归算法。以下是支持向量回归中使用的一些关键词: - 核:它是一种用于将低维数据映射到高维数据的函数。
- 超平面:通常在SVM中,它是两个类别之间的分隔线,但在SVR中,它是一条有助于预测连续变量并覆盖大多数数据点的线。
- 边界线:边界线是除了超平面之外的两条线,它们为数据点创建了一个边距。
- 支持向量:支持向量是离超平面最近且属于相反类别的数据点。
在SVR中,我们总是试图确定一个具有最大边距的超平面,以便该边距能够覆盖最多的数据点。SVR的主要目标是将最多的数据点包含在边界线内,并且超平面(最佳拟合线)必须包含最多的数据点。考虑下图:  在这里,蓝线称为超平面,另外两条线称为边界线。 决策树回归- 决策树是一种监督学习算法,可用于解决分类和回归问题。
- 它可以解决分类和数值数据的问题。
- 决策树回归构建了一个树状结构,其中每个内部节点表示一个属性的“测试”,每个分支表示测试的结果,每个叶节点表示最终的决策或结果。
- 决策树从根节点/父节点(数据集)开始构建,该节点分裂成左子节点和右子节点(数据集的子集)。这些子节点进一步分裂成它们的子节点,并本身成为这些节点的父节点。考虑下图:
 上图显示了决策树回归的示例,在此,模型正在尝试预测一个人在跑车或豪华车之间的选择。 - 随机森林是最强大的监督学习算法之一,能够执行回归和分类任务。
- 随机森林回归是一种集成学习方法,它结合了多个决策树,并根据每个树输出的平均值来预测最终输出。组合的决策树称为基模型,可以更正式地表示为:
g(x)= f0(x)+ f1(x)+ f2(x)+....
- 随机森林使用集成学习的Bagging或Bootstrap Aggregation技术,其中聚合的决策树并行运行,并且彼此不交互。
- 借助随机森林回归,我们可以通过创建数据集的随机子集来防止模型过拟合。
 岭回归- 岭回归是线性回归的一种最稳健的版本,其中引入少量偏差,以便获得更好的长期预测。
- 添加到模型中的偏差量称为岭回归惩罚。我们可以通过将lambda乘以每个单独特征的平方权重来计算此惩罚项。
- 岭回归的方程为:
 - 当自变量之间存在高度共线性时,通用的线性或多项式回归将失败,因此为了解决这类问题,可以使用岭回归。
- 岭回归是一种正则化技术,用于降低模型的复杂度。它也称为L2正则化。
- 当样本数小于参数数时,它有助于解决问题。
Lasso 回归- Lasso回归是另一种用于降低模型复杂度的正则化技术。
- 它与岭回归类似,只是惩罚项仅包含绝对权重而不是权重的平方。
- 由于它取绝对值,因此可以使斜率收缩到0,而岭回归只能将其收缩到接近0。
- 它也称为L1正则化。Lasso回归的方程为:

|