数据挖掘中的回归

17 Mar 2025 | 5 分钟阅读

回归是指一种用于预测给定数据集中的数值的技术。例如,回归可用于预测产品或服务的成本或其他变量。它还广泛应用于各种行业,用于分析业务和营销行为、趋势分析以及财务预测。在本教程中,我们将了解回归的概念、回归的类型以及一些示例。

什么是回归?

回归是一种监督式机器学习技术,用于预测任何连续值的属性。回归有助于任何企业组织分析目标变量和预测变量之间的关系。它是分析数据、用于财务预测和时间序列建模的最重要工具之一。

回归涉及将直线或曲线拟合到大量数据点的技术。其方式使得数据点与曲线之间的距离最小。

最常见的回归类型是线性回归和逻辑回归。除此之外,还可以根据其在特定数据集上的性能执行许多其他类型的回归。

回归可以预测所有因变量,这些变量可以用自变量表示,并且趋势在有限的时间内可用。回归提供了预测变量的良好方法,但存在某些限制和假设,例如变量的独立性、变量固有的正态分布。例如,假设考虑两个变量 A 和 B,它们的联合分布是双变量分布,那么根据其性质。在这种情况下,这两个变量可能独立,但它们也可能相关。需要推导出 A 和 B 的边际分布并加以使用。在应用回归分析之前,需要仔细研究数据并执行某些初步测试,以确保回归适用。在这种情况下,可以使用非参数检验。

回归类型

Regression in data mining

回归分为五种不同类型

  1. 线性回归
  2. 逻辑回归
  3. Lasso 回归
  4. 岭回归
  5. 多项式回归

线性回归

线性回归是一种回归类型,它利用直线建立目标变量与一个或多个自变量之间的关系。给出的方程代表线性回归的方程:

Y = a + b*X + e。

其中,

a 代表截距

b 代表回归线的斜率

e 代表误差

X 和 Y 分别代表预测变量和目标变量。

如果 X 由多个变量组成,则称为多元线性方程。

在线性回归中,最佳拟合线是利用最小二乘法获得的,它最小化了每个数据点到回归线的偏差的总平方和。在这里,正偏差和负偏差不会相互抵消,因为所有偏差都被平方了。

多项式回归

如果回归方程中自变量的幂大于 1,则称为多项式方程。通过下面的例子,我们将理解多项式回归的概念。

Y = a + b * x2

在此特定回归中,最佳拟合线不被认为是像线性方程那样的直线;然而,它代表了拟合到所有数据点的曲线。

应用线性回归技术可能会导致过拟合,因为您会倾向于通过使曲线更复杂来最小化误差。因此,请始终尝试通过泛化问题来拟合曲线。

逻辑回归

当因变量本质上是二元的,即 0 和 1,真或假,成功或失败时,逻辑回归技术就出现了。在这里,目标值 (Y) 的范围是 0 到 1,它主要用于基于分类的问题。与线性回归不同,它不需要任何自变量和因变量具有线性关系。

岭回归

岭回归是指一种用于分析存在多重共线性问题的各种回归数据的过程。多重共线性是两个自变量之间存在线性相关性。

当最小二乘估计具有高方差时偏差最小,因此与真实值相差甚远,此时存在岭回归。然而,通过向估计的回归值添加一定程度的偏差,可以减少使用岭回归的误差。

Lasso 回归

LASSO 代表最小绝对收缩和选择算子。Lasso 回归是一种利用收缩的线性回归类型。在 Lasso 回归中,所有数据点都被收缩到一个中心点,也称为均值。Lasso 过程最适合具有比其他回归更少参数的简单稀疏模型。这种回归类型非常适合受多重共线性影响的模型。

回归的应用

回归是一项非常流行的技术,在商业和行业中有广泛的应用。回归过程涉及预测变量和响应变量。回归的主要应用如下。

  • 环境建模
  • 分析业务和营销行为
  • 财务预测或预报
  • 分析新趋势和模式。

数据挖掘中回归与分类的区别

回归和分类非常相似。分类和回归是数据挖掘中使用的两个重要的预测问题。如果您给定一组训练好的输入和输出,然后学习一个函数来关联两者,希望能够根据新数据预测输出。唯一的区别是,在分类中,输出是离散的,而在回归中,输出不是。但是概念是模糊的,例如“逻辑回归”,它可以解释为分类或回归方法。因此,用户很难理解何时使用分类和回归。

数据挖掘中回归与分类的区别

Regression in data mining
回归分类
回归是指一种监督式机器学习技术,用于预测任何连续值的属性。分类是指根据实例的属性将其分配预定义的类标签的过程。
在回归中,预测数据的性质是有序的。在分类中,预测数据的性质是无序的。
回归可进一步分为线性回归和非线性回归。分类分为两类:二元分类器和多类分类器。
在回归过程中,计算主要通过均方根误差进行。在分类过程中,计算主要通过测量效率进行。
回归的例子包括回归树、线性回归等。分类的例子是决策树。

回归分析通常使我们能够比较各种特征变量在不同尺度上的影响。例如,根据区域、总面积、周边环境等预测土地价格。这些结果有助于市场研究人员或数据分析师移除无用的特征并评估最佳特征以计算有效的模型。