机器学习中的回归与分类

2025年3月17日 | 阅读 3 分钟

回归和分类算法都是监督学习算法。两种算法都用于机器学习中的预测,并与带标签的数据集一起工作。但两者之间的区别在于它们如何用于不同的机器学习问题。

回归和分类算法的主要区别在于,回归算法用于预测连续值,如价格、薪水、年龄等,而分类算法用于预测/分类离散值,如男性或女性、真或假、垃圾邮件或非垃圾邮件等。

请看下图

Regression vs. Classification

分类

分类是寻找一个函数的过程,该函数有助于根据不同的参数将数据集划分为不同的类别。在分类中,计算机程序在训练数据集上进行训练,并基于该训练将数据分类到不同的类别中。

分类算法的任务是找到映射函数,将输入(x)映射到离散输出(y)。

示例:理解分类问题的最佳示例是电子邮件垃圾邮件检测。模型根据数百万封电子邮件的不同参数进行训练,每当收到新电子邮件时,它都会识别该电子邮件是否为垃圾邮件。如果电子邮件是垃圾邮件,则将其移至垃圾邮件文件夹。

机器学习分类算法类型

分类算法可进一步分为以下类型

  • 逻辑回归
  • K-近邻
  • 支持向量机
  • 核支持向量机
  • 朴素贝叶斯
  • 决策树分类
  • 随机森林分类

回归

回归是寻找因变量和自变量之间相关性的过程。它有助于预测连续变量,例如市场趋势预测、房价预测等。

回归算法的任务是找到映射函数,将输入变量(x)映射到连续输出变量(y)。

示例:假设我们要进行天气预报,为此我们将使用回归算法。在天气预测中,模型在过去数据上进行训练,一旦训练完成,它就可以轻松预测未来几天的天气。

回归算法类型

  • 简单线性回归
  • 多元线性回归
  • 多项式回归
  • 支持向量回归
  • 决策树回归
  • 随机森林回归

回归与分类的区别

回归算法分类算法
在回归中,输出变量必须是连续性质的或实数值。在分类中,输出变量必须是离散值。
回归算法的任务是将输入值 (x) 与连续输出变量 (y) 映射。分类算法的任务是将输入值 (x) 与离散输出变量 (y) 映射。
回归算法用于连续数据。分类算法用于离散数据。
在回归中,我们试图找到最佳拟合线,它可以更准确地预测输出。在分类中,我们试图找到决策边界,它可以将数据集划分为不同的类别。
回归算法可用于解决回归问题,例如天气预测、房价预测等。分类算法可用于解决分类问题,例如识别垃圾邮件、语音识别、识别癌细胞等。
回归算法可进一步分为线性和非线性回归。分类算法可分为二元分类器和多类分类器。