机器学习中的分类类型

2025年6月4日 | 阅读 8 分钟

机器学习依赖于从信息中学习以做出猜测或判断的算法。在分类过程中,它们根据训练期间学到的信息为每条输入数据分配一个类别标签。不同类型的分类问题需要不同的建模方法。使用一系列分类算法来执行这些类型的任务。

下面,您可以探索机器学习分类涉及的内容、存在的分类问题类型以及用于解决这些问题的常见算法。

什么是分类算法?

分类通过使用提供的训练数据,帮助计算机为新观察分配一个类别或标签。训练涉及学习一组既包含输入特征又包含输出标签的数据。有了这些知识,算法就可以将新数据分类到其适当的类别中。

分类的一个例子是将事物分类为 0 或 1、黑色或白色、是或否,或垃圾邮件与非垃圾邮件。由于分类中的数据是带标签的,因此模型可以利用这些模式来处理其他数据。

简单来说,机器学习中的分类依赖于识别模式。由于其学习能力,它允许算法查找它以前未见过的数据中的重复模式。

机器学习中不同类型的分类

机器学习中不同类型的分类是组织数据的方式,以便计算机可以了解事物并根据其所学知识做出预测。

机器学习用于分类的方式取决于数据的类型和标签的数量。以下是四种主要类型:

1. 二元分类

二元分类涉及将输入数据划分为两个不同的、互斥的类别。每条数据都被分配到两个类别之一:真/假、是/否、0/1,或垃圾邮件/非垃圾邮件。大多数物种就是这样组织的。

用于二元分类的常见算法包括:

  • 逻辑回归
  • 决策树
  • 支持向量机 (SVM)
  • 朴素贝叶斯
  • k-近邻 (k-NN)

2. 多类分类

多类分类处理有多个可能类的问题,并且每个输入恰好属于这些类别之一。目标是将输入标记为多个分配类别之一。

常用的算法包括:

  • k-近邻
  • 朴素贝叶斯
  • 随机森林
  • 梯度提升
  • 决策树

许多二元分类算法可以扩展或改编用于多类问题。

3. 多标签分类

在多标签分类中,每个输入可以同时属于多个类别。您可以有一个以上的标签。有些文章解释了不止一个观点,而照片可能显示多个对象。

我们不能使用典型的二元或多类算法来完成此任务。相反,会根据各种需求进行不同的变体。

常见的有多标签算法包括:

  • 多标签决策树
  • 多标签随机森林
  • 多标签梯度提升

4. 不平衡分类

当一个类别的数量远超其他类别时,就会发生不平衡分类。这通常是异常检测中的情况,因为异常少于正常示例。由于只有两个选择,不平衡性会使任务复杂化。

用于处理不平衡数据的技术包括:

  • 重采样方法(过采样/欠采样)
  • 成本敏感学习算法

机器学习中用于分类的方法有哪些?

构建一个模型来查看新数据,并根据其从带标签信息中学习到的知识进行标记。下面是显示该过程如何工作的清晰分解:

1. 数据收集

1. 使用带标签的数据集开始,其中每个数据点包括输入特征和相应的类别标签(例如,“猫”或“狗”)。

2. 特征提取

查找并使用图像的颜色、形状、大小或纹理等信息来帮助区分不同类别。它们将初始信息发送到模型中使用。

3. 模型训练

分类算法应用于模型,因为它从带标签的数据集中学习。它寻找数据主题和称为标签的描述之间的关系。

4. 模型评估

训练后,模型用于分析新数据并检查其准确性。在此阶段,将检查模型以发现它是否能够识别以前未遇到过的事物。

5. 预测

当模型经过验证后,它就可以根据其学到的知识来预测新数据的类别。

6. 性能指标

查看分类模型的性能如何很重要。对于每种类型的问题,您都可以通过检查模型在未见过的数据上的准确率、精确率、召回率和 F1 分数来观察模型的输出。

机器学习中的分类建模

现在我们已经涵盖了分类的基础知识,让我们来看看如何应用这些原则来构建有效的分类模型。在分类建模中,机器学习用于将数据组织成特定的类别或标签。使用这些深度学习方法,可以实现二元分类和多类分类模型。

以下是分类模型的一些关键特征:

1. 类别分离

分类的主要目标是区分不同的类别。它学习根据数据点的特征对其进行排序,并将它们组织到正确的类别中。

2. 决策边界

分类模型在特征空间中创建决策边界来分离类别。边界是直线(线性)还是曲线(非线性)的决定取决于所使用的方法或算法。

3. 对数据质量的敏感性

分类模型的性能在很大程度上取决于训练数据的质量和数量。如果数据组织良好、标签正确且能很好地覆盖问题,则预测会更好。

4. 处理不平衡数据

当一个类别的数量远超其他类别时,可能导致预测偏差。为了解决不平衡问题,应用过采样、欠采样和类别加权来提高机器学习模型的性能。

5. 可解释性

一些分类算法,如决策树或逻辑回归,具有更高的可解释性。使用这些模型,您可以了解决策是如何达成的,这在透明度是主要关注点时至关重要。

机器学习 (ML) 中的分类模型

分类模型用于从观察到的数据中提取有意义的见解。如果模型接收输入特征,它们会尝试预测可以附加到数据的类别标签。

以下是一些机器学习中广泛使用的分类模型:

1. 逻辑回归

逻辑回归模型根据一个或多个自变量来模拟二元结果的概率。逻辑函数使其适用于决策是“是”或“否”的问题。

2. 决策树

决策树根据特征值将输入数据分割成分支,创建决策的树状结构。它是一种通过简单的数学指南进行逐步分类的模型。

3. 随机森林

随机森林是一种集成方法,它使用随机数据和特征子集构建多个决策树。它有助于防止过拟合,提高结果的准确性,并通过对许多树的输出来取平均值来改进预测。

4. 朴素贝叶斯

朴素贝叶斯基于贝叶斯定理,并假设特征是条件独立的。尽管依赖于特征不独立的易错观点,但它对于文本分类来说简单、快速且非常有效。

5. 支持向量机 (SVM)

SVM 旨在找到最佳边界(或超平面)来最好地分离不同的类别。核函数允许它们处理简单或复杂的分类问题。

哪种方法允许最佳分类算法?

为了找到适合机器学习工作的分类算法,我们应该考虑几个关键方面。这些考虑因素已被分成单独的段落,并在下面进行了解释:

1. 确定问题的类型

第一步是了解您正在处理的内容。当您的数据带有标签时,您可以选择使用逻辑回归、决策树或随机森林来训练模型。如果问题是未标记的,您可以使用K-Means或层次聚类。在确定了问题的类型后,就可以选择最佳的算法来使用。

2. 数据集中数据的数量。

大量数据需要与数据量较少的数据不同的方法。少量数据是朴素贝叶斯最适合处理的,这通常使其成为正确的选择。相比之下,大量数据通常包含许多特征,应由更鲁棒的算法处理。如果数据包含许多特征,则最好使用决策树或随机森林。

3. 预测准确性

衡量分类器成功程度的一种方法是查看其建模准确性。即使模型非常准确,在它未遇到过的数据上也不应表现不佳。选择一种既可靠又对其他类型数据有效的算法。它们可以控制数据中的不平衡问题。

4. 训练时间

算法的复杂性可能会导致模型训练速度变慢。逻辑回归和朴素贝叶斯可用于原型设计或简单项目,因为它们都易于训练和实现。随机森林和梯度提升可以获得更好的结果,但计算时间较长,尤其是在数据量很大的情况下。

5. 特征的数量。

数据集中特征数量过多可能会导致问题,因为其中一些可能益处较少。可以应用主成分分析 (PCA) 等技术来降低维度并提高模型性能。此外,支持向量机 (SVM) 等算法能很好地处理高维空间,并且在特征选择对分类很重要时非常有效。

使用机器学习进行分类的示例

在许多行业中,人们将分类算法应用于各种现实世界的挑战。这些情况很常见:

1. 电子邮件垃圾邮件过滤器

它们通过教会机器识别垃圾邮件并将它们移动到“垃圾邮件”文件夹来帮助用户。

2. 评估贸易风险

银行和金融机构依靠分类模型来估计客户贷款违约的可能性。为确保贷款安全发放,他们会评估个人的信用、检查其财务状况并审查其过去的贷款。

3. 医疗诊断

可以通过使用分类算法研究患者的医疗数据来检测包括癌症和糖尿病在内的健康疾病。当有准确的诊断时,患者会感觉好很多。

4. 图像分类

借助分类模型,可以非常准确地发现照片中的对象、人物和任何异常情况。

5. 情感分析

公司将对它们的评价分类为正面、负面或中性。因此,产品、服务以及消费者对其购买的感受都可以得到改善。

6. 欺诈检测

它们会留意可疑活动,并可能将其视为欺诈信号。因此,您可以更轻松地保护您的资金免受信用卡欺诈。

7. 推荐系统

根据用户之前观看或订购的内容推荐接下来观看或购买的内容,支持 Netflix 和 Amazon 促进新销售的努力。

结论

在本文中,我们回顾了机器学习中使用的常见分类。在二元分类中,结果是“是”或“否”,可能是垃圾邮件或非垃圾邮件。通过允许用户从更多选项中选择一个类别来扩展此技术。在多标签分类中,输入可以标记为多个标签,这通常在自动标记中可以看到。当每个类别的数量不相同时,任务建模变得更加困难。

由于不同的分类涉及各种策略,选择最佳算法取决于问题的类型、数据的数量、可用的特征以及预期的预测。这些模型通常是首选,因为它们满足特定要求。