数据挖掘中的分类和预测

2025年3月17日 | 阅读 7 分钟

有两种数据分析方法可用于提取描述重要类别的模型或预测未来数据趋势。这两种方法如下:

  1. 分类
  2. 预报

我们使用分类和预测来提取模型,该模型代表数据类别以预测未来数据趋势。分类模型使用预测模型来预测数据的类别标签。这种分析使我们能够大规模地最好地理解数据。

分类模型预测分类类别标签,而预测模型预测连续值函数。例如,我们可以构建一个分类模型来将银行贷款申请归类为安全或风险,或者构建一个预测模型来根据潜在客户的收入和职业来预测他们在计算机设备上的支出(以美元为单位)。

Classification and Predication in Data Mining

什么是分类?

分类的目的是识别新观测的类别或类标签。首先,使用一组数据作为训练数据。输入数据及其对应的输出集被提供给算法。因此,训练数据集包括输入数据及其相关的类标签。使用训练数据集,算法会导出模型或分类器。导出的模型可以是决策树、数学公式或神经网络。在分类中,当向模型提供无标签数据时,它应该找到其所属的类。提供给模型的新数据是测试数据集。

分类是分类记录的过程。一个简单的分类示例是检查是否下雨。答案可以是“是”或“否”。因此,有特定数量的选择。有时可能存在两个以上的类别需要分类。这称为多类别分类

银行需要分析向特定客户提供贷款是否有风险。例如,基于多个贷款借款人的可观察数据,可以建立一个分类模型来预测信用风险。数据可以跟踪工作记录、房屋所有权或租赁情况、居住年限、存款的数量和类型、历史信用评级等。目标将是信用评级,预测因子将是其他特征,数据将代表每个消费者的案例。在此示例中,构建了一个模型来查找分类标签。标签是“风险”或“安全”。

分类是如何工作的?

上面已经提到了在银行贷款申请的协助下分类的运作方式。数据分类系统有两个阶段:分类器或模型创建和分类应用。

Classification and Predication in Data Mining
  1. 开发分类器或模型创建:此级别是学习阶段或学习过程。分类算法在此阶段构建分类器。分类器由包含数据库记录及其相应类名的训练集构成。构成训练集的每个类别都称为一个类别或类。我们也可以将这些记录称为样本、对象或数据点。
  2. 应用分类器进行分类:在此级别,分类器用于分类。在这里,测试数据用于估计分类算法的准确性。如果一致性被认为足够,则可以将分类规则扩展到涵盖新的数据记录。它包括:
    • 情感分析:情感分析在社交媒体监控方面非常有用。我们可以使用它来提取社交媒体见解。我们可以构建情感分析模型,利用先进的机器学习算法来读取和分析拼写错误的单词。经过准确训练的模型可以持续提供准确的结果,并且耗时很短。
    • 文档分类:我们可以使用文档分类根据内容将文档组织到不同的部分。文档分类是指文本分类;我们可以对整个文档中的词语进行分类。借助机器学习分类算法,我们可以自动执行此操作。
    • 图像分类:图像分类用于图像的训练类别。这些可以是图像的标题、统计值、主题。您可以标记图像,以便通过应用监督学习算法来训练模型以进行相关类别。
    • 机器学习分类:它使用统计上可证明的算法规则来执行分析任务,这些任务需要人类花费数百甚至更多小时才能完成。
  3. 数据分类过程:数据分类过程可分为五个步骤:
    • 创建数据分类的目标、策略、工作流程和数据分类体系结构。
    • 对我们存储的机密详细信息进行分类。
    • 通过数据标记使用标记。
    • 为了提高保护和合规性,使用效果。
    • 数据是复杂的,而分类是一个持续的过程。

什么是数据分类生命周期?

数据分类生命周期为控制企业数据的流动提供了出色的结构。企业需要在每个级别考虑数据安全和合规性。借助数据分类,我们可以在每个阶段执行此操作,从源头到删除。数据生命周期具有以下阶段:

Classification and Predication in Data Mining
  1. 源头:它以各种格式生成敏感数据,包括电子邮件、Excel、Word、Google文档、社交媒体和网站。
  2. 基于角色的实践:基于角色的安全限制通过根据内部保护策略和协议规则进行标记来应用于所有敏感数据。
  3. 存储:在这里,我们有获取的数据,包括访问控制和加密。
  4. 共享:数据通过各种设备和平台不断地在代理商、消费者和同事之间分发。
  5. 归档:在这里,数据最终会被归档到企业的存储系统中。
  6. 发布:通过数据发布,它可以触达客户。然后,他们可以以仪表板的形式查看和下载。

什么是预测?

数据分析的另一个过程是预测。它用于查找数值输出。与分类一样,训练数据集包含输入和相应的数值输出值。算法根据训练数据集导出模型或预测器。当提供新数据时,模型应该找到一个数值输出。与分类不同,此方法没有类标签。模型预测一个连续值函数或有序值。

回归通常用于预测。例如,根据房间数量、总面积等事实预测房屋的价值,这是一个预测的例子。

例如,假设营销经理需要预测某个客户在促销期间将在其公司花费多少。在这种情况下,我们关心的是预测一个数值。因此,数值预测的一个例子是数据处理活动。在这种情况下,将开发一个模型或预测器,该模型或预测器可以预测一个连续或有序的值函数。

分类与预测问题

主要问题是准备用于分类和预测的数据。数据准备涉及以下活动:

Classification and Predication in Data Mining
  1. 数据清洗:数据清洗涉及去除噪声和处理缺失值。通过应用平滑技术去除噪声,并通过用该属性最常出现的值替换缺失值来解决缺失值问题。
  2. 相关性分析:数据库也可能包含不相关的属性。相关性分析用于了解给定的两个属性是否相关。
  3. 数据转换与约简:数据可以通过以下任一方法进行转换:
    • 归一化:使用归一化转换数据。归一化涉及缩放给定属性的所有值,使其落入一个小的指定范围内。当学习步骤中使用神经网络或涉及测量的方法时,可以使用归一化。
    • 泛化:还可以通过将数据泛化到更高概念来转换数据。为此,我们可以使用概念层次结构。

注意:还可以通过其他方法(如小波变换、分箱、直方图分析和聚类)来约简数据。

分类与预测方法比较

以下是比较分类和预测方法的标准:

Classification and Predication in Data Mining
  • 准确性:分类器的准确性是指分类器正确预测类标签的能力,而预测器的准确性是指给定预测器在多大程度上能够估计未知值。
  • 速度:方法的速度取决于生成和使用分类器或预测器的计算成本。
  • 鲁棒性:鲁棒性是指做出正确预测或分类的能力。在数据挖掘的背景下,鲁棒性是指分类器或预测器能够从传入的未知数据中做出正确预测的能力。
  • 可扩展性:可扩展性是指分类器或预测器基于给定数据的性能的增加或减少。
  • 可解释性:可解释性是指我们可以多容易地理解预测器或分类器所做预测或分类的推理。

分类与预测的区别

应用于现有数据的决策树是一个分类模型。通过将其应用于类未知的新数据,我们可以获得类预测。假设新数据来自与我们用于构建决策树的数据相似的分布。在许多情况下,这是一个正确的假设,因此我们可以使用决策树来构建预测模型。分类或预测是查找描述信息类别或概念的模型的过程。目的是使用此模型来预测类标签未知对象的类。以下是分类和预测之间的一些主要区别。

分类预报
分类是根据包含已知类别成员的观测值的训练数据集来确定新观测值属于哪个类别的过程。预测是识别新观测值缺失或不可用的数值数据的过程。
在分类中,准确性取决于是否正确找到类标签。在预测中,准确性取决于给定预测器在多大程度上能够猜测新数据的预测属性的值。
在分类中,模型可以称为分类器。在预测中,模型可以称为预测器。
构建模型或分类器以查找分类标签。将构建模型或预测器,该模型或预测器可预测连续值函数或有序值。
例如,根据病人的病历对其进行分组可以认为是分类。例如,我们可以将预测视为预测一个人针对特定疾病的正确治疗方法。