数据挖掘的任务和功能

17 Mar 2025 | 5 分钟阅读

数据挖掘的任务被设计为半自动或全自动的,并且是在大型数据集上进行的,以发现诸如分组或聚类、异常或极端数据(称为异常检测)以及依赖关系(如关联和序列模式)等模式。一旦发现了模式,就可以将其视为输入数据的摘要,并可以使用机器学习和预测分析进行进一步分析。例如,数据挖掘步骤可能有助于识别数据中的多个组,决策支持系统可以利用这些组。请注意,数据收集、准备、报告不属于数据挖掘的范畴。

数据挖掘和数据分析之间存在很多混淆。数据挖掘功能用于定义数据挖掘活动中包含的趋势或相关性。而数据分析用于测试适合数据集的统计模型,例如,对营销活动的分析,数据挖掘则使用机器学习和数学统计模型来发现数据中隐藏的模式。相比之下,数据挖掘活动可分为两类

  • 描述性数据挖掘:它包含某些知识,以便在没有先验概念的情况下理解数据中发生了什么。数据集中的常见数据特征被突出显示。例如,计数、平均值等。
  • 预测性数据挖掘:它帮助开发人员提供属性的未标记定义。通过先前可用或历史数据,数据挖掘可用于根据数据的线性预测关键业务指标。例如,根据过去几年各季度的业绩预测下个季度的业务量,或者根据患者体检结果判断其是否患有某种特定疾病。

数据挖掘的功能

数据挖掘功能用于表示需要在数据挖掘任务中发现的模式类型。数据挖掘任务可分为两类:描述性和预测性。描述性挖掘任务定义数据库中数据的共同特征,预测性挖掘任务对当前信息进行推理以进行预测。

数据挖掘广泛应用于许多领域或行业。它用于预测和表征数据。但数据挖掘功能的最终目标是观察数据挖掘中的各种趋势。数据挖掘有几种功能,这些功能由有组织和科学的方法提供,例如

Tasks and Functionalities of Data Mining

1. 类/概念描述

类或概念意味着存在一个数据集或一组定义该类或概念的特征。类可以是车间上的一类物品,概念可以是数据可以分类的抽象概念,例如要进行清仓促销的产品和非促销产品。这里有两个概念,一个用于分组,另一个用于区分。

  • 数据特征描述:这指的是类的通用特征或属性的摘要,从而产生定义目标类的特定规则。一种称为面向属性归纳的数据分析技术被应用于数据集以实现特征描述。
  • 数据区分:区分用于根据属性值的差异分离不同的数据集。它将一个类的特征与一个或多个对比类的特征进行比较。例如,条形图、曲线图和饼图。

2. 挖掘频繁模式

数据挖掘的一个功能是查找数据模式。频繁模式是在数据中发现的最常见的事物。在数据集中可以找到各种类型的频率。

  • 频繁项集:此术语指的是经常一起出现的项目组,例如牛奶和糖。
  • 频繁子结构:它指的是可以与项集或子序列组合的各种数据结构,例如树和图。
  • 频繁子序列:一个常规模式序列,例如购买手机后购买手机壳。

3. 关联分析

它分析在事务数据集中通常一起出现的项目集。由于其在零售销售中的广泛应用,它也被称为购物篮分析。确定关联规则使用两个参数

  • 它提供了识别数据库中常见项集的方法。
  • 置信度是另一项商品出现在交易中的条件下,一项商品出现的概率。

4. 分类

分类是一种数据挖掘技术,它根据某些预定义的属性将集合中的项目进行分类。它使用 if-then 规则、决策树或神经网络等方法来预测一个类,或者本质上对项目集合进行分类。使用包含已知属性的项目训练集来训练系统,以便预测未知项目集合的类别。

5. 预测

它定义了预测一些不可用的数据值或支出趋势。可以根据对象的属性值和类的属性值来预测一个对象。它可以是缺失数值的预测,也可以是时间相关信息中趋势的增加或减少。数据挖掘中的预测主要有两种类型:数值预测和类别预测。

  • 数值预测是通过创建基于历史数据的线性回归模型来进行的。数值预测有助于企业为可能对业务产生积极或消极影响的未来事件做好准备。
  • 类别预测用于使用已知产品类别的训练数据集来填充产品的缺失类别信息。

6. 聚类分析

在图像处理、模式识别和生物信息学中,聚类是一种流行的数据挖掘功能。它类似于分类,但类不是预先定义的。数据属性代表类。相似的数据被分组在一起,不同之处在于类标签是未知的。聚类算法根据相似的特征和不相似性对数据进行分组。

7. 异常值分析

异常值分析对于理解数据质量很重要。如果异常值过多,您将无法信任数据或从中得出模式。异常值分析确定数据中是否存在异常情况,以及它是否指示了企业需要考虑并采取措施来缓解的情况。异常值分析会将那些无法被算法归入任何类别的数据提取出来。

8. 演化和偏差分析

演化分析涉及对随时间变化的数据集的研究。演化分析模型旨在捕捉数据中的演化趋势,帮助表征、分类、聚类或区分与时间相关的数据。

9. 相关性分析

相关性是一种数学技术,用于确定两个属性之间是否存在关系以及它们之间的关系有多强。它指的是可以与项集或子序列组合的各种数据结构,例如树和图。它确定了两个数值测量的连续变量之间的关联程度。研究人员可以使用这种类型的分析来查看他们研究中的变量之间是否存在任何可能的关联。