数据挖掘任务原语

17 Mar 2025 | 5 分钟阅读

数据挖掘任务可以表示为数据挖掘查询,这是输入到数据挖掘系统中的。数据挖掘查询根据数据挖掘任务原语来定义。这些原语允许用户在发现过程中与数据挖掘系统进行交互,以指导挖掘过程或从不同的角度或深度检查发现结果。数据挖掘原语指定以下内容:

  1. 要挖掘的任务相关数据集合。
  2. 要挖掘的知识类型。
  3. 用于发现过程的背景知识。
  4. 模式评估的有趣性度量和阈值。
  5. 用于可视化已发现模式的表示形式。

可以设计一个数据挖掘查询语言来整合这些原语,从而允许用户灵活地与数据挖掘系统进行交互。拥有一个数据挖掘查询语言为构建用户友好的图形界面奠定了基础。

设计一个全面的数据挖掘语言是具有挑战性的,因为数据挖掘涵盖了从数据特征描述到演化分析的广泛任务。每个任务都有不同的要求。设计一个有效的数据挖掘查询语言需要深入理解各种数据挖掘任务的能力、限制和底层机制。这有助于数据挖掘系统与其他信息系统的通信,并与整个信息处理环境集成。

Data Mining Task Primitives

数据挖掘任务原语列表

数据挖掘查询根据以下原语定义,例如:

1. 要挖掘的任务相关数据集合

这指定了用户感兴趣的数据库部分或数据集。这包括感兴趣的数据库属性或数据仓库维度(相关属性或维度)。

在关系数据库中,可以通过涉及选择、投影、连接和聚合等操作的关系查询来收集任务相关数据。

数据收集过程会生成一个新的数据关系,称为初始数据关系。初始数据关系可以根据查询中指定的条件进行排序或分组。这种数据检索可以被视为数据挖掘任务的一个子任务。

这个初始关系可能对应也可能不对应数据库中的物理关系。由于虚拟关系在数据库领域称为视图,因此数据挖掘的任务相关数据集合称为可挖掘视图。

2. 要挖掘的知识类型

这指定要执行的数据挖掘功能,例如特征描述、区分、关联或相关性分析、分类、预测、聚类、异常值分析或演化分析。

3. 用于发现过程的背景知识

有关要挖掘域的知识对于指导知识发现过程和评估找到的模式很有用。概念层次结构是一种流行的背景知识形式,它允许在多个抽象级别上挖掘数据。

概念层次结构定义了从低级概念到更高级、更通用的概念的映射序列。

  • 向上汇总 - 数据概括:允许以更有意义和更明确的抽象形式查看数据,并使其更容易理解。它压缩了数据,并且需要更少的输入/输出操作。
  • 向下钻取 - 数据专业化:用较低级概念替换概念值。根据不同的用户视角,给定属性或维度可能不止一个概念层次结构。

下面显示了一个属性(或维度)年龄的概念层次结构的示例。用户对数据中关系的信念是另一种形式的背景知识。

4. 模式评估的有趣性度量和阈值

不同类型的知识可能有不同的有趣性度量。它们可用于指导挖掘过程,或在发现后评估已发现的模式。例如,关联规则的有趣性度量包括支持度和置信度。支持度和置信度低于用户指定阈值的规则被认为是不有趣的。

  • 简洁性:模式的整体简洁性是影响其有趣性的一个因素,因为它便于人类理解。例如,规则的结构越复杂,解释起来就越困难,因此,它可能不太有趣。模式简洁性的客观度量可以看作是模式结构的函数,该函数根据模式的大小(以比特为单位)或模式中出现的属性或运算符的数量来定义。
  • 确定性(置信度):每个已发现的模式都应具有相关的确定性度量,该度量评估模式的有效性或“可信度”。“A =>B”形式的关联规则的确定性度量,其中 A 和 B 是项目集,是置信度。置信度是一个确定性度量。给定一组任务相关的数据元组,“A => B”的置信度定义为
    置信度 (A=>B) = 同时包含 A 和 B 的元组数 / 包含 A 的元组数
  • 效用(支持度):模式的潜在有用性是定义其有趣性的一个因素。它可以通过效用函数来估算,例如支持度。关联模式的支持度是指模式为真的任务相关数据元组(或事务)的百分比。
    效用(支持度):模式的有用性
    支持度 (A=>B) = 同时包含 A 和 B 的元组数 / 总元组数
  • 新颖性:新颖的模式是那些为给定模式集提供新信息或提高性能的模式。例如 -> 数据异常。检测新颖性的另一种策略是去除冗余模式。

5. 用于可视化已发现模式的预期表示形式

这指的是已发现模式要显示的格式,可能包括规则、表格、交叉表、图表、决策树、立方体或其他可视化表示。

用户必须能够指定用于显示已发现模式的呈现形式。对于特定类型的知识,某些表示形式可能比其他形式更合适。

例如,广义关系及其相应的交叉表或饼图/条形图适合呈现特征描述,而决策树常用于分类。

数据挖掘任务原语示例

假设作为AllElectronics公司的营销经理,您希望根据客户的购买模式对客户进行分类。您特别关注那些收入不低于 40,000 美元且购买商品总价超过 1,000 美元(每件商品价格不低于 100 美元)的客户。

具体来说,您对客户的年龄、收入、购买商品类型、购买地点以及商品产地感兴趣。您希望以规则的形式查看分类结果。此数据挖掘查询以 DMQL3 的形式表示,其中查询的每一行都已编号以便于讨论:

  1. use database AllElectronics_db
  2. use hierarchy location_hierarchy for T.branch, age_hierarchy for C.age
  3. mine classification as promising_customers
  4. in relevance to C.age, C.income, I.type, I.place_made, T.branch
  5. from customer C, an item I, transaction T
  6. where I.item_ID = T.item_ID and C.cust_ID = T.cust_ID and C.income ≥ 40,000 and I.price ≥ 100
  7. group by T.cust_ID