数据挖掘任务原语17 Mar 2025 | 5 分钟阅读 数据挖掘任务可以表示为数据挖掘查询,这是输入到数据挖掘系统中的。数据挖掘查询根据数据挖掘任务原语来定义。这些原语允许用户在发现过程中与数据挖掘系统进行交互,以指导挖掘过程或从不同的角度或深度检查发现结果。数据挖掘原语指定以下内容:
可以设计一个数据挖掘查询语言来整合这些原语,从而允许用户灵活地与数据挖掘系统进行交互。拥有一个数据挖掘查询语言为构建用户友好的图形界面奠定了基础。 设计一个全面的数据挖掘语言是具有挑战性的,因为数据挖掘涵盖了从数据特征描述到演化分析的广泛任务。每个任务都有不同的要求。设计一个有效的数据挖掘查询语言需要深入理解各种数据挖掘任务的能力、限制和底层机制。这有助于数据挖掘系统与其他信息系统的通信,并与整个信息处理环境集成。 ![]() 数据挖掘任务原语列表数据挖掘查询根据以下原语定义,例如: 1. 要挖掘的任务相关数据集合 这指定了用户感兴趣的数据库部分或数据集。这包括感兴趣的数据库属性或数据仓库维度(相关属性或维度)。 在关系数据库中,可以通过涉及选择、投影、连接和聚合等操作的关系查询来收集任务相关数据。 数据收集过程会生成一个新的数据关系,称为初始数据关系。初始数据关系可以根据查询中指定的条件进行排序或分组。这种数据检索可以被视为数据挖掘任务的一个子任务。 这个初始关系可能对应也可能不对应数据库中的物理关系。由于虚拟关系在数据库领域称为视图,因此数据挖掘的任务相关数据集合称为可挖掘视图。 2. 要挖掘的知识类型 这指定要执行的数据挖掘功能,例如特征描述、区分、关联或相关性分析、分类、预测、聚类、异常值分析或演化分析。 3. 用于发现过程的背景知识 有关要挖掘域的知识对于指导知识发现过程和评估找到的模式很有用。概念层次结构是一种流行的背景知识形式,它允许在多个抽象级别上挖掘数据。 概念层次结构定义了从低级概念到更高级、更通用的概念的映射序列。
下面显示了一个属性(或维度)年龄的概念层次结构的示例。用户对数据中关系的信念是另一种形式的背景知识。 4. 模式评估的有趣性度量和阈值 不同类型的知识可能有不同的有趣性度量。它们可用于指导挖掘过程,或在发现后评估已发现的模式。例如,关联规则的有趣性度量包括支持度和置信度。支持度和置信度低于用户指定阈值的规则被认为是不有趣的。
5. 用于可视化已发现模式的预期表示形式 这指的是已发现模式要显示的格式,可能包括规则、表格、交叉表、图表、决策树、立方体或其他可视化表示。 用户必须能够指定用于显示已发现模式的呈现形式。对于特定类型的知识,某些表示形式可能比其他形式更合适。 例如,广义关系及其相应的交叉表或饼图/条形图适合呈现特征描述,而决策树常用于分类。 数据挖掘任务原语示例假设作为AllElectronics公司的营销经理,您希望根据客户的购买模式对客户进行分类。您特别关注那些收入不低于 40,000 美元且购买商品总价超过 1,000 美元(每件商品价格不低于 100 美元)的客户。 具体来说,您对客户的年龄、收入、购买商品类型、购买地点以及商品产地感兴趣。您希望以规则的形式查看分类结果。此数据挖掘查询以 DMQL3 的形式表示,其中查询的每一行都已编号以便于讨论:
|
我们请求您订阅我们的新闻通讯以获取最新更新。