数据挖掘中的类比较方法

2025年3月17日 | 阅读 3 分钟

在许多应用中,用户可能不关心单个类或概念的描述或表征,而是更倾向于挖掘描述来比较或区分一个类(或概念)与其他可比较的类(或概念)。类判别或比较(以下简称类比较)挖掘区分目标类与其对比类的描述。请注意,目标类和对比类必须是可比较的,因为它们共享相似的维度和属性。例如,person、address 和 item 这三个类是不可比较的。

前面几节关于类表征的讨论处理了单个类中的多层次数据汇总和表征。然而,过去三年的销售额是可比较的类,计算机科学专业的学生与物理学专业的学生也是可比较的类。已开发的技术可以扩展以处理多个可比较类之间的类比较。

例如,为类表征描述的属性泛化过程可以进行修改,使得泛化在所有比较的类之间同步进行。这允许所有类中的属性被泛化到相同的抽象级别。假设我们拥有 All Electronics 数据,用于比较 2003 年和 2004 年的销售额,并希望比较这两个类。考虑以城市、省/州和国家级别作为抽象的 location 维度。每个类的数据都应泛化到相同的 location 级别。它们同步地都泛化到城市级别、省/州级别或国家级别。理想情况下,这比比较 2003 年温哥华的销售额与 2004 年美国的销售额(即每个销售数据集泛化到不同级别)更有用。然而,用户应选择覆盖这种自动化的、同步的比较,并在偏好时使用自己的选择。

类比较方法和实现

类比较的一般过程如下:

Class Comparison Methods in Data Mining
  1. 数据收集:通过查询处理收集数据库和数据仓库中的相关数据集,并将其划分为目标类和一组对比类。
  2. 维度相关性分析:如果存在许多维度并希望进行分析性比较,则应执行维度相关性分析。只有高度相关的维度才包含在进一步的分析中。
  3. 同步泛化:泛化过程在目标类上进行,直到用户或专家指定的维度阈值控制的级别,从而得到一个主要的类关系或立方体。对比类中的概念被泛化到与主要类关系或立方体相同的级别,形成主要对比类关系或立方体。
  4. 导出比较的呈现:由此产生的类比较描述可以用表格、图表和规则的形式进行可视化。这种呈现通常包括一个“对比”度量(如计数%),该度量反映了目标类与对比类之间的比较。根据需要,用户可以通过对目标类和对比类应用下钻、上卷和其他 OLAP 操作来调整比较描述。
    例如,我们要执行的任务是使用判别规则比较研究生和本科生。因此,DMQL 查询将如下所示。

现在,我们可以得出:

  • 属性 = name, gender, program, birth_place, birth_date, residence, phone_no, and GPA。
  • Gen(ai)= 属性 ai 上的概念层次结构。
  • Ui = 属性 ai 的属性分析阈值。
  • Ti = 属性 ai 的属性泛化阈值。
  • R = 属性相关性阈值。

类比较描述的呈现

与类表征一样,类比较可以以各种形式呈现给用户,包括泛化关系、交叉表、条形图、饼图、曲线和规则。除了逻辑规则之外,这些形式用于表征和比较的方式相同。本节讨论了以判别规则形式可视化类比较。

与表征描述类似,比较的目标类和对比类的判别特征通过定量判别规则进行量化,该规则将统计相关性度量 d-weight 与描述中的每个泛化元组相关联。