数据挖掘中的类比较方法2025年3月17日 | 阅读 3 分钟 在许多应用中,用户可能不关心单个类或概念的描述或表征,而是更倾向于挖掘描述来比较或区分一个类(或概念)与其他可比较的类(或概念)。类判别或比较(以下简称类比较)挖掘区分目标类与其对比类的描述。请注意,目标类和对比类必须是可比较的,因为它们共享相似的维度和属性。例如,person、address 和 item 这三个类是不可比较的。 前面几节关于类表征的讨论处理了单个类中的多层次数据汇总和表征。然而,过去三年的销售额是可比较的类,计算机科学专业的学生与物理学专业的学生也是可比较的类。已开发的技术可以扩展以处理多个可比较类之间的类比较。 例如,为类表征描述的属性泛化过程可以进行修改,使得泛化在所有比较的类之间同步进行。这允许所有类中的属性被泛化到相同的抽象级别。假设我们拥有 All Electronics 数据,用于比较 2003 年和 2004 年的销售额,并希望比较这两个类。考虑以城市、省/州和国家级别作为抽象的 location 维度。每个类的数据都应泛化到相同的 location 级别。它们同步地都泛化到城市级别、省/州级别或国家级别。理想情况下,这比比较 2003 年温哥华的销售额与 2004 年美国的销售额(即每个销售数据集泛化到不同级别)更有用。然而,用户应选择覆盖这种自动化的、同步的比较,并在偏好时使用自己的选择。 类比较方法和实现类比较的一般过程如下: ![]()
现在,我们可以得出:
类比较描述的呈现与类表征一样,类比较可以以各种形式呈现给用户,包括泛化关系、交叉表、条形图、饼图、曲线和规则。除了逻辑规则之外,这些形式用于表征和比较的方式相同。本节讨论了以判别规则形式可视化类比较。 与表征描述类似,比较的目标类和对比类的判别特征通过定量判别规则进行量化,该规则将统计相关性度量 d-weight 与描述中的每个泛化元组相关联。 下一主题数据挖掘中的数据选择 |
我们请求您订阅我们的新闻通讯以获取最新更新。