数据挖掘中的层次聚类

2025年3月17日 | 阅读 3 分钟

层次聚类是指一种无监督学习过程，它根据先前定义的聚类确定连续的聚类。它通过将数据分组为聚类树来工作。层次聚类首先将每个数据点视为一个单独的聚类。端点是指一组不同的聚类，其中每个聚类与其他聚类不同，并且每个聚类中的对象彼此相同。

层次聚类有两种类型

凝聚层次聚类
分裂聚类

凝聚层次聚类

凝聚聚类是用于将相似对象分组到聚类中的最常见的层次聚类类型之一。凝聚聚类也称为 AGNES（凝聚嵌套）。在凝聚聚类中，每个数据点都充当一个单独的聚类，并且在每个步骤中，数据对象都以自底向上的方法分组。最初，每个数据对象都在其自己的聚类中。在每次迭代中，聚类与其他聚类合并，直到形成一个聚类。

凝聚层次聚类算法

确定个体与所有其他聚类之间的相似性。（找到邻近矩阵）。
将每个数据点视为一个单独的聚类。
合并相似的聚类。
重新计算每个聚类的邻近矩阵。
重复步骤 3 和步骤 4，直到您获得一个聚类。

让我们借助使用树状图的图形表示来理解这个概念。

借助给定的演示，我们可以理解实际算法是如何工作的。这里没有进行计算，下面假设所有聚类之间的邻近度。

假设我们有六个不同的数据点 P、Q、R、S、T、V。

步骤 1

将每个字母（P、Q、R、S、T、V）视为一个单独的聚类，并找到单个聚类与所有其他聚类之间的距离。

步骤 2

现在，将可比较的聚类合并到一个聚类中。假设聚类 Q 和聚类 R 彼此相似，因此我们可以在第二步将它们合并。最后，我们得到聚类 [ (P), (QR), (ST), (V)]

步骤 3

在这里，我们根据算法重新计算邻近度，并将两个最接近的聚类 [(ST), (V)] 组合在一起，形成新的聚类 [(P), (QR), (STV)]

步骤 4

重复相同的过程。聚类 STV 和 PQ 具有可比性，并组合在一起形成一个新的聚类。现在我们有 [(P), (QQRSTV)]。

步骤 5

最后，剩下的两个聚类合并在一起，形成一个单独的聚类 [(PQRSTV)]

分裂层次聚类

分裂层次聚类与凝聚层次聚类完全相反。在分裂层次聚类中，所有数据点都被视为一个单独的聚类，并且在每次迭代中，不相似的数据点会从聚类中分离出来。分离的数据点被视为一个单独的聚类。最后，我们剩下 N 个聚类。

层次聚类的优点

它易于实现，并且在某些情况下提供最佳输出。
它很简单，并且产生一个层次结构，该结构包含更多信息。
它不需要我们预先指定聚类的数量。

层次聚类的缺点

它会破坏大型聚类。
难以处理不同大小的聚类和凸形形状。
它对噪声和异常值敏感。
一旦完成，算法就无法更改或删除。

下一个主题数据挖掘中的基于密度的聚类

数据挖掘中的层次聚类

凝聚层次聚类

分裂层次聚类

层次聚类的优点

层次聚类的缺点

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

数据挖掘

选择题

数据挖掘中的层次聚类

凝聚层次聚类

分裂层次聚类

层次聚类的优点

层次聚类的缺点

相关帖子

数据挖掘 vs 流程挖掘

数据挖掘中的聚合

浅层解析

文本数据挖掘

数据画像 vs 数据挖掘

数据挖掘中的基于网格的方法

社交媒体数据挖掘方法

文本挖掘中的缩略词扩展

数据挖掘 vs 统计学

Weka数据挖掘

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器