数据挖掘中的层次聚类

2025年3月17日 | 阅读 3 分钟

层次聚类是指一种无监督学习过程,它根据先前定义的聚类确定连续的聚类。它通过将数据分组为聚类树来工作。层次聚类首先将每个数据点视为一个单独的聚类。端点是指一组不同的聚类,其中每个聚类与其他聚类不同,并且每个聚类中的对象彼此相同。

层次聚类有两种类型

  • 凝聚层次聚类
  • 分裂聚类

凝聚层次聚类

凝聚聚类是用于将相似对象分组到聚类中的最常见的层次聚类类型之一。凝聚聚类也称为 AGNES(凝聚嵌套)。在凝聚聚类中,每个数据点都充当一个单独的聚类,并且在每个步骤中,数据对象都以自底向上的方法分组。最初,每个数据对象都在其自己的聚类中。在每次迭代中,聚类与其他聚类合并,直到形成一个聚类。

凝聚层次聚类算法

  1. 确定个体与所有其他聚类之间的相似性。(找到邻近矩阵)。
  2. 将每个数据点视为一个单独的聚类。
  3. 合并相似的聚类。
  4. 重新计算每个聚类的邻近矩阵。
  5. 重复步骤 3 和步骤 4,直到您获得一个聚类。

让我们借助使用树状图的图形表示来理解这个概念。

借助给定的演示,我们可以理解实际算法是如何工作的。这里没有进行计算,下面假设所有聚类之间的邻近度。

假设我们有六个不同的数据点 P、Q、R、S、T、V。

Hierarchical clustering in data mining

步骤 1

将每个字母(P、Q、R、S、T、V)视为一个单独的聚类,并找到单个聚类与所有其他聚类之间的距离。

步骤 2

现在,将可比较的聚类合并到一个聚类中。 假设聚类 Q 和聚类 R 彼此相似,因此我们可以在第二步将它们合并。 最后,我们得到聚类 [ (P), (QR), (ST), (V)]

步骤 3

在这里,我们根据算法重新计算邻近度,并将两个最接近的聚类 [(ST), (V)] 组合在一起,形成新的聚类 [(P), (QR), (STV)]

步骤 4

重复相同的过程。 聚类 STV 和 PQ 具有可比性,并组合在一起形成一个新的聚类。 现在我们有 [(P), (QQRSTV)]。

步骤 5

最后,剩下的两个聚类合并在一起,形成一个单独的聚类 [(PQRSTV)]

分裂层次聚类

分裂层次聚类与凝聚层次聚类完全相反。在分裂层次聚类中,所有数据点都被视为一个单独的聚类,并且在每次迭代中,不相似的数据点会从聚类中分离出来。分离的数据点被视为一个单独的聚类。最后,我们剩下 N 个聚类。

Hierarchical clustering in data mining

层次聚类的优点

  • 它易于实现,并且在某些情况下提供最佳输出。
  • 它很简单,并且产生一个层次结构,该结构包含更多信息。
  • 它不需要我们预先指定聚类的数量。

层次聚类的缺点

  • 它会破坏大型聚类。
  • 难以处理不同大小的聚类和凸形形状。
  • 它对噪声和异常值敏感。
  • 一旦完成,算法就无法更改或删除。