数据挖掘中的层次聚类2025年3月17日 | 阅读 3 分钟 层次聚类是指一种无监督学习过程,它根据先前定义的聚类确定连续的聚类。它通过将数据分组为聚类树来工作。层次聚类首先将每个数据点视为一个单独的聚类。端点是指一组不同的聚类,其中每个聚类与其他聚类不同,并且每个聚类中的对象彼此相同。 层次聚类有两种类型
凝聚层次聚类凝聚聚类是用于将相似对象分组到聚类中的最常见的层次聚类类型之一。凝聚聚类也称为 AGNES(凝聚嵌套)。在凝聚聚类中,每个数据点都充当一个单独的聚类,并且在每个步骤中,数据对象都以自底向上的方法分组。最初,每个数据对象都在其自己的聚类中。在每次迭代中,聚类与其他聚类合并,直到形成一个聚类。 凝聚层次聚类算法
让我们借助使用树状图的图形表示来理解这个概念。 借助给定的演示,我们可以理解实际算法是如何工作的。这里没有进行计算,下面假设所有聚类之间的邻近度。 假设我们有六个不同的数据点 P、Q、R、S、T、V。 ![]() 步骤 1 将每个字母(P、Q、R、S、T、V)视为一个单独的聚类,并找到单个聚类与所有其他聚类之间的距离。 步骤 2 现在,将可比较的聚类合并到一个聚类中。 假设聚类 Q 和聚类 R 彼此相似,因此我们可以在第二步将它们合并。 最后,我们得到聚类 [ (P), (QR), (ST), (V)] 步骤 3 在这里,我们根据算法重新计算邻近度,并将两个最接近的聚类 [(ST), (V)] 组合在一起,形成新的聚类 [(P), (QR), (STV)] 步骤 4 重复相同的过程。 聚类 STV 和 PQ 具有可比性,并组合在一起形成一个新的聚类。 现在我们有 [(P), (QQRSTV)]。 步骤 5 最后,剩下的两个聚类合并在一起,形成一个单独的聚类 [(PQRSTV)] 分裂层次聚类分裂层次聚类与凝聚层次聚类完全相反。在分裂层次聚类中,所有数据点都被视为一个单独的聚类,并且在每次迭代中,不相似的数据点会从聚类中分离出来。分离的数据点被视为一个单独的聚类。最后,我们剩下 N 个聚类。 ![]() 层次聚类的优点
层次聚类的缺点
下一个主题数据挖掘中的基于密度的聚类 |
我们请求您订阅我们的新闻通讯以获取最新更新。