聚类概述

2025年1月5日 | 阅读8分钟

聚类是最有益的无监督机器学习技术之一。利用这些技术,可以发现具有相似性和关联模式的数据样本,然后根据共享的特征将这些样本聚类成组。

由于聚类能够确定当前未标记数据中的固有分组,因此它非常重要。为了确定什么是相似性,它们对数据点做出假设。每一个假设都会产生不同的但同样有效的数据簇。

簇形成技术

簇形成不必呈球形。以下是一些额外的簇形成技术:

基于密度

这些技术将簇生成为密集区域。这些技术具有准确且能够合并两个簇的优点。例如,OPTICS(Ordering Points To Identify Clustering Structure)、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等。

基于层次

基于层次,这些方法将簇创建成树状结构。聚集式(自下而上策略)和分裂式(自上而下方法)是它们的两个类型。例如,BIRCH(Balanced Iterative Reducing Clustering using Hierarchies)、CURE(Clustering Using Representatives)等。

分割

通过将对象划分为 k 个簇,使用这些方法创建簇。分割的数量和簇的数量将相等。例如,K-means,CLARANS(Clustering Large Applications using Randomised Search)。

网格

这些技术将簇形成网格状结构。这些方法具有速度快且在基于这些网格进行聚类时独立于数据对象数量的优点。例如,Quest 的聚类功能(CLIQUE)和统计信息网格(STING)。

评估聚类效果

评估机器学习模型的性能或质量是需要考虑的最重要因素之一。在监督学习算法的情况下,由于我们已经为每个样本提供了标签,因此评估模型质量非常简单。

然而,由于无监督学习方法涉及未标记数据,我们在这一方面就不那么幸运了。但是,仍然存在一些指标可以为实践者提供有关基于算法的簇如何变化的有关信息。

在深入研究这些度量之前,需要认识到它们实际上并不衡量模型预测的准确性;相反,它们只是评估模型之间的相对性能。下面列出的度量可用于聚类方法来衡量模型的质量:

轮廓分析

通过计算簇之间的距离,轮廓分析用于评估聚类模型的质量。本质上,它为我们提供了一种使用轮廓分数来评估参数(如簇的数量)的方法。该分数指示每个簇中的点与其相邻簇中的点的接近程度。

机器学习聚类算法类型

最重要和实用的机器学习聚类技术如下:

均值漂移技术

这是另一种强大的无监督学习聚类方法。它是一种非参数算法,与 K-means 聚类相比,它不做任何假设。

层次聚类

这是另一种无监督学习方法,用于聚类具有相似属性的未标记数据点。

聚类应用

以下是一些聚类有用的情况:

数据摘要和压缩 - 在需要数据降维、摘要和压缩的领域,聚类是一种常用的技术。矢量量化和图像处理是两个例子。

协同系统和消费者细分 - 聚类可应用于协同系统和客户细分领域,因为它可以用于识别相似的物品或用户。

它作为其他数据挖掘任务的关键中间阶段:由于聚类分析可以为测试、分类和假设创建提供数据的精炼摘要,因此它也作为其他数据挖掘任务的关键中间步骤。

作为一种无监督学习方法,聚类涉及将相似的数据点组合成子组或簇。信息必须被划分,使得一个簇中的点比其他簇中的点更强烈地相互对应。有几种聚类方法,每种都有其优点、风险和实际应用。以下是几种常见聚类方法的概述:

1. K-Means 聚类

该聚类技术计算质心,然后进行迭代直到达到理想的质心。假设簇的数量是预先已知的。它也被称为扁平聚类算法。在 K-means 中,字母“K”代表算法能够从数据中识别出的簇的数量。

初始化方法

结果可能因选择的初始质心簇而异。使用另一个算法的结果,例如初始质心、K-Means++ 或随机初始化,是常用初始化技术的一个例子。

肘部法则

绘制平方距离之和(惯性)与不同 k 值之间的关系图,是确定理想簇数量 (k) 的常用方法。“肘部”曲线通常是确定正确簇数量的可靠指南。

算法:一种迭代过程,根据平均特征值将数据点划分为 k 个簇。

优点:简单、计算效率高、易于实现。

缺点:假设簇大小均等且呈球形,并且对原始簇中心敏感。

2. 层次聚类

树状图

层次聚类创建的树状结构——树状图显示了组的序列和分隔。树状图的分支高度可以作为簇之间分隔的表示。

连接方法

在聚集过程中,簇之间的距离通常可以通过三种流行的方法来确定:单链接、全链接和平均链接。它们可能会影响最终簇的形状和属性。

算法:使用聚集或分裂方法创建簇的自上而下或自下而上的树状结构。

优点:它提供了可视化的层次结构表示;无需预先确定簇的数量。

缺点:对噪声和异常值敏感,对于大型数据集计算成本高。

3. DBSCAN (基于密度的噪声应用空间聚类)

核心思想、边界思想和干扰

DBSCAN 将数据点分类为噪声点(孤立点)、边界点(簇边界)和核心点(密集区域)。ε(半径)参数和最小点数会影响算法的性能。

MinPts 和 EPS

调整最小点数(MinPts)和 ε(EPS)值至关重要。MinPts 确定了形成密集区域所需的最小点数,而 EPS 指定了搜索邻近点的半径。

该算法根据数据点的密集区域区分稀疏区域(被视为噪声)和簇。

优点:对异常值具有抵抗力,并且能够找到任意形状的簇。

缺点:可能难以处理不同密度的簇;对密度参数设置敏感。

4. 均值漂移

软分配

GMM 为每个数据点分配属于每个簇的概率,从而为簇分配概率软分配。当簇之间的边界不清晰时,这可能是有利的。

期望最大化 (EM)

GMM 使用 EM 方法迭代更新簇参数。它涉及在“期望”步骤中计算概率,并在“最大化”步骤中更新参数以最大化数据的似然性。

该算法迭代地将数据点移动到数据密度分布的模式(峰值)。

优点:可以找到不同大小和形状的簇;无需定义簇的数量。

缺点:计算成本高且对带宽参数敏感。

5. 聚集聚类

图的表示

通过谱聚类将数据转换为图表示,其中节点代表数据点,边代表成对关联。然后,使用图的谱特征进行聚类。

特征值和特征向量

为了执行谱聚类,必须计算图拉普拉斯矩阵的特征值和特征向量。为了获得最终的簇,低维特征向量经过 k-means 方法处理。

算法:一种基于距离的层次聚类技术,从单个数据点开始并将其合并。

优点:提供簇的层次结构,并且无需定义簇的数量。

缺点:对连接方法敏感;对于大型数据集计算成本高。

6. 高斯混合模型 (GMM)

算法:假设数据是从多个高斯分布的组合中获得的。

优点:提供概率聚类分配,并且在处理不同形状的簇方面具有适应性。

缺点:与 K-means 相比,它需要更多的计算能力,并且对所选组件的数量敏感。

7. 谱聚类

算法:使用数据点之间相似性矩阵的谱特征对数据点进行聚类。

优点:无论簇的形状如何,它都能捕捉到复杂的簇结构。

缺点:可能需要参数调整;计算成本高。

8. OPTICS(Ordering Points To Determine the Clustering Structure,排序点以确定聚类结构)

可达性图

OPTICS 生成的可达性图显示了每个数据点的可达距离。具有峰谷的图显示了簇的位置,该技术提供了一种可自定义的方法,可根据用户指定的参数提取簇。

Xi 和 MinPts

与 DBSCAN 类似,OPTICS 使用 MinPts 和 Xi(可达距离)等度量来定义簇。这些检测到的特征影响簇结构的粒度。

该算法与 DBSCAN 类似,但它生成了说明基于密度的聚类结构的张可达性图。

优点:提供分层聚类结构,并且对不同密度的簇具有鲁棒性。

缺点:计算复杂性和参数敏感性。

选择合适的聚类技术取决于数据的类型、潜在的假设以及研究目标。尝试几种不同的方法并使用验证指标和领域专业知识评估每种方法的性能通常是一个好主意。

其他记录有助于更深入地理解每种聚类策略的细微差别和内部工作原理。在选择聚类技术时,考虑数据的特性、每种规则的潜在假设以及观察者的具体目标至关重要。通过相关的度量进行实验和验证,以确定哪种策略最适合您的特定用例至关重要。

结论

总之,聚类技术对无监督学习至关重要,因为它们通过将相似的数据点分组来识别数据集中隐藏的结构和模式。数据的类型、所需的簇的属性以及分析目标都会影响聚类技术的选择。

实际上,尝试不同的聚类技术并使用合适的评估标准来对比结果通常是有益的。领域专业知识以及对数据特性的了解也有助于选择最佳算法。

聚类作为一种灵活的工具,可在许多不同领域中使用,例如异常检测、模式识别、图像分割和客户细分。随着机器学习的发展,可能会出现新的聚类方法,为揭示各种数据集中的隐藏模式提供更强大的功能。