聚类算法的评估指标

17 Mar 2025 | 6 分钟阅读

在数据分析和机器学习中，聚类是一种基本方法，用于发现数据集中的潜在模式和结构。然而，评估聚类算法的有效性并非总是易事。由于有如此多的不同算法可供选择，每种算法都有其优缺点，因此使用正确的评估指标来准确衡量每种算法的有效性变得至关重要。

本文将简要介绍不同的聚类算法评估指标及其用途和优点。

什么是聚类？

聚类是一种无监督学习技术，它将给定的数据集点划分为若干个组或簇。这些组是通过比较和对比数据点而创建的。目标是将数据分组为有意义的簇，以突出潜在的趋势并将原始数据中的无价值信息转化为有价值信息。

聚类的目标是将数据点或总体进行分组，使得同一组中的数据点彼此之间更相似，而不同组中的数据点则不相似。

聚类在各种领域都有应用。这些领域包括：

机器学习：识别未标记数据中的潜在模式，例如在图像识别或客户细分中。
数据分析：将相似的客户、商品或交易分组以进行进一步分析。
生物信息学：对各种细胞类型进行分类或识别具有相似活动的基因。

存在许多聚类技术，每种技术都有其独特的优点和缺点。哪种算法最适合您，将取决于您的数据集的具体情况以及您期望的结果。

评估指标的重要性

评估指标用作评估聚类结果质量的基准。它们使我们能够衡量簇与数据的匹配程度，并阐明各种聚类策略的优缺点。通过选择相关的评估指标，数据科学家和分析师可以选择最佳算法并调整其设置以获得最佳性能。

分析指标对于评估设备学习模型的性能至关重要。现在，让我们探讨一下它的含义。

量化评估：评估标准为确定统计模型或设备学习模型的有效性提供了独立的方法。还可以提供选择模型和改进超参数的指南。量化性能允许我们比较不同的模型或方法。
理解模型的性能：这有助于设定用于评估模型预测和模型可行性的标准。这需要有关模型样本外准确性或其在未知数据上表现如何的信息。
选择正确的指标：程序需要特定的指标。正确测试已发现模型的一项关键是了解要应用的指标。选择取决于数据的类型、问题的领域和期望的结果。

聚类评估指标

以下是一些用于聚类算法的评估指标：

轮廓系数 (Silhouette Score)

轮廓系数是一个常用的统计量，用于评估簇的同质性和分离度。它为每个样本计算平均轮廓系数，定义为样本与同一簇中其他点之间的平均距离（a(i)）与样本与最近的另一个簇中的点之间的平均距离（b(i)）之差，再除以这两个距离中较大的一个。更高的轮廓系数表明簇之间分离得更好，簇更紧密，表明聚类效果良好。轮廓系数用于衡量一个簇内数据点之间的相似性以及它们与其他簇数据点的差异性。

轮廓系数的数学公式为：

Evaluation Metrics for Clustering Algorithms

其中，(a(i)) 表示数据点 (i) 到同一簇中其他点的平均距离，而 (b(i)) 是数据点 (i) 到不同簇中的点的最小平均距离。

戴维斯-博尔丁指数 (Davies-Bouldin Index)

戴维斯-博尔丁指数用于确定簇点与簇中心点的距离，以衡量簇的分布和分离程度。戴维斯-博尔丁指数越低，簇越强且越明显，这被认为是良好的聚类。该指数评估每个簇与其最相似邻居的平均相似度，同时考虑了簇之间的距离和簇的同质性。

戴维斯-博尔丁指数由每个簇与其最近邻簇的平均相似度确定。这同时考虑了簇之间的距离和它们的同质性。

戴维斯-博尔丁指数的数学公式：

Calinski-Harabasz 指数 (Calinski-Harabasz Index)

Calinski-Harabasz 指数，有时也称为方差比尺度，使用组内和组间离差系数来评估聚类效果，指数越高表示分离度和簇的紧密度越好，表明聚类能力更强。

CH 指数衡量组内差异和组间差异。簇之间的距离取决于每个簇的准确性，并控制着簇的质量。

Calinski-Harabasz 指数的数学公式为：

其中，(B) 是簇间平方和，(W) 是簇内平方和，(N) 是总数据点数，(K) 是簇的数量。

Dunn 指数 (Dunn Index)

通过比较最小簇间距离与最大簇内距离，Dunn 指数计算簇的紧密度和分离度。Dunn 指数越高，表示聚类效果越好，簇越紧密，簇间分离度越高。

DI 寻找具有两种期望特征的簇集：

紧密度：组成成员之间差异很小的簇。
分离度：与簇内变化相比，簇之间的距离适当的簇被认为是分离良好的。

DI 量化了簇内和簇间距离的权衡。它考虑了不同簇中的数据点之间的最小距离以及一个簇内数据点之间的最大距离。DI 值越高，聚类解决方案越好。

DI 的数学公式：

假设 (C_i) 是一个簇向量。我们为分配到同一个簇 (C_i) 的任意两个 n 维特征向量定义了三种距离度量：

(d(x, y)): 最大距离（Dunn 使用）。
(d_{\text{mean}}(x, y)): 所有对之间的平均距离。
(d_{\text{centroid}}(x, y)): 每个数据点到簇质心的距离。
簇间距离度量 (d(C_i, C_j)) 可以是上述任何一种公式。

对于具有 (m) 个簇的簇集，Dunn 指数定义为：

[ \text{DI} = \frac{\min_{1 \leq i < j \leq m} d(C_i, C_j)}{\max_{1 \leq k \leq m} d_{\text{intra}}(C_k)} ]

调整兰德指数 (Adjusted Rand Index - ARI)

调整兰德指数通过考虑在真实聚类和预测聚类中分配到相同或不同簇的样本对的数量来评估两个聚类之间的相似性。接近 1 的分数表示完美的聚类一致性。该值在 -1 到 1 之间变化。

ARI 将真实类标签与预测的簇标签进行比较。它衡量簇与实际类标签匹配的程度。

ARI 的数学公式为：

其中，(\text{RI}) 是兰德指数，(\text{Expected_RI}) 是兰德指数的期望值。

归一化互信息 (Normalized Mutual Information - NMI)

归一化互信息通过两个聚类的平均熵来归一化真实聚类和预测聚类之间的互信息。其值介于 0 和 1 之间，其中 1 表示簇之间完全一致。

NMI 是通过对互信息 (MI) 分数进行归一化得出的。结果的范围从 0（无互信息）到 1（完全相关）。NMI 用于衡量两个聚类之间的相似性。

NMI 的数学公式为：

给定两个聚类：

(C_{\text{true}}): 真实标签或地面真实。
(C_{\text{pred}}): 来自聚类算法的预测标签。

NMI 的计算方法如下：[ \text{NMI} = \frac{\text{MI}(C_{\text{true}}, C_{\text{pred}})}{\sqrt{H(C_{\text{true}}) \cdot H(C_{\text{pred}})}} ]

其中

(\text{MI}) 表示互信息。
(H) 表示熵。

NMI 的范围从 0 到 1，其中 1 表示完全一致。

结论

在评估聚类算法的有效性时，评估指标的选择至关重要。通过理解和有效应用这些指标，数据分析师和机器学习专业人员可以获得对聚类结果质量的重要见解，并在为不同应用选择和优化聚类算法时做出明智的决策。选择合适的评估指标时，考虑聚类任务的具体情况很重要，因为不同的指标在不同情况下可能效果更好。最终，通过识别重要模式和结构，强大的评估指标的应用使从业者能够从他们的数据中得出结论和可操作的见解。

下一个主题青蛙跳跃算法

聚类算法的评估指标

什么是聚类？

评估指标的重要性