数据挖掘中的基于密度的聚类

2025年3月17日 | 阅读 3 分钟

基于密度的聚类是指基于局部聚类准则的方法,例如密度连接点。在本教程中,我们将通过示例讨论基于密度的聚类。

什么是基于密度的聚类?

基于密度的聚类是指在模型构建和机器学习算法中最流行的无监督学习方法之一。由低点密度分隔的区域中的数据点被视为噪声。给定对象的半径 ε 范围内的环境称为该对象的 ε 邻域。如果对象的 ε 邻域包含至少最小数量 MinPts 的对象,则称其为核心对象。

基于密度的聚类 - 背景

有两个不同的参数来计算基于密度的聚类

EPS:它被认为是邻域的最大半径。

MinPts:MinPts 指的是该点在 Eps 邻域中的最少点数。

NEps (i) : { k 属于 D 且 dist (i,k) < = Eps}

直接密度可达

如果满足以下条件,则点 i 被视为相对于 Eps, MinPts 从点 k 直接密度可达:

i 属于 NEps(k)

核心点条件

NEps (k) >= MinPts

Density-based clustering in data mining

密度可达

如果存在点 i1,…., in, i1 = j, pn = i 的序列链,使得 ii + 1 从 ii 直接密度可达,则点 i 被标记为相对于 Eps, MinPts 从点 j 密度可达。

Density-based clustering in data mining

密度连接

如果存在点 o 使得 i 和 j 都被认为相对于 Eps, MinPts 从 o 密度可达,则点 i 指的是相对于 Eps, MinPts 密度连接到点 j。

Density-based clustering in data mining

基于密度的聚类的工作原理

假设一组对象由 D' 表示,我们只能说对象 I 仅当它位于 j 的 ε 邻域内并且 j 是核心对象时,才能从对象 j 直接密度可达。

仅当对象链点 i1,…., in, i1 = j, pn = i 存在,使得 ii + 1 相对于 ε 和 MinPts 从 ii 直接密度可达时,对象 i 才相对于 ε 和 MinPts 在给定对象集 D' 中从对象 j 密度可达。

仅当存在属于 D 的对象 o 使得点 i 和 j 都相对于 ε 和 MinPts 从 o 密度可达时,对象 i 才相对于 ε 和 MinPts 在给定的对象集 D' 中密度连接对象 j。

基于密度的聚类的主要特征

下面给出了基于密度的聚类的主要特征。

  • 这是一种扫描方法。
  • 它需要密度参数作为终止条件。
  • 它用于管理数据簇中的噪声。
  • 基于密度的聚类用于识别任意大小的簇。

基于密度的聚类方法

DBSCAN

DBSCAN 代表具有噪声的应用的基于密度的空间聚类。它依赖于基于密度的簇的概念。它还在空间数据库中识别任意大小的聚类,包括异常值。

Density-based clustering in data mining

OPTICS

OPTICS 代表用于识别聚类结构的排序点。它根据其基于密度的聚类结构给出了数据库的显着顺序。聚类的顺序包含与长范围参数设置相关的基于密度的聚类相关的信息。OPTICS 方法对自动和交互式聚类分析都有好处,包括确定固有的聚类结构。

DENCLUE

Hinnebirg 和 Kiem 的基于密度的聚类。它允许对高维数据状态中任意形状的聚类进行紧凑的数学描述,并且它适用于具有大量噪声的数据集。