数据挖掘中的基于网格的方法

2024年11月20日 | 阅读 6 分钟

我们可以使用基于网格的聚类方法对基于网格的数据结构进行多分辨率处理。它用于将对象的区域量化为有限数量的单元格,这些单元格存储在网格系统中,所有聚类操作都在其中实现。我们可以使用这种方法是因为它处理速度快,通常与数据对象的数量无关,只取决于量化空间中每个维度的多个单元格。

基于网格的方法的一个实例是STING,它探索存储在网格单元中的统计数据;WaveCluster,它使用小波变换方法对对象进行聚类;以及CLIQUE,它定义了一种用于高维数据空间中聚类的基于网格和基于密度的组合方法。

基于网格方法的基础

当我们处理具有多维特征的数据集时,我们需要基于网格的方法的帮助。此方法包括一些空间数据,如地理信息、图像数据或具有多个属性的数据集。如果我们划分这个数据空间,我们可以获得基于网格方法的各种优势。获得的一些优势如下。

  1. 数据分区
    这是一种聚类方法,它将所有信息分为许多组。这种分类基于数据的特征和相似性。借助数据分析,我们可以指定通过聚类方法生成的簇的数量。借助分区方法,数据可以被指定为用户指定的(K)分区,其中每个分区代表一个簇和一个特定区域。因此,许多算法都是借助数据分区方法生成的。这些算法是 K-Mean、PAM(K-Medoids)和 CLARA 算法(Clustering Large Applications)。
  2. 数据筛选
    我们可以在数据挖掘中使用这项技术,它用于减小数据集的大小,同时仍然保留最重要的信息。在需要高效处理的数据量过大的情况下,或者数据集包含大量不相关或冗余信息的情况下,我们使用数据缩减方法。
  3. 局部模式发现
    借助基于网格的方法,我们可以识别数据中的局部模式或趋势。我们可以分析单个单元格内的数据,尽管隐藏着模式和关系;整个数据集中的所有数据都可以被揭示出来。这对于查找数据中的局部现象尤其有价值。
  4. 可扩展性
    该方法以其可扩展性而闻名。我们可以处理大型数据集,这使得它在处理高维数据时特别有用。空间分区固有地降低了维度,简化了分析。
  5. 密度估计
    基于密度的聚类是指在模型构建和机器学习算法中最受欢迎的无监督学习方法之一。被两个低点密度簇分离的区域中的数据点被视为噪声。给定对象半径 ε 的周围被称为对象的 ε 邻域。如果对象的 ε 邻域包含至少最小数量的 MinPts 对象,则称其为核心对象。
  6. 聚类与分类
    基于网格的挖掘方法可以将实例空间划分为两种类型。然后,使用网格的单元格而不是单个数据点作为基本单元来应用聚类技术。这种方法最大的优点是提高了处理时间。
  7. 基于网格的索引
    我们可以使用基于网格的索引,它利用高效的数据访问和检索。这些结构根据网格分区组织数据,从而提高查询性能和检索速度。

流行的基于网格的方法

有很多流行的方法是基于网格的方法。它们如下。所有这些方法都有独特的优势和应用。下面我们将了解其中一些方法。

1. K-Means 聚类算法

这是一种用于学习和解决数据挖掘中聚类问题的无监督算法。这里,“K”表示创建不同过程的预定义簇的数量。如果 K 的值为 2,则有 2 个簇。如果 K 的值为 3,则有 3 个簇。借助它,我们可以将数据聚集成不同的组,并且可以发现一种便捷的方法,可以用来在没有训练的情况下自行对标记的数据集进行分组。

它也是一种基于质心的算法,其中每个簇都与一个质心相关联。该算法的主要目的是最小化数据点与其对应簇之间的距离之和。

此算法可以接受所有未标记的数据集,将这些数据集划分为 k 个簇,然后重复此过程,直到找到最佳簇。在此算法中,应预先确定 k 的值。

该算法主要执行两项工作。这两项工作如下。

  • 第一项工作是通过迭代过程确定 K 个中心点或质心的最佳值。
  • 第二项工作是将其分配给每个数据点到其最近的 k 个中心。那些靠近 K 中心的数据点会形成一个簇。

K-Means 算法如何工作?

该算法遵循一些步骤。这些步骤如下。

  • 步骤 1:此步骤选择 K 值以确定簇的数量。
  • 步骤 2:然后选择 K 个随机点或质心。(可以不是输入数据集中的点)。
  • 步骤 3:然后将数据点分配给其最近的质心,这将形成预定义的 K 个簇。
  • 步骤 4:然后,计算方差并将每个簇的新质心放置在那里。
  • 步骤 5:然后我们必须重复第三步,这意味着将每个数据点重新分配给每个簇的新最近质心。
  • 步骤 6:如果发生任何重新分配,则转到步骤 4。否则,转到“完成”。
  • 步骤 7:模型准备就绪。

2. DBSCAN(基于密度的具有噪声应用的聚类)

它是模型构建和机器学习算法中最受欢迎的无监督方法之一。在此区域中,被两个低点密度簇分离的数据集被视为噪声。该方法被给定对象的半径 ε 所包围,该半径 ε 被称为对象的 ε 邻域。如果对象的 ε 邻域包含至少最小数量的 MinPts 对象,则称其为核心对象。

基于密度的聚类 - 背景

计算基于密度的聚类使用两个主要参数。

  • EPS:它主要被视为邻域的最大半径。
  • MinPts:MinPts 指的是该点在 Eps 邻域中的最小点数。
  • NEps (i):{k 属于 D 且 dist (i, k) < = Eps}
  • 直接密度可达:点 i 被认为是从点 k 到 Eps、MinPts 直接密度可达,如果
    i 属于 NEps(k)
  • 核心点条件
    NEps (k) >= MinPts

3. STING(统计信息网格)

它也是一种基于网格的聚类技术。该技术用于多维网格数据结构,用于将空间量化为有限数量的单元格。此技术的主要因素是数据点周围的值空间。STING 的空间区域可以分为矩形单元格,并在不同分辨率级别上有多个级别的单元格。所有高级单元格都进一步划分为多个低级单元格。

STING 包含每个单元格中与属性相关的所有数据,例如平均值、最大值和最小值,这些都已预先计算并作为统计参数存储。这些统计参数对于查询处理和其他数据分析任务很有用。

STING 的工作原理

STING 的工作过程遵循几个步骤。它们如下。

  • 步骤 1:首先,我们必须确定一个层来开始这个过程。
  • 步骤 2:对于每个单元格,我们必须计算置信区间或估计的概率范围,该范围表示该单元格与查询相关。
  • 步骤 3:然后,我们必须根据计算出的区间将单元格标记为相关或不相关。
  • 步骤 4:如果当前层是底层,则转到第 6 点;否则,转到第 5 点。
  • 步骤 5:它向下移动一个层级结构。对于构成高层相关单元格的那些单元格,转到第 2 点。
  • 步骤 6:如果满足查询所需的规范,则转到第 8 点;否则,转到第 7 点。
  • 步骤 7:我们必须检索落入相关单元格的数据并进行进一步处理。返回满足查询要求的结果。转到第 9 点。
  • 步骤 8:查找相关单元格的区域。返回满足查询要求的区域。转到第 9 点。
  • 步骤 9:停止或终止。