变分贝叶斯高斯混合模型

2025年1月5日 | 阅读 5 分钟

在高斯混合模型中,我们假设数据被划分到不同的簇中,每个簇都由一个多元高斯分布描述,且这些分布相互独立。并且,特定簇中的每个数据点都服从该簇的多元高斯分布。为了在此类模型中对数据进行聚类,需要计算一个数据点属于某个特定簇的后验概率,给定观测到的数据。贝叶斯方法为此提供了一种近似计算的方法。然而,对于大型数据集,边际概率的计算可能会非常耗时。可以使用近似方法,因为它们可以减少问题中的计算量;只需要找到一个特定点最可能属于的簇。

使用变分贝叶斯推断方法是最好的近似技术之一。该过程使用了均场近似和KL散度等概念。

接下来的步骤将向您展示如何使用 Sklearn 应用变分贝叶斯推断到高斯混合模型。我们将使用可以从 Kaggle 获取的信用卡数据集。

  • BayesianGaussianMixture 类的两个主要参数是 covariance_type 和 n_components。
  • n_components 变量决定了给定数据集中最大的簇数量。
  • covariance_type 这个术语指的是应该使用的协方差参数的类型。

所有其他特征的详细信息在其文档中都有说明。

为了观察此参数如何影响聚类,在下面的步骤中,我们将为 covariance_type 参数调整所有可能的值,而 n_components 参数将固定为 5。

步骤 1:创建聚类模型并显示不同 covariance_type 值的聚类结果

a) covariance_type = 'tied'

{0,2,3,4}


Variational Bayesian Gaussian mixture

在记录和设备主数据中,通过混合多个高斯分布生成的数据,使用一种称为变分高斯混合模型 (VGMM) 的概率模型进行建模。它是传统高斯混合模型 (GMM) 的一个改进,它通过变分推断来估计模型的参数和隐藏变量。

在高斯混合模型中,假设观测到的数据是由多个高斯分布混合生成的,每个分布都有不同的方差和均值。簇分配,即指定每个数据点来自哪个高斯分布,是 GMM 中的潜在变量。

相反,变分推断是一种从更复杂的概率分布估计更简单的参数化概率分布的方法。在 VGMM 的背景下,变分推断用于近似模型参数(每个高斯分量的均值和方差)和潜在变量(簇分配)的后验分布。

VGMM 的核心思想是使用变分技术来优化潜在变量和模型参数的后验分布。通常,这涉及到构建一个变分分布族,并在该族中找到真实后验分布的最佳近似。优化过程的目标是,在给定数据的条件下,最大化模型似然的下界。

  • 当您拥有的数据比单个高斯分布更能用高斯分布的组合来解释时,VGMM 就派上用场了。
  • 通过使用变分推断,您可以快速准确地估计模型的参数和簇分配。
  • 这对于异常检测、密度估计和聚类等多种任务都很有用。
  • 具体如何实现和训练 VGMM 可能因您使用的软件库和框架以及您选择的特定变分族形式而异。
  • Scikit-Learn 和 TensorFlow 等流行库提供了处理高斯混合模型的工具,并且各种机器学习出版物提供了变分高斯混合模型的实现和教程。

变分推断

  • 变分推断是一类用于使用更简单的参数化分布来近似复杂概率分布的方法。
  • 它的目标是通过最小化 Kullback-Leibler 散度,来找到对潜在变量和模型参数的真实后验分布的最接近的近似。

带变分的 GMM (VGMM)

  • VGMM 使用变分推断来估计 GMM 的参数。
  • 此外,它还计算给定数据的潜在变量(即簇分配)的后验分布。
  • 核心思想是通过定义一个变分分布族并优化其参数来有效地近似后验分布。
  • 通常,优化过程涉及在有可用数据的情况下最大化模型似然的下界。

VGMM 的优势

  • 与标准的 GMM 相比,VGMM 的灵活性更高。它们可以捕捉更复杂的数据分布,而这些分布可能无法用单个高斯分布很好地描述。
  • 簇的数量(分量)可以从数据中自动推断出来,这克服了无监督学习中的一个常见障碍。

VGMM 训练

  • 通常,在训练 VGMM 时,我们会随机初始化参数和变分参数。
  • 然后使用期望最大化 (EM) 算法等方法迭代地优化变分参数和模型参数。
  • EM 算法的 E 步(期望)估计潜在变量的后验分布。而 M 步(最大化)涉及更新模型参数以最大化似然的下界。

应用

  • VGMM 可以应用于许多领域,例如异常检测、密度估计和聚类。
  • 它们还可以用于记录处理和图像分割等。
  • 您正在使用的软件库可能会影响 VGMM 实现的具体细节。

结论

总而言之,变分高斯混合模型 (VGMM) 是一种概率模型,它将变分推断的思想与高斯混合模型 (GMM) 相结合。当单个高斯分布不足以充分解释数据时,这种多功能且强大的工具在建模复杂数据分布方面特别有用。VGMM 使用变分推断来估计潜在变量(簇分配)和高斯分量的参数的后验分布。

VGMM 的主要优势在于它们在捕捉复杂数据分布方面的灵活性,它们能够自主确定簇的数量,以及它们在异常检测、密度估计和聚类等各种领域的应用。