鲁棒协方差估计

2024年8月28日 | 阅读 4 分钟

在这些充满挑战的环境下,鲁棒协方差估计方法试图提供更准确的估计。

几种流行的鲁棒协方差估计技术如下

最小协方差行列式 (MCD)

  • 为了降低其对异常值的敏感性,MCD 是一种受欢迎的鲁棒协方差估计器,应用于数据的一个子集。
  • “最小行列式”观察集是减小协方差矩阵行列式的观察集。

协方差的鲁棒估计量 (REW)

  • 另一种估计协方差矩阵的可靠技术是 REW,它降低了异常值的影响。
  • 根据观察值与中心的距离,迭代地对数据进行重新加权,赋予偏离大多数的观察值较低的权重。

收缩估计器

  • 当样本量有限或存在异常值时,收缩估计器使用结构化的收缩目标和样本协方差矩阵来改进估计。
  • 两种类型的收缩估计器是 Ledoit-Wolf 收缩和 Oracle Approximating Shrinkage (OAS)。

Huber 的 M-估计

  • 一种可靠估计的常用技术是 Huber 的 M-估计。它涉及最小化一个在分布的均值和中位数之间取得平衡的损失函数。
  • 与样本协方差矩阵中使用的平方损失相比,Huber 损失函数对异常值的敏感性较低。

椭圆包络

  • 一种将高维椭圆拟合到数据的方法是使用椭圆包络。
  • 由于它能够近似大多数数据的形状,因此该椭圆可以作为可靠的近似并抵抗异常值。

这些技术在各种领域都有用,包括金融(非正态性和异常值很常见),以及计算机视觉或图像处理(鲁棒协方差估计用于降噪和异常值剔除)。具体的研究目标和数据特性将决定哪种方法是最佳的。

当然,让我们更详细地研究一些鲁棒协方差估计技术

1. 最小协方差行列式 (MCD)

目的

  • 选择一个数据集以最小化协方差矩阵的行列式。

方法

  • 考虑到给定数据集,所有可行的观察集都被纳入考虑范围。
  • 鲁棒估计是从协方差矩阵行列式最低的子集中选择的。

优点

  • 在定位和减少异常值的重要性方面很有效。
  • 适用于受污染(充满异常值)的数据集。

局限性

  • 对第一个子集的选择敏感。
  • 它可能只在数据中有少数异常值时才有效。

2. 协方差的鲁棒估计量 (REW)

目的

  • 估计协方差时降低异常值的影响。

方法

  • 根据观察值与预测中心的距离,迭代地重新加权观察值。

优点

  • 对异常值鲁棒。
  • 趋于稳定结论。

局限性

  • 比某些替代技术计算量更大。

3. 收缩估计器

目的

  • 将结构化收缩目标与样本协方差矩阵集成。

方法

  • 将样本协方差矩阵简化为更结构化的形式(例如单位矩阵或对角矩阵)。
  • 正则化参数和样本大小都会影响收缩量。

优点

  • 在样本量较小的情况下,效果更好。
  • 减少异常值的影响。

局限性

  • 需要选择一个收缩参数,这可能需要仔细调整。

4. Huber 的 M-估计

目的

  • 最小化一个介于中位数和均值之间的损失函数。

方法

  • 使用的损失函数是 Huber 函数,它在小偏差时表现出类似均值的行为,在大偏差时表现出类似中位数的行为。

优点

  • 对异常值鲁棒。
  • 在基于均值和基于中位数的估计器之间提供了一个中间选项。

局限性

  • 鲁棒性受调优参数 (delta) 选择的影响。

5. 椭圆包络

目的

  • 利用数据拟合高维椭圆。

方法

  • 假设大多数数据遵循多元正态分布。
  • 通过估计其形状和位置,使椭圆对异常值鲁棒。

优点

  • 有利于识别高维空间中的异常值。
  • 提供数据形状的可靠近似。

局限性

  • 对多元正态性假设的变化敏感。

实际上,鲁棒协方差估计技术的选择取决于数据的特征、异常值的存在以及检查的特定目标。比较多种方法在给定数据集上的性能并选择最符合分析要求的方法是一种常见做法。

结论

总之,强协方差估计方法对于统计分析至关重要,特别是在处理可能包含异常值、非正态性或其他偏离常态的数据时。极端观测值可能对标准的样本协方差矩阵产生重大影响,从而导致对潜在协方差结构的错误估计。在这些情况下,鲁棒方法提供了更可靠的选择。

本文介绍的每种技术,包括 Huber 的 M-估计、椭圆包络、协方差的鲁棒估计量 (REW)、收缩估计器和最小协方差行列式 (MCD),都有其自身的优点和缺点。数据特性和分析目标决定了哪种方法是最佳的。

在选择鲁棒协方差估计方法时,研究人员和实践者应仔细评估其数据集的特征、异常值的频率和处理需求。此外,为了确定哪种策略能够为特定应用提供最精确和最可靠的协方差估计,通常可以通过在特定数据集上评估各种方法的性能来达到。

强协方差估计在数据驱动的应用(如计算机视觉和图像处理)以及金融等领域(其中经常遇到异常值)中特别有用。即使在困难的环境下,分析师也可以通过实施这些具有韧性的策略,从他们的数据中提取更可靠和准确的见解。


下一主题谱系双聚类