ACF 和 PCF

17 Mar 2025 | 4 分钟阅读

ACF 代表自相关,而 PACF 代表偏自相关。在我们深入细节之前,让我们先定义相关性,它存在于 ACF 和 PACF 中。

相关性是指两个变量或属性之间的联系。假设我们有两个属性要处理:体重和 BMI。如果我们将它们绘制成散点图,我们可以观察到 BMI 随着体重的增加而增加。那么我们可以得出结论,体重和 BMI 是相关的,或者具有高度相关性。

我们使用皮尔逊相关系数来评估这种关联,其范围从 -1 到 1。接近 1 的值表示强正相关,而接近 -1 的值表示负正相关。

但在时间序列分析中,我们经常需要处理单个特征。我们观察过去的数据以识别模式,然后利用这些模式来估计未来会发生什么。现在就到了 ACF 和 PACF。这两个词反映了单个特征值之间的相关性,而相关性是两个特征之间的。

ACF

现在让我们仔细看看 ACF。假设我们正在处理股票价格数据集。当前股票价格与过去股票价格之间的相关性被称为 ACF。ACF 表示它们之间关联的强度。

PACF

但是,如果两个不同时期的数据点之间的相关性被其他数据点改变了呢?这时 PACF 就来了。让我举个例子。

假设 t、t-1 和 t-2 分别是今天、昨天和前天的股票价格。现在,t 可以与 t-2 相关联,t-1 也可以。t-1 的 PACF 是在去除 t-2 的影响后,t 和 t-1 之间的真实相关性。

ACF 和 PACF 的应用

在机器学习中选择理想的模型是一个耗时的过程。尽管我们必须使用试错法来确定最佳模型,但如果我们可以预先预测哪个模型最适合我们的独特数据集,那会更好。

这时 ACF 和 PACF 就来了。它们主要用于选择自回归 (AR) 和移动平均 (MA) 模型。ACF 和 PACF 不仅帮助我们选择模型,还指示哪个滞后值表现最佳。

ACF 和 PACF 的用例

在使用 ACF 和 PACF 时,我们需要了解何时使用它们。

  • ACF: 如果我们使用移动平均模型,我们将使用 ACF 计算滞后值。ACF 图将包含一条表示显着性程度的水平阈值线。穿过这条水平线的垂直线形成有意义的关系,应该被使用。
  • PACF: PACF 将用于确定自回归模型的滞后值。选择过程与 ACF 相同。

现在我们将在冰淇淋生产上绘制 ACF 和 PACF

代码

导入库

读取数据集

EDA(探索性数据分析)

输出

ACF and PCF

输出

ACF and PCF

输出

ACF and PCF

输出

ACF and PCF

输出

ACF and PCF

输出

ACF and PCF

绘制数据

现在我们将绘制一段时间内冰淇淋生产的数据。

输出

ACF and PCF

ACF 图

输出

ACF and PCF

以下是我们需要从上图中观察到的内容

  • 为了观察长期效应,我们需要将“滞后”参数设置为更高的值。
  • “蓝色阴影区域”被称为“误差带”。误差带内的任何内容在统计上都不显著。

PACF 图

输出

ACF and PCF

以下是我们需要从上图中观察到的内容

  • 滞后 1 处有一个强滞后。由于它只是时间序列本身,所以它将始终是 1 2。
  • 基于 PACF,我们可以构建一个滞后值为 1、2、3、8 和 13 的自回归模型。