时间序列评估指标 - MAPE VS WMAPE VS SMAPE

2025年2月24日 | 6 分钟阅读

引言

评估时间序列的指标对于了解预测模型的准确性和成功程度至关重要。准确性指标在时间序列分析中通过评估模型预测未来事实的能力来提供有用的资源,从而指导选择和模型改进。根据模型在整个数据集上的表现,每个指标都提供了在天气预报、库存管理和金融等应用中有用的特定见解。

像平均绝对百分比误差 (MAPE)、加权平均绝对百分比误差 (WMAPE) 和对称平均绝对百分比误差 (SMAPE) 等关键指标衡量了预测值和实际值之间的差异。例如,MAPE 以易于理解的百分比形式提供了平均误差。但是,当实际值很小时,MAPE 可能会产生偏差,导致误差显得过大。WMAPE 通过根据实际值对误差进行加权来减小低成本因素的影响。为了更真实地反映高估和低估,SMAPE 在平均值中进行了误差标准化。

最佳指标取决于具体数据集和分析目标。通过比较 MAPE、WMAPE 和 SMAPE,分析师可以确定最合适的度量,从而提高模型对特定时间序列任务的相关性和准确性。

MAPE,即平均绝对百分比误差

平均绝对百分比误差 (MAPE) 是评估时间序列预测模型准确性的一种常用统计量。它通过计算预测值和实际值之间无条件百分比差异的平均值,提供了一种易于理解的预测误差相对术语的方法。

MAPE 的工作原理

MAPE 在计算每个预测的误差占实际数量的百分比后,对所有观测值的这些百分比进行平均。例如,5% 的 MAPE 表明平均预测误差为实际值的 5%,使其易于解释为相对指标。

MAPE 的优点

  • 易于解释:MAPE 提供了一种以百分比形式表示误差的直接方法。
  • 可比性:它使得比较不同尺度的数据集成为可能。

MAPE 的局限性

  • 除以零:如果实际值为 0 或非常接近 0,MAPE 可能会膨胀或未定义。
  • 对低值的敏感性:该度量可能被导致不成比例的大误差的小实际值所扭曲。
  • MAPE 最适用于实际值相对较大且尺度一致的数据集。

WMAPE,即加权平均绝对百分比误差

通过添加基于实际值的权重,加权平均绝对百分比误差 (WMAPE) 时间序列预测评估指标改进了 MAPE。这种变化减小了较小值对误差计算的不成比例的影响,这使得 WMAPE 对于具有大值范围的数据集特别有用。

WMAPE 的工作原理

在计算总绝对误差时,WMAPE 除以实际值总和,而不是按观测值范围进行平均。这种方法通过为与较大值相关的错误分配更大的权重,从而减少了对小成本数据点上误差的影响,这些误差可能否则会扭曲整体准确性。

WMAPE 的优点

  • 减小低值偏差:WMAPE 通过根据实际值总和对误差进行加权,减小了与低值相关的误差的影响。
  • 适用于各种数据集:WMAPE 适用于各种幅度的数据集,这使其适用于实际值非常高或非常低的情况。

WMAPE 的局限性

  • 对实际值幅度的依赖性:WMAPE 做出一个可能不受欢迎的假设,即较大值应对错误计算产生更大的影响。
  • WMAPE 为具有不同大小的数据集提供了更平衡的预测准确性评估,并且在 MAPE 可能受到低实际结果影响的情况下,它是一个灵活且有用的选择。

SMAPE 代表对称平均绝对百分比误差。

通过根据实际值和预测值对误差进行标准化,对称平均绝对百分比误差 (SMAPE) 评估度量(用于时间序列预测)克服了 MAPE 的一些缺点。由于这种“对称”方法,误差得到了更公平的对待,尤其是在实际值和预测值差异很大的情况下。

SMAPE 的工作原理

对于每个观测值,SMAPE 计算绝对误差,并将其除以预测值和实际值的平均值。为了提供一个从 0% 到 200% 的更平衡的不准确性测量,这个标准化阶段确保了该度量不太容易受到实际或预测数据中高值的影响。

SMAPE 的优点

  • 平衡的误差计算:SMAPE 使用实际值和预测值的平均值,减少了对高估或低估的偏差。
  • 适用于高方差数据:由于 SMAPE 提供了更一致的误差评估,因此它在实际值和预测值差异很大的情况下效果很好。

SMAPE 的局限性

  • 范围和可解释性:与普通 MAPE 相比,SMAPE 可能更难理解,因为它有 200% 的范围。
  • 零值处理:尽管 SMAPE 通常不太容易受到此问题的影响,但当实际值或预测值为 0 时,它仍然可能存在问题,就像 MAPE 一样。

MAPE、WMAPE 和 SMAPE 比较

  • 值大小敏感性
    • MAPE:直接从实际数字确定百分比误差。但是,它可能导致百分比误差膨胀,当实际值为零或非常低时,可能会扭曲结果。
    • 通过根据所有实际值的总和对误差进行加权,WMAPE 解决了对小的实际值的敏感性问题。因此,它受较低数字的影响较小,但可能会为较高数字的准确性提供更多权重。
    • SMAPE:通过将误差除以实际值和预测值的平均值,提供了一种更平衡的方法。虽然它仍然可能存在零值问题,但在实际值和预测值之间存在很大差异时,它的表现更好。
  • 可解释性和范围
    • MAPE:当值合理时,它们很容易读懂;但是,当由于实际值较低而出现极端错误时,它就会变得困难。MAPE 值范围从 0% 到无穷大。
    • WMAPE:尽管值也落在 0% 到无穷大之间,但它们通常更稳定,尤其是在数据集包含较小值时。
    • SMAPE:这种更对称的平均绝对误差,范围从 0% 到 200%,能够更好地处理高估和低估。但是,200% 的上限可能会使解释不太清晰。
  • 适用于各种数据类型
    • MAPE:最适合需要对百分比误差进行解释且实际值通常较高的数据集。
    • WMAPE:适用于商业环境,其中每个错误的相对重要性与实际值的数量成比例(例如销售预测),或适用于具有大值范围的数据集。
    • SMAPE:提供更独立于幅度的预测准确性评估,适用于实际值和预测值之间差异较大的数据集。
  • 实际场景
    • 对于一般预测,MAPE 经常被使用,尤其是在客户熟悉基于百分比的误差度量时。
    • WMAPE:经常用于销售、需求和库存预测,其中不同值可能具有不同的重要性。
    • SMAPE:适用于需要同等处理高估和低估的情况,尤其是在金融或经济预测中,当首选对称误差处理时。

总结

总之,MAPE、WMAPE 和 SMAPE 是时间序列预测的重要指标,每个指标根据数据集和分析目标都有其独特的优势。由于其易用性和在百分比方面的简单解释,MAPE 常用于一般预测场景。然而,它受到实际值非常低的情况下可能导致夸大误差和扭曲比较的限制。

WMAPE 是具有大值范围的数据集的推荐选择,因为它通过根据实际值总和对误差进行加权来解决此问题。在销售或销售预测等情况下,其中不同值具有更大的相关性,这种加权方法可以减少低成本不准确性的影响,并提供更切合实际的预测准确性表示。

SMAPE 通过其对称计算方法,根据实际值和预测值对误差进行标准化。SMAPE 在需要同等权衡高估和低估的情况(如金融或经济预测中存在大的数据波动时)特别有用,因为这种平衡有助于最大限度地减少偏差。

最终,数据集的特性和预测分析的具体需求决定了最佳度量。对于稳健的数据,MAPE 是最佳选择;对于具有不同尺度的,WMAPE;对于波动性数据集中的平衡误差度量,SMAPE。分析师可以通过了解这些度量的优点和缺点,来提高预测的准确性和相关性,并使模型评估与实际需求和结果相匹配。