数据漂移检测的重要性

2025年4月2日 | 阅读9分钟

任何机器学习模型的基本假设是训练数据能够代表真实世界的数据。但模型投入生产后,如何验证这个假设呢?数据漂移会影响模型的性能,它可能由多种原因引起。此外,当检测到漂移时,您就会意识到模型正在一个新的环境中运行,是时候采取干预措施了。接下来的步骤是检查一系列变量,例如漂移的幅度,它是否应该引起您更多的担忧,以及您应该多久检查一次数据中的漂移。

什么是模型监控?

Importance of Data Drift Detection

模型监控是任何机器学习过程中最重要的阶段。一旦模型被部署到生产环境中,密切关注模型以跟踪其成功至关重要。为了交付具有出色性能的高质量产品,它使您能够识别和消除一系列问题,例如泛化不足、参数随时间波动和预测能力差。合适的模型观测对现实世界的应用有重大影响。

在模型监控中,漂移是什么意思?

设想这样一种情况:您在几个月前基于最新数据开发了一个模型,但现在情况发生了变化,数据也发生了重大进展,一切都变了。现在,您的模型会如何表现?成功率会和几个月前一样吗?

让我们对模型漂移给出正确的定义,因为这种情况就是其中的一个例子。

当您模型的性能因数据输入和输出变量之间不断变化的关联性而下降时,这被称为模型漂移。最终用户经常会注意到它,它也被称为模型性能下降。

让我们检查两种主要的漂移类别

概念漂移

它描述了因变量之间的关系如何随时间变化,即模型的输入 (X) 和输出 (Y) 如何变化,以至于即使输入数据相同,结果也不再可接受。例如,由于房屋价值随时间上涨是有道理的,因此一个根据大小和位置等因素预测房价的模型最终会失效。因此,几年后,同一栋房子(相同的输入)将具有不同的价格(不同的输出)。

数据漂移

它表明训练好的模型不再适用于新数据,因为输入数据的统计分布已发生变化。在处理新的数据区域时,它的用处大大降低,尽管它可能仍然在与旧数据相似的数据上运行。例如,您的语音识别系统模型会将用户的语音转换为文字记录。您发现当系统的声学特性发生变化时,模型的性能开始下降。这种输入数据(音频)的变化可能由许多因素引起,例如语言随时间的推移、用户采用新的缩写、来自不同国家的用户使用该应用程序等等。

这两种漂移的区别如下

Importance of Data Drift Detection

概念漂移是指目标变量的统计特征试图以不可预测的方式随时间变化。这会带来问题,因为预测会随着时间的推移变得不那么准确。

这种情况会随着时间的推移对任何组织的业务流程产生不利影响。组织会控制和跟踪机器学习模型的性能以防止这种情况。您可以使用它来监控您的指标并识别数据一致性中的任何偏差。此外,它还有助于确定哪些业务指标受到模型漂移的影响。

监控数据漂移的重要性

让您的模型了解训练它所需的所有不同类型的数据具有挑战性。在机器学习生命周期中涉及的各种数据相关过程中,有些数据可能会受到影响,有些可能会损坏,有些可能会不完整。数据质量总会存在一些问题,这些问题目前可能不会影响您的预测,但会影响基于新数据的未来预测。这表明您的模型不安全,因此跟踪数据漂移至关重要。

通过管理漂移并自动化使用新数据重新训练模型的流程,您可以防止出现有偏差的预测并产生公平的结果,从而确保您的模型在生产中表现良好。在某些情况下,手动干预也可能是有益的。为了成功有效地将模型部署到生产环境,可以进一步优化这些流程。

忽略漂移的后果

我们已经谈到了跟踪数据漂移的重要性,但如果您的工程团队未能及时发现它,并且在过程中忽略了漂移检测,会怎么样?在这种情况下,您的模型将产生不准确的预测,这将导致您基于模型结果的业务决策走向错误的方向,并对您的公司产生不利影响。例如,不准确的股票预测可能会大大降低您的投资组合价值。如果您做出错误的股票预测,您可能会损失数百万美元。

未能及时解决漂移的后果取决于数据漂移的类型和程度。使用新数据重新训练模型可以处理简单的数据漂移事件,但在最坏的情况下,您可能需要从头开始。后者将消耗您大量的时间和精力。

因此,拥有一个一致的程序来检测数据漂移,建立一个漂移百分比阈值,并配置警报以便您能够及时采取必要的行动至关重要。

如何找到漂移?

任何负责维护生产模型的数据科学家或机器学习工程师都必须密切监控并比较当前流量与基线。如果在检测到任何漂移,下一步是找出导致漂移的特征。如果输入特征的漂移很大,但它对模型的输出影响不大,这可能不会影响模型的输出。这种情况的另一个名称是虚假漂移。

为了找到明显的数据漂移,您可以使用

  • 依赖错误率来识别漂移的顺序分析技术包括 DDM(漂移检测方法)和 EDDM(早期 DDM)。
  • 用于漂移检测的基于模型的技术,它们利用独特的模型。
  • 基于时间分布的技术,它们利用统计距离计算技术来检测概率分布中的漂移。

其他广泛使用的统计技术包括 Wasserstein 度量、Earth Mover 距离、Jenson-Shannon 或 JS 散度、Kolmogorov-Smirnov 检验或 KS 检验、Kullback-Leiber 或 KL 散度以及 Population Stability Index。

我们将简要介绍每种方法。

数据漂移检测方法

对于机器学习专家来说,选择不正确的技术来识别漂移可能会变得乏味。以下是此过程中使用的一些算法。

Importance of Data Drift Detection

Population Stability Index (PSI)

PSI 比较了训练数据中的预测概率分布和当前数据中的预期概率分布。简单来说,它将测试数据集中的目标变量分布汇总到用于构建模型的训练数据集中。

  • 计算步骤如下
  • 应按降序对训练数据进行排序。
  • 将训练和测试数据集分成 10-20 个小桶。
  • 使用训练数据的该列的最小值和最大值,确定每个桶的边界值。
  • 对于预期和实际数据集,确定每个桶中观测值的比例。
  • 使用以下公式计算 PSI

Kolmogorov-Smirnov Test

此非参数检验比较训练数据集和训练后数据集的累积分布。它比其他检验要复杂一些,但它允许您找到其他方法无法发现的模式。该检验的原假设是两个数据集的数据分布相同。

其中,

  • n 个样本的先前数据的经验分布函数表示为 F1,n(x)。
  • F2,m(x) = m 个样本的新数据的经验分布函数
  • 最大化 |F1,n(x) - F2,m(x)| 的样本子集 x 称为 supx。

Kullback-Leibler 散度

Kullback-Leibler 散度的另一个名称是相对熵。它衡量两个概率分布之间的差异程度。当一个分布具有较大的方差且样本量小于另一个分布时,此检验可能很有用。例如,如果存在两个分布 P 和 Q,其中 P 代表旧数据分布,Q 代表新数据分布,我们将按如下方式计算它

其中,

  • '||' 表示散度。

如果 KL 散度分数为零,则两个分布相同,其范围从 0 到无穷大。使用此公式的 log base 2 将得出“bits”,而其自然对数(base e)将得出“nats”。

JS 散度

Jensen-Shannon 散度简称为 JS。此检验评估两个概率分布的相似程度。除了 JS 的对称性和有限值之外,它基于 KL 散度。JS 散度的公式如下

其中,

  • M = Q+P2

如何防止数据漂移?

监控数据漂移对于机器学习的工业化至关重要。一种用于管理和控制数据漂移以进行适当维护的绝佳方法是使用 MLOps 技术。这使得工程师和数据管理器能够了解当前的数据漂移,并在问题恶化并需要对机器学习模型进行重大调整之前预测它们。然而,对于数据团队来说,跟踪持续的数据漂移可能令人厌烦且耗时。

一个合适的 MLOps 方法论通过在整个生命周期中建立治理结构,帮助组织在技术和运营上运行这些模型。它使您能够更有效、更高效地处理数据和模型流程。

它使您能够正确应用机器学习算法来训练系统以识别和分类当前数据,并使用高效的方法来获取更多数据。这些用于决策的机器学习算法可以帮助企业识别预测客户偏好的趋势,发现各种形式的欺诈,跟踪其财务成功,并重新分析客户体验。

成功 MLOps 流程的四个组成部分如下

  1. 模型版本控制:为了使用不同的数据集解决相同的业务问题,您可能需要重新训练您的模型。您必须拥有不同的模型版本,以便能够跨不同的数据集或技术监控相同的模型。实现可重现的结果也至关重要。
  2. 持续监控和改进您的模型:为了确保您的模型生成准确的结果,持续监控和训练其性能至关重要。监控有助于跟踪漂移和功效随时间的变化,以及评估模型输出。
  3. 模型治理:通过治理维护模型沿袭、解释、可审计性和业务影响至关重要。
  4. 重新部署和再训练:当模型漂移发生时,您必须准备好在新数据上重新训练模型,然后重新部署它。任何试图利用机器学习改进运营的组织都可能因数据漂移等漂移而遭受严重损失。但是,通过实施灵活的机器学习操作并遵循最佳实践来持续监控和使用新数据重新训练您的模型,您可以显著降低这些严重问题的可能性。

使用 Censius AI 可观测性平台清除漂移

如前所述,机器学习模型可观测性过程使机器学习团队能够持续地从实验室到生产交付高质量的最终产品并改进结果。Censius AI 可观测性平台通过监控 ML 管道、检查问题并解释模型的决策过程,从而简化了这一点。可以自动检测和监控漂移,以免为时已晚。它还使您能够通过执行根本原因分析来调查模型异常。每天,它都会帮助众多 ML 工程师、数据科学家和其他业务利益相关者实现他们的目标。

要开始使用 Censius 可观测性平台,请遵循以下步骤

  1. 您只需几行代码即可注册您的模型、记录特征并记录模型预测。
  2. 要跟踪完整的 ML 管道,您可以从数十种不同的监控配置中进行选择。
  3. 然后,您可以进行分析并跟踪模型,而无需编写任何代码。
  4. 您可以运行数百个监控,而无需任何额外的工程工作,因此您可以放心地知道您的整个机器学习过程正在受到监视。

Censius AI 可观测性平台的功能如下

  1. 它将持续检查整个管道中的数据完整性,跟踪预测、数据和概念等多种漂移,监控模型的输入和输出,并在监控违反时发送实时通知。
  2. 它将使用其用户友好的界面监控模型的健康状况。此外,它还促进跨模型版本的性能监控。在可配置的仪表板上,您可以根据观测值查看模型的评估和历史性能。
  3. 它使团队能够分析和发布具有改进性能的模型,同时保持合规性并防止偏见的出现。