新颖性检测

2024年8月28日 | 阅读 7 分钟

什么是新颖性检测?

在新颖性检测中,我们寻找一个机器学习系统在训练过程中尚未接触过的数据集中的过程或不熟悉的数据模式。特别是在无监督学习设置中,目标是找到可能表明数据中有值得注意或有趣变化的奇怪观测、事件或数据点。

尽管异常检测和新颖性检测有时可以互换使用,但它们是两个非常不同的概念。异常检测更关注识别可能表明错误、欺诈或缺陷的离群点,而新颖性检测则更关注识别以前被忽略的模式,这些模式不一定总是糟糕的,但可能代表了新颖的行为、新兴趋势或创意。

为什么新颖性检测很重要?

新颖性检测因多种原因而具有重要意义。

  1. 适应新模式: 在数据模式会随时间变化的动态环境中,新颖性检测有助于系统适应新情况。
  2. 改进决策制定: 通过及早识别新特征或变化,组织可以获得竞争优势并做出明智的决策。
  3. 增强安全性: 网络安全中的新颖性检测可用于发现不符合现有模式的新型攻击或入侵。
  4. 科学发现: 在天文学或基因组学等领域发现新颖事物可能带来新的科学认识和发现。

发现新颖性方法

有多种方法可以检测新颖性,每种方法都有其优点和缺点。

  1. 统计技术: 这些技术寻找与已知分布有显著偏差的数据点,前提是正常数据遵循已知分布。
  2. 机器学习模型: 可以训练无监督学习技术,如神经网络或聚类算法,通过检查典型数据的模式并识别离群点来识别新颖性。
  3. 基于邻近度的方法: 可以通过应用 k-最近邻 (k-NN) 等技术来发现新颖性,这些技术计算新数据点与先前已识别的实例之间的距离或相似性。
  4. 重构技术: 具有自动编码器的神经网络有潜力准确地重构常见事实。

新颖性检测的挑战

检测新颖性并非没有挑战,其中包括:

  1. 定义“正常”: 建立新颖性的基线可能具有挑战性,因为确定什么是正常数据可能很主观且依赖于上下文。
  2. 数据质量: 嘈杂、错误的数据可能导致新颖性检测产生误报。
  3. 高维数据: 维度灾难使得识别具有大量属性的数据集中的惊喜变得困难。
  4. 自适应对手: 在安全领域,对手可能会修改他们的策略以规避新颖性检测系统。

新颖性检测的应用

新颖性检测在许多领域都有广泛的应用。

  1. 金融: 识别异常的交易模式可以揭示市场变化或新策略。
  2. 医疗保健: 通过在患者数据中发现独特模式,可以实现早期疾病诊断。
  3. 制造业: 在工业环境中识别新颖性有助于发现生产线上的新缺陷或错误。
  4. 物联网 (IoT): 物联网 (IoT) 中的新颖性检测可用于跟踪环境变化或传感器中的新事件。

新颖性检测的含义是什么?

新颖性检测是一种统计技术,用于识别新颖或不熟悉的数据,并评估它们是异常值还是属于正常值(内群与外群)。

在此上下文中,“新颖”是指罕见、新鲜、不频繁或仅仅与众不同的数据。新颖性在需要识别日常运营异常的各种领域都有应用,包括机器学习、黑客攻击、喷气发动机故障、网络入侵检测等等。

例如,在欺诈检测中,信用卡公司会跟踪用户的消费模式,一旦发现任何变化,就会立即联系用户询问购买的合法性,或者卡是否丢失或被盗。

Techopedia 解释的新颖性检测

新颖性检测是良好分类系统和机器学习的重要组成部分。机器学习系统总是会遇到新的数据类型和未来可能发生的情况,本质上是输入与通常接收或看到的输入不同。这是因为并非所有可能性都可以在训练期间输入。

例如,在欺诈和故障检测中,系统经过训练可以识别可能表明欺诈或完全未见过的数据。在医疗数据系统中,这可能表明患有疾病。在仅专注于检测新颖性的系统中,网络使用负例进行训练,并且仅将不属于此模型的输入识别为新颖类别。

对于学习系统来说,识别输入与过去输入不同的能力非常重要且有益。这意味着系统能够自主学习,而不仅仅是对先前的编程和输入做出反应。人类和动物都在不断练习新颖性检测,即辨别一个物体与另一个物体。例如,当我们注意到白墙上移动的一个小点时,我们会很快将其与墙壁区分开来,并说它是一个不同的物体——很可能是一只昆虫。

许多领域,包括信号处理、数据分析和机器学习,都经常应用这个概念。以下是快速概述:

机器学习: 在无监督学习场景中,新颖性检测经常在机器学习中使用。目标是使用仅包含正常示例的数据集来训练模型,然后识别与学习模式有显著差异的实例。

应用

  • 网络安全

识别以前未见过的新型网络威胁或攻击。

  • 医疗保健

发现患者数据中可能预示新疾病或健康状况开始的异常趋势。

  • 生产

识别训练集中未包含的产品缺陷。

  • 融资

通过识别异常金融交易模式进行欺诈检测。

网络监控

  • 识别网络流量中的异常趋势,可能表明存在安全漏洞。
  • 当大部分数据都已充分了解,但系统需要识别异常或意外事件时,就会使用新颖性检测。例如,它可以应用于质量控制,以在整个生产过程中查找有缺陷的项目。

技术

新颖性检测可以使用多种策略完成,例如机器学习模型、聚类算法和统计技术。常用于此目的的算法示例包括自动编码器、隔离森林和单类支持向量机 (SVM)。

挑战

  • 信息显示

选择合适的数据表示至关重要。有效的新颖性识别需要充分捕捉典型行为的特征。

  • 识别典型案例

在某些情况下,找到包含仅正常示例的标记数据集进行训练可能并不容易。在实际情况中,异常可能不经常发生,尤其如此。

  • 不断变化的环境

数据分布随时间变化而调整是常见问题。系统必须能够识别随着环境变化而出现的新模式。

  • 设置阈值

确定何时一个事件符合“新颖”的定义可能很困难。设置过高可能导致假阴性,而设置过低可能导致假阳性。

新颖性检测的一个问题是定义“正常”或“典型”行为。此外,调整模型以反映数据中不断变化的模式可能很困难,尤其是在动态环境中。

现实世界中的例子

新颖性检测在网络安全领域有助于识别新型网络威胁。它可用于生产中,以查找在训练阶段未被发现的产品缺陷。

当然!让我们更详细地探讨新颖性检测的某些方面。

识别新颖性的方法

  • 单类支持向量机 (SVM)

单类 SVM 是一种流行的创新检测算法。它旨在在仅使用正常案例进行训练后,创建一个包含正常案例的边界。落在此范围之外的示例被视为新颖。

  • 隔离森林

隔离森林通过递归地隔离数据集中的实例来工作。异常被预期会提前隔离,这将有助于其检测。这种方法具有可扩展性和有效性。

  • 自动编码器

用作无监督学习的神经网络拓扑结构是自动编码器。它们由编码器和解码器组成。在训练过程中,网络获得了重构输入数据的能力。难以重构的实例可能被视为新颖。

评估指标

  • F1 分数、精确率和召回率

这些度量标准通常用于评估新颖性检测系统的有效性。精确率衡量系统识别新颖性的准确性,而召回率衡量系统查找所有新颖性的能力。F1 分数是基于精确率和召回率计算的。

AUC-ROC 通常用于评估新颖性检测模型的整体性能。它计算假阳性率和真阳性率之间的权衡。

请记住,最适合您的新颖性检测方法将取决于您数据的特征以及您应用程序的特定需求。尝试几种不同的方法以确定哪种方法最适合您的用例是个好主意。

结论

总之,新颖性检测在许多领域都很重要,因为它提供了一种在数据中发现异常、意外或先前未发现的模式的方法。无论是在网络监控、制造业、金融、网络安全、机器学习还是医疗保健中使用,目标始终是相同的:将独特的事件与平均事件区分开来。为了解决这个问题,一些策略已被证明很有前景,例如自动编码器、隔离森林和单类 SVM。

新颖性检测涉及许多挑战,包括选择合适的数据格式、获取用于训练的标记数据集、适应不断变化的情况以及确定最佳阈值。为了克服这些障碍,必须仔细考虑应用程序的独特特征和要求。新颖性检测有许多实际应用,从识别新型网络威胁和监控患者健康状况,到识别生产缺陷和挫败金融欺诈。

最终,只要技术不断发展,高效的新颖性检测将始终至关重要。它使系统能够在不断变化的数据模式面前保持警惕,从而确保跨多个领域的灵活性和可靠性。新颖性识别方法和程序的持续改进将提高检测异常和新趋势的准确性和有效性。