新颖性检测2024年8月28日 | 阅读 7 分钟 什么是新颖性检测?在新颖性检测中,我们寻找一个机器学习系统在训练过程中尚未接触过的数据集中的过程或不熟悉的数据模式。特别是在无监督学习设置中,目标是找到可能表明数据中有值得注意或有趣变化的奇怪观测、事件或数据点。 尽管异常检测和新颖性检测有时可以互换使用,但它们是两个非常不同的概念。异常检测更关注识别可能表明错误、欺诈或缺陷的离群点,而新颖性检测则更关注识别以前被忽略的模式,这些模式不一定总是糟糕的,但可能代表了新颖的行为、新兴趋势或创意。 为什么新颖性检测很重要?新颖性检测因多种原因而具有重要意义。
发现新颖性方法有多种方法可以检测新颖性,每种方法都有其优点和缺点。
新颖性检测的挑战检测新颖性并非没有挑战,其中包括:
新颖性检测的应用新颖性检测在许多领域都有广泛的应用。
新颖性检测的含义是什么?新颖性检测是一种统计技术,用于识别新颖或不熟悉的数据,并评估它们是异常值还是属于正常值(内群与外群)。 在此上下文中,“新颖”是指罕见、新鲜、不频繁或仅仅与众不同的数据。新颖性在需要识别日常运营异常的各种领域都有应用,包括机器学习、黑客攻击、喷气发动机故障、网络入侵检测等等。 例如,在欺诈检测中,信用卡公司会跟踪用户的消费模式,一旦发现任何变化,就会立即联系用户询问购买的合法性,或者卡是否丢失或被盗。 Techopedia 解释的新颖性检测新颖性检测是良好分类系统和机器学习的重要组成部分。机器学习系统总是会遇到新的数据类型和未来可能发生的情况,本质上是输入与通常接收或看到的输入不同。这是因为并非所有可能性都可以在训练期间输入。 例如,在欺诈和故障检测中,系统经过训练可以识别可能表明欺诈或完全未见过的数据。在医疗数据系统中,这可能表明患有疾病。在仅专注于检测新颖性的系统中,网络使用负例进行训练,并且仅将不属于此模型的输入识别为新颖类别。 对于学习系统来说,识别输入与过去输入不同的能力非常重要且有益。这意味着系统能够自主学习,而不仅仅是对先前的编程和输入做出反应。人类和动物都在不断练习新颖性检测,即辨别一个物体与另一个物体。例如,当我们注意到白墙上移动的一个小点时,我们会很快将其与墙壁区分开来,并说它是一个不同的物体——很可能是一只昆虫。 许多领域,包括信号处理、数据分析和机器学习,都经常应用这个概念。以下是快速概述: 机器学习: 在无监督学习场景中,新颖性检测经常在机器学习中使用。目标是使用仅包含正常示例的数据集来训练模型,然后识别与学习模式有显著差异的实例。 应用
识别以前未见过的新型网络威胁或攻击。
发现患者数据中可能预示新疾病或健康状况开始的异常趋势。
识别训练集中未包含的产品缺陷。
通过识别异常金融交易模式进行欺诈检测。 网络监控
技术新颖性检测可以使用多种策略完成,例如机器学习模型、聚类算法和统计技术。常用于此目的的算法示例包括自动编码器、隔离森林和单类支持向量机 (SVM)。 挑战
选择合适的数据表示至关重要。有效的新颖性识别需要充分捕捉典型行为的特征。
在某些情况下,找到包含仅正常示例的标记数据集进行训练可能并不容易。在实际情况中,异常可能不经常发生,尤其如此。
数据分布随时间变化而调整是常见问题。系统必须能够识别随着环境变化而出现的新模式。
确定何时一个事件符合“新颖”的定义可能很困难。设置过高可能导致假阴性,而设置过低可能导致假阳性。 新颖性检测的一个问题是定义“正常”或“典型”行为。此外,调整模型以反映数据中不断变化的模式可能很困难,尤其是在动态环境中。 现实世界中的例子新颖性检测在网络安全领域有助于识别新型网络威胁。它可用于生产中,以查找在训练阶段未被发现的产品缺陷。 当然!让我们更详细地探讨新颖性检测的某些方面。 识别新颖性的方法
单类 SVM 是一种流行的创新检测算法。它旨在在仅使用正常案例进行训练后,创建一个包含正常案例的边界。落在此范围之外的示例被视为新颖。
隔离森林通过递归地隔离数据集中的实例来工作。异常被预期会提前隔离,这将有助于其检测。这种方法具有可扩展性和有效性。
用作无监督学习的神经网络拓扑结构是自动编码器。它们由编码器和解码器组成。在训练过程中,网络获得了重构输入数据的能力。难以重构的实例可能被视为新颖。 评估指标
这些度量标准通常用于评估新颖性检测系统的有效性。精确率衡量系统识别新颖性的准确性,而召回率衡量系统查找所有新颖性的能力。F1 分数是基于精确率和召回率计算的。 AUC-ROC 通常用于评估新颖性检测模型的整体性能。它计算假阳性率和真阳性率之间的权衡。 请记住,最适合您的新颖性检测方法将取决于您数据的特征以及您应用程序的特定需求。尝试几种不同的方法以确定哪种方法最适合您的用例是个好主意。 结论总之,新颖性检测在许多领域都很重要,因为它提供了一种在数据中发现异常、意外或先前未发现的模式的方法。无论是在网络监控、制造业、金融、网络安全、机器学习还是医疗保健中使用,目标始终是相同的:将独特的事件与平均事件区分开来。为了解决这个问题,一些策略已被证明很有前景,例如自动编码器、隔离森林和单类 SVM。 新颖性检测涉及许多挑战,包括选择合适的数据格式、获取用于训练的标记数据集、适应不断变化的情况以及确定最佳阈值。为了克服这些障碍,必须仔细考虑应用程序的独特特征和要求。新颖性检测有许多实际应用,从识别新型网络威胁和监控患者健康状况,到识别生产缺陷和挫败金融欺诈。 最终,只要技术不断发展,高效的新颖性检测将始终至关重要。它使系统能够在不断变化的数据模式面前保持警惕,从而确保跨多个领域的灵活性和可靠性。新颖性识别方法和程序的持续改进将提高检测异常和新趋势的准确性和有效性。 下一主题贝叶斯线性回归简介 |
我们请求您订阅我们的新闻通讯以获取最新更新。