数据挖掘中的离群点是什么2025年3月17日 | 阅读 3 分钟 每当我们谈论数据分析时,异常值这个术语经常会出现在我们脑海中。顾名思义,“异常值”指的是存在于预期之外的数据点。关于异常值的主要问题是您对它们的处理方式。如果您要分析任何任务以分析数据集,您将始终基于如何生成这些数据做出一些假设。如果您发现一些数据点可能包含某种形式的错误,那么这些绝对是异常值,并且取决于上下文,您希望克服这些错误。数据挖掘过程涉及对数据所持有的数据的分析和预测。1969年,Grubbs 介绍了异常值的第一个定义。 异常值和噪声的区别在先前测量的变量中发生的任何不需要的错误,或者先前测量的变量中存在的任何方差都称为噪声。在发现任何数据集中存在的异常值之前,建议首先消除噪声。 异常值的类型异常值分为三种不同类型
![]() 全局异常值全局异常值也称为点异常值。全局异常值被认为是异常值的最简单形式。当数据点偏离给定数据集中所有其他数据点时,它被称为全局异常值。在大多数情况下,所有异常值检测程序都旨在确定全局异常值。绿色的数据点是全局异常值。 ![]() 集体异常值在给定的数据集中,当一组数据点偏离数据集的其余部分时,称为集体异常值。在这里,特定的数据对象集可能不是异常值,但是当您将数据对象视为一个整体时,它们可能会表现为异常值。要识别不同类型的异常值,您需要了解有关不同数据对象显示的异常值行为之间关系的背景信息。例如,在入侵检测系统中,从一个系统到另一个系统的 DOS 包被视为正常行为。因此,如果这种情况同时发生在各种计算机上,则被认为是不正常的行为,并且作为一个整体,它们被称为集体异常值。绿色数据点作为一个整体代表集体异常值。 ![]() 上下文异常值顾名思义,“上下文”意味着此异常值是在上下文中引入的。例如,在语音识别技术中,单个背景噪声。上下文异常值也称为条件异常值。如果由于给定数据集中任何特定条件导致数据对象偏离其他数据点,则会发生此类异常值。我们知道,数据对象的属性有两种类型:上下文属性和行为属性。上下文异常值分析使用户能够在不同的上下文和条件下检查异常值,这在各种应用程序中非常有用。例如,45 摄氏度的温度读数在雨季可能会表现为异常值。但是,在夏季的背景下,它将表现为正常数据点。在给定的图中,6 月份代表低温值的绿点是上下文异常值,因为 12 月份的相同值不是异常值。 ![]() 异常值分析在应用数据挖掘时,异常值在许多地方被丢弃。但是,它仍用于许多应用程序,如欺诈检测、医疗等。这通常是因为很少发生的事件可以存储比更经常发生的事件多得多的信息。 下面给出了异常值检测发挥重要作用的其他应用。 通过数据挖掘中的异常值分析,可以分析由于医疗而发生的任何异常反应。
在数据集中识别异常值行为的过程称为异常值分析。它也被称为“异常值挖掘”,该过程被定义为数据挖掘的一项重要任务。 下一个主题数据挖掘中的数据清洗 |
我们请求您订阅我们的新闻通讯以获取最新更新。