数据挖掘中的噪声是什么?

2025年03月17日 | 阅读 9 分钟

噪声数据是指包含大量额外无意义信息(称为噪声)的数据。这包括数据损坏,并且该术语经常被用作损坏数据的同义词。它还包括用户系统无法理解和正确解释的任何数据。例如,许多系统无法使用非结构化文本。如果不妥善处理,噪声数据会对任何数据分析的结果产生不利影响并扭曲结论。有时会使用统计分析来从噪声数据中剔除噪声。

噪声数据是指被损坏、失真或信噪比低的数据。不正确的(或未正确记录的)过程来减去数据中的噪声,可能导致虚假的准确性感或错误的结论。

数据 = 真实信号 + 噪声

噪声数据不必要地增加了所需的存储空间量,并且可能对任何数据挖掘分析结果产生不利影响。统计分析可以利用历史数据的信息来剔除噪声数据并促进数据挖掘。

噪声数据可能由硬件故障、程序错误以及语音或光学字符识别(OCR)程序的乱码输入引起。拼写错误、行业缩写和俚语也可能阻碍机器读取。

在数据挖掘应用中,噪声是影响数据收集和准备过程的不可避免的问题,并且常常发生错误。噪声有两个主要来源,例如:

  1. 测量工具引入的隐含误差,例如不同类型的传感器。
  2. 并且在收集数据时,例如在文档数字化过程中,由批处理过程或专家引入的随机误差。

噪声的来源

现实世界测量数据与真实值之间的差异源于影响测量的多种因素。

随机噪声通常是数据中噪声的重要组成部分。信号中的随机噪声以信噪比进行测量。随机噪声包含范围广泛的几乎相等的频率,称为白噪声(就像光的颜色混合在一起会变成白色一样)。随机噪声是一个不可避免的问题。它影响数据收集和数据准备过程,其中常常发生错误。噪声有两个主要来源:

  1. 测量工具引入的误差,
  2. 以及在收集数据时由处理或专家引入的随机误差。

不正确的滤波如果将滤波后的信号视为直接测量信号,可能会引入噪声。例如,卷积型数字滤波器(如移动平均)可能会产生滞后或峰值截断等副作用。微分数字滤波器会放大原始数据中的随机噪声。

异常值数据是指看起来不属于数据集的数据。它可能由人为错误引起,例如数字转置、错误标记、程序错误等。如果将有效数据识别为异常值并错误地删除,也会损坏结果。如果实际异常值未从数据集中删除,它们会对结果造成不同程度的损坏,具体取决于情况。

欺诈:个人可能故意歪曲数据以影响结果,使其朝向期望的结论。看起来良好且异常值很少的数据会使收集数据的人员印象深刻,因此可能有动机将更多数据删除为异常值,或者使数据看起来比实际更平滑。

噪声的类型

决定数据集质量的因素有很多。其中,类标签和属性值直接影响分类数据集的质量。类标签的质量是指每个示例的类是否正确分配;否则,属性的质量是指它们是否能够正确地表征用于分类目的的示例,如果噪声影响属性值,则这种表征能力以及属性的质量就会降低。基于这两个信息源,可以在给定数据集中区分两种类型的噪声。

What is Noise in Data Mining

1. 类噪声(标签噪声)

当一个示例被错误标记时,就会发生这种情况。类噪声可能归因于几个原因,例如标记过程中的主观性、数据输入错误或用于标记每个示例的信息不足。类噪声进一步分为两类,例如:

  • 矛盾的示例:重复的示例具有不同的类标签。在上图中,两个示例(0.25,红色,类 = 正)和(0.25,红色,类 = 负)是矛盾的示例,因为它们具有相同的属性值和不同的类。
  • 错误分类的示例:被标记为与真实类别不同的类别的示例。图中位于示例(0.99,绿色,类 = 负)上方的示例是一个错误标记的示例,因为其类标签是错误的,它应该是“正”。

2. 属性噪声

这指的是一个或多个属性值被损坏。属性噪声的示例包括:

  • 错误的属性值:图中,示例(1.02,绿色,类 = 正)的第一个属性带有噪声,因为其值是错误的。
  • 缺失或未知属性值:图中,示例(2.05,?类 = 负)具有属性噪声,因为我们不知道第二个属性的值。
  • 不完整的属性或不关心的值:图中,示例(=,绿色,类 = 正)具有属性噪声,因为第一个属性的值不影响示例的其余值,包括示例的类。

在现实世界数据中,将类噪声和属性噪声视为对类标签和属性值的损坏是很常见的。因此,在文献的许多工作中也考虑了这两种类型的噪声。例如,作者们得出了mselves一系列有趣的结论,表明属性噪声比类噪声更具危害性,或者消除或纠正类噪声和属性噪声数据集中的示例可以提高分类器的性能。他们还表明,在那些与类标签高度相关的属性中,属性噪声的危害更大。作者们检查了不同范式的(例如概率分类器、决策树、实例学习者或支持向量机)方法的鲁棒性,研究了它们行为的可能原因。

模拟真实世界数据集中的噪声

检查噪声数据对分类学习算法性能的影响对于提高其可靠性是必要的,并且促使了关于如何生成和引入噪声到数据中的研究。三个主要特征可以表征噪声生成:

  1. 噪声引入的位置。噪声可能影响输入属性或输出类,损害学习过程和结果模型。
  2. 噪声分布。噪声的存在方式可以是均匀的或高斯分布的。
  3. 生成的噪声值的大小。噪声影响数据集的程度可以相对于每个属性的每个数据值,或相对于每个属性的最小值、最大值和标准差。

真实世界数据集中存在的初始噪声量和类型是未知的。因此,无法对基础噪声类型和级别做出任何假设。为此,在文献中,这些数据集被视为无噪声的,即没有引入可识别的噪声。为了控制每个数据集中的噪声量并检查它如何影响分类器,在文献中以受控方式将噪声引入每个数据集中。

在文献中,通过四种不同的噪声方案对所考虑的两种噪声类型(类噪声和属性噪声)进行了建模;通过这种方式,存在 x% 的此类噪声可以模拟分类器在这些场景下的行为。

  1. 类噪声通常发生在类的边界处,其中示例可能具有相似的特征——尽管它可能发生在域的任何其他区域。在文献中,类噪声是通过均匀类噪声方案(随机损坏示例的类标签)和成对类噪声方案(将多数类的示例标记为第二个多数类)引入的。考虑到这两种方案,噪声会影响任何一对类,并且只模拟两个多数类。
    • 均匀类噪声: x% 的示例被损坏。这些示例的类标签被随机替换为其他类中的一个。
    • 成对类噪声:设 X 为多数类,Y 为第二多数类。标签为 X 的示例有 x/100 的概率被错误标记为 Y。
  2. 属性噪声可能来自多种来源,例如传输限制、传感器设备故障、采样不规则和转录错误。错误的属性值可能是完全不可预测的,即随机的,或者意味着比正确值有小的变化。我们使用均匀属性噪声方案和高斯属性噪声方案分别模拟这两种可能性。我们在属性之间的交互作用很弱的假设下引入属性噪声;因此,引入到每个属性中的噪声与引入到其他属性中的噪声的关联度很低。
    • 均匀属性噪声:数据集中每个属性的 x% 的值被损坏。要损坏属性 Ai,会选择数据集中 x% 的示例,并将其 Ai 值分配给属性 Ai 的域 Di 中的一个随机值。无论数值属性还是标称属性,都使用均匀分布。
    • 高斯属性噪声:此方案类似于均匀属性噪声,但在这种情况下,通过添加一个遵循均值=0和标准差=(max-min)/5 的高斯分布的随机值来损坏 Ai 值,其中 max 和 min 是属性域的极限。标称属性的处理方式与均匀属性噪声相同。

如何管理噪声数据?

从数据集中移除噪声称为数据平滑。可以使用以下方法进行平滑:

What is Noise in Data Mining

1. 分箱

分箱是一种技术,我们对数据进行排序,然后将数据划分为等频率的箱。然后,您可以将噪声数据替换为箱均值、箱中位数或箱边界。此方法用于平滑或处理噪声数据。首先,对数据进行排序,然后将排序后的值分离并存储在箱的形式中。有三种方法可以平滑箱中的数据。

  • 按箱均值平滑法:在此方法中,箱中的值被替换为箱的均值。
  • 按箱中位数平滑:在此方法中,箱中的值被替换为中位数。
  • 按箱边界平滑:在此方法中,使用箱值的最小值和最大值,并将最接近的边界值替换这些值。

2. 回归

这用于平滑数据并帮助处理存在不必要数据时的数据。为了分析目的,回归有助于决定合适的变量。线性回归是指在两个变量之间找到最佳拟合线,以便一个变量可以用于预测另一个变量。多元线性回归涉及三个以上的变量。使用回归找到拟合数据的数学方程有助于平滑噪声。

3. 聚类

这用于查找异常值以及对数据进行分组。聚类通常用于无监督学习。

4. 异常值分析

异常值可以通过聚类来检测,其中相似或接近的值被组织到相同的组或簇中。因此,远离簇的值可能被视为噪声或异常值。异常值是偏离其他数据观测值的极端值。它们可能表明测量中的变异性、实验错误或新颖性。换句话说,异常值是偏离样本整体模式的观测值。异常值可能属于以下几种:

  • 单变量异常值可以在查看单个特征空间中的值分布时找到。
  • 多变量异常值可以在 n 维空间(n 个特征)中找到。人类大脑很难查看 n 维空间中的分布。这就是为什么我们需要训练模型来为我们执行此操作。
  • 点异常值是远离其余分布的单个数据点。
  • 上下文异常值可能是在数据中的噪声,例如在进行文本分析时出现的标点符号,或在进行语音识别时出现的背景噪声信号。
  • 集体异常值可以是数据中的新颖性子集,例如可能指示新现象发现的信号。

数据清理是一个重要的阶段。毕竟,您的结果基于您的数据。灰尘越多,结果就越不准确。

数据清理可消除噪声和缺失值。数据清理只是数据预处理的众多步骤中的第一步。除上述内容外,数据预处理还包括聚合、特征构建、归一化、离散化、概念层次生成,这些大多涉及使数据一致。数据预处理有时也占整个过程的 90%。