数据挖掘中的噪声是什么?2025年03月17日 | 阅读 9 分钟 噪声数据是指包含大量额外无意义信息(称为噪声)的数据。这包括数据损坏,并且该术语经常被用作损坏数据的同义词。它还包括用户系统无法理解和正确解释的任何数据。例如,许多系统无法使用非结构化文本。如果不妥善处理,噪声数据会对任何数据分析的结果产生不利影响并扭曲结论。有时会使用统计分析来从噪声数据中剔除噪声。 噪声数据是指被损坏、失真或信噪比低的数据。不正确的(或未正确记录的)过程来减去数据中的噪声,可能导致虚假的准确性感或错误的结论。 数据 = 真实信号 + 噪声 噪声数据不必要地增加了所需的存储空间量,并且可能对任何数据挖掘分析结果产生不利影响。统计分析可以利用历史数据的信息来剔除噪声数据并促进数据挖掘。 噪声数据可能由硬件故障、程序错误以及语音或光学字符识别(OCR)程序的乱码输入引起。拼写错误、行业缩写和俚语也可能阻碍机器读取。 在数据挖掘应用中,噪声是影响数据收集和准备过程的不可避免的问题,并且常常发生错误。噪声有两个主要来源,例如:
噪声的来源现实世界测量数据与真实值之间的差异源于影响测量的多种因素。 随机噪声通常是数据中噪声的重要组成部分。信号中的随机噪声以信噪比进行测量。随机噪声包含范围广泛的几乎相等的频率,称为白噪声(就像光的颜色混合在一起会变成白色一样)。随机噪声是一个不可避免的问题。它影响数据收集和数据准备过程,其中常常发生错误。噪声有两个主要来源:
不正确的滤波如果将滤波后的信号视为直接测量信号,可能会引入噪声。例如,卷积型数字滤波器(如移动平均)可能会产生滞后或峰值截断等副作用。微分数字滤波器会放大原始数据中的随机噪声。 异常值数据是指看起来不属于数据集的数据。它可能由人为错误引起,例如数字转置、错误标记、程序错误等。如果将有效数据识别为异常值并错误地删除,也会损坏结果。如果实际异常值未从数据集中删除,它们会对结果造成不同程度的损坏,具体取决于情况。 欺诈:个人可能故意歪曲数据以影响结果,使其朝向期望的结论。看起来良好且异常值很少的数据会使收集数据的人员印象深刻,因此可能有动机将更多数据删除为异常值,或者使数据看起来比实际更平滑。 噪声的类型决定数据集质量的因素有很多。其中,类标签和属性值直接影响分类数据集的质量。类标签的质量是指每个示例的类是否正确分配;否则,属性的质量是指它们是否能够正确地表征用于分类目的的示例,如果噪声影响属性值,则这种表征能力以及属性的质量就会降低。基于这两个信息源,可以在给定数据集中区分两种类型的噪声。 ![]() 1. 类噪声(标签噪声)当一个示例被错误标记时,就会发生这种情况。类噪声可能归因于几个原因,例如标记过程中的主观性、数据输入错误或用于标记每个示例的信息不足。类噪声进一步分为两类,例如:
2. 属性噪声这指的是一个或多个属性值被损坏。属性噪声的示例包括:
在现实世界数据中,将类噪声和属性噪声视为对类标签和属性值的损坏是很常见的。因此,在文献的许多工作中也考虑了这两种类型的噪声。例如,作者们得出了mselves一系列有趣的结论,表明属性噪声比类噪声更具危害性,或者消除或纠正类噪声和属性噪声数据集中的示例可以提高分类器的性能。他们还表明,在那些与类标签高度相关的属性中,属性噪声的危害更大。作者们检查了不同范式的(例如概率分类器、决策树、实例学习者或支持向量机)方法的鲁棒性,研究了它们行为的可能原因。 模拟真实世界数据集中的噪声检查噪声数据对分类学习算法性能的影响对于提高其可靠性是必要的,并且促使了关于如何生成和引入噪声到数据中的研究。三个主要特征可以表征噪声生成:
真实世界数据集中存在的初始噪声量和类型是未知的。因此,无法对基础噪声类型和级别做出任何假设。为此,在文献中,这些数据集被视为无噪声的,即没有引入可识别的噪声。为了控制每个数据集中的噪声量并检查它如何影响分类器,在文献中以受控方式将噪声引入每个数据集中。 在文献中,通过四种不同的噪声方案对所考虑的两种噪声类型(类噪声和属性噪声)进行了建模;通过这种方式,存在 x% 的此类噪声可以模拟分类器在这些场景下的行为。
如何管理噪声数据?从数据集中移除噪声称为数据平滑。可以使用以下方法进行平滑: ![]() 1. 分箱 分箱是一种技术,我们对数据进行排序,然后将数据划分为等频率的箱。然后,您可以将噪声数据替换为箱均值、箱中位数或箱边界。此方法用于平滑或处理噪声数据。首先,对数据进行排序,然后将排序后的值分离并存储在箱的形式中。有三种方法可以平滑箱中的数据。
2. 回归 这用于平滑数据并帮助处理存在不必要数据时的数据。为了分析目的,回归有助于决定合适的变量。线性回归是指在两个变量之间找到最佳拟合线,以便一个变量可以用于预测另一个变量。多元线性回归涉及三个以上的变量。使用回归找到拟合数据的数学方程有助于平滑噪声。 3. 聚类 这用于查找异常值以及对数据进行分组。聚类通常用于无监督学习。 4. 异常值分析 异常值可以通过聚类来检测,其中相似或接近的值被组织到相同的组或簇中。因此,远离簇的值可能被视为噪声或异常值。异常值是偏离其他数据观测值的极端值。它们可能表明测量中的变异性、实验错误或新颖性。换句话说,异常值是偏离样本整体模式的观测值。异常值可能属于以下几种:
数据清理是一个重要的阶段。毕竟,您的结果基于您的数据。灰尘越多,结果就越不准确。 数据清理可消除噪声和缺失值。数据清理只是数据预处理的众多步骤中的第一步。除上述内容外,数据预处理还包括聚合、特征构建、归一化、离散化、概念层次生成,这些大多涉及使数据一致。数据预处理有时也占整个过程的 90%。 下一主题数据挖掘中的 BIRCH |
我们请求您订阅我们的新闻通讯以获取最新更新。