Excel 异常值

17 Mar 2025 | 6 分钟阅读

Excel 中的异常值是数据集中显著偏离基本趋势的数据点。 鲁棒的数据分析需要检测异常值,因为它们会影响结果的精确性和可靠性。Excel 提供了多种用于定位和检查异常值的工具。箱线图显示可能的异常值,并提供记录分布的视觉快照。描述性统计工具提供诸如均值、中位数或标准差等重要指标,这有助于对记录模式进行初步评估。基于其距离的标准差,Z 分数可用于通过量化数据点与均值的偏差来识别异常值。此外,条件格式是 Excel 中的一项功能,它将格式标准应用于满足预定条件的单元格,从而可以直观地感知可能的异常值。由于其灵活性,Excel 是一种有用的工具,可用于在各种数据集和分析场景中识别异常值。

什么是异常值,为什么它们很重要?

与数据集中其余数据不符的极端数据点称为异常值。 测量系统、统计数据输入、实验设置更改或观察现象中的随机变化中的错误都可能导致它们。异常值会扭曲底层模式和变异的统计测量,从而导致从数据中得出不准确的推断。因此,识别和处理它们至关重要。

箱线图是一种流行的异常值定位技术,它显示数据之外的分布模式并强调任何超出晶须的值。一旦定位了异常值,可以通过多种方式处理它们,包括从集合中删除它们、修改数据或应用不易受异常值影响的强大统计技术。但是,应根据任何异常值处理技术将如何影响数据的整体评估和理解,仔细考虑。

使用 Excel 中的箱线图识别异常值

数据集的中心趋势、变异性以及任何异常值都旨在使用字段图以图形方式显示。

  1. 在制作箱线图之前,您的数据必须在 Excel 列中排列。接下来,选择记录,单击“插入”选项卡,然后单击“插入统计图表”按钮选择“箱线图”。
    Outliers Excel
  2. 中位数通过图表中容器中的虚线指示,表示记录点的中间 50%。绘图晶须显示数据的分布,不包括任何异常。
  3. 晶须外的一个孤立的统计数据点是异常值。在箱线图中,可以通过更详细地查看数据点来识别异常值,以查看它是否是测量错误的结果,或者它是否是一个需要额外分析的真实数据点。
    Outliers Excel
  4. 箱线图在比较不同数据集时特别有用,因为它们可以轻松识别这些数据集的总体趋势和变异性如何变化。箱线图还可以使用数据集名称或每个容器的各种颜色进行自定义,这增加了其作为评估事实的工具的多功能性。
    Outliers Excel
  5. 箱线图是查找异常值的有用工具,但使用类似于融合图的其他方法进行异常值检测至关重要。Z 评分和四分位距是两种必须用于建立异常值存在并确定其重要性的统计技术。

使用描述性统计识别异常值

可以使用 Excel 中的许多描述性统计函数计算信息系列的摘要记录,包括平均值、标准差、方差和四分位距 (IQR)。

与标准差相比,IQR 是一种常用的变异度量,受异常值的影响较小。使用 Excel 的 '=QUARTILE.INC(Data, 3) - QUARTILE.INC(Data, 1)' 函数来确定 IQR。如果数据点在 Q1 - 1.5IQR 到 Q3 + 1.5IQR 范围之外,则认为它是异常值。

Outliers Excel

在信息系列中查找异常值很重要,因为它们对统计分析的结果有很大的影响。测量误差、统计数据输入问题或极端数字都可能导致异常值。通过定位和消除异常值,可以提高统计分析的精确性和可靠性。

存在几种定位异常值的技术,例如统计测试和数据集的视觉检查。另一方面,在使用 IQR 等描述性统计时,识别数据集中的异常值既简单又有效。建议采用各种技术来查找异常值,并在决定是否消除它们之前仔细评估研究的背景和目标。

使用 Excel 中的散点图发现异常值

使用散点图绘制变量之间的关系。可以通过目视检查图并查找可能远离主要数据簇的数据点来感知异常值。此外,散点图可以帮助您查看记录集合中其他图表样式可能忽略的模式或趋势。

在 Excel 中,选择数据并单击“插入”选项以生成散点图。要构建散点图,请单击“散点图”并选择所需的类型。之后,根据需要准备图表。

Outliers Excel

重要的是要考虑异常值会极大地影响统计分析的结果。因此,信息处理中的一个重要部分是定位和管理异常值。散点图在此过程中证明是一个有用的工具,因为它们可以轻松识别任何可能扭曲您的发现的数据点。通过删除或考虑异常值,您可以确保您获取的信息更加独特和值得信赖。


Outliers Excel

了解 Z 分数及其在识别异常值中的作用

Z 分数表示值与信息集平均值之间的标准差数量。通过计算记录集中每个数据点的 Z 分数,然后将其与正阈值进行对比,它们可以用于定位异常值。

Outliers Excel

如果数据点的 Z 分数大于 3 或小于 3,则将其视为异常值。在 Excel 中使用公式 '= (数据点 - 均值) / 标准差' 来确定给定数据点的 Z 分数。

Outliers Excel

请务必记住,尽管 Z 分数可能有助于定位异常值,但它们不应是唯一的检测方法。在确定异常值时,还必须考虑其他组成部分,包括事实的上下文和研究的具体目标。此外,在使用 Z 分数检测异常值之前,请确保统计数据集具有正常分布。

如何在 Excel 中使用条件格式突出显示异常值

Excel 强大的条件格式工具允许您根据预定义标准设置单元格格式。建立规则以格式化满足特定要求的单元格,例如高于或低于给定数字的单元格,可以引起对数据集中异常值的关注。

要使用条件格式突出显示数据中的异常值

  1. 选择数据范围后,选择“开始”选项卡。
    Outliers Excel
  2. 选择“条件格式”后,单击“新建规则”。
    Outliers Excel
  3. 然后选择“仅格式化那些略高于/低于平均值的值”。
    Outliers Excel

选择“仅格式化包含以下内容的单元格”是利用条件格式突出显示异常值的另一种方法。这使您可以根据单元格中的文本或特定值创建条件。例如,可以突出显示包含与平均值相差两个标准差以上的值的单元格。这可以帮助您快速定位任何与整个数据集显著偏离的数据值。

结论

最后,Excel 中提供了各种工具用于定位和处理数据集中的异常值。Excel 为用户提供了识别和评估异常值的重要工具,包括 Z 分数等统计指标、条件格式灵活性以及箱线图。通过利用利用属性,分析师可以提高其统计分析的精确性和可靠性,确保对数据集中发现的基本模式和可实现的不规则性有更全面的理解。