统计分析的常态检验

2025年7月16日 | 阅读 8 分钟

引言

许多统计研究中的一个重要假设是正态性,特别是对于包含回归模型、ANOVA 和 t 检验的参数检验。根据这一假设,数据必须遵循正态分布,即围绕均值的对称钟形曲线。由于许多统计方法都依赖于此假设来获得可靠的结果,因此它非常重要。

如果正态性假设为真,这些统计显著性检验会更强大且更直接。例如,假设检验提供的精确 p 值和置信度会越来越准确。然而,如果数据与正态性显著偏离,可能会出现误导性的结果、I 类或 II 类错误增加以及错误的结论。

研究人员在了解正态性的重要性时,可以有效地选择统计技术或进行调整。由于中心极限定理,较大的样本倾向于近似正态分布,因此正态性对于较小的样本量尤为重要。尽管如此,仍应进行正态性检验。

什么是正态性检验?

正态性检验是一种识别数据集是否具有正态分布的统计方法。这些检验旨在确定数据在多大程度上符合对称的钟形正态分布。由于许多统计研究都假设底层数据具有正态分布,因此正态性检验是重要且必要的第一步。

正态性检验可以通过两种方法进行:统计(数值)检验和图形方法。

  • 图形方法

使用视觉辅助工具,可以确定数据集是否具有正态分布。直方图显示数据值的频率,呈现对称的钟形曲线。Q-Q 图(分位数-分位数图)将数据集的分位数与理论正态分布进行比较。如果数据呈正态,则点会排列成一条直线。在绘制累积概率时,P-P 图(概率-概率图)应显示正态数据集中的点落在 45 度线上。此外,箱线图很有用,因为它们显示了异常值和偏度,这些也可能表明偏离正态性。

  • 统计和数值检验

评估正态性的更正式方法是使用数值检验。对于小到中等样本,通常使用 Shapiro-Wilk 检验。它用于确定数据是否呈正态分布。Kolmogorov-Smirnov 检验适用于较大的样本,并将数据集的分布与理想化的正态分布进行比较。Anderson-Darling 检验对极端值敏感,因为它会给予尾部更大的权重。当计算均值和标准差时,Lilliefors 检验会修改 Kolmogorov-Smirnov 检验。D'Agostino-Pearson 检验同时考虑偏度和峰度来检验正态性,而 Jarque-Bera 检验则同时考虑两者。

正态性检验的图形方法

  • 直方图

直方图将数据值的频率分布显示为条形。如果数据呈正态分布,直方图将显示为对称的钟形曲线,均值位于中心。这种方法易于使用,并提供对分布异常、偏度或异常值的快速视觉检查。

  • 分位数-分位数图,或 Q-Q 图

Q-Q 图将数据集的分位数与假设的正态分布的分位数进行比较。显示一条参考线,并绘制数据点。如果数据呈正态,则点应与该线紧密对齐。与此线的偏差表明偏离正态性,例如偏度或重尾。

  • 概率-概率图,或 P-P 图

与 Q-Q 图类似,P-P 图将数据集的累积概率与正态分布进行比较。如果数据呈正态分布,则点应落在 45 度线上。显著的偏差增加了数据不呈正态的可能性。

  • 箱线图

虽然箱线图主要用于可视化数据分布和识别异常值,但它们也可以提供有关正态性的信息。在正态分布中,箱线图应显示围绕中位数的等长须和对称性。箱线图中的极端异常值或偏度可能表明非正态。

正态性检验的数值方法

  • Shapiro-Wilk 检验

Shapiro-Wilk 检验是最常用且最受欢迎的正态性检验之一。它用于确定样本数据是否代表正态分布。它在中小型样本上表现尤为出色。如果 p 值小于设定的显著性水平(例如 0.05),则拒绝正态性。

  • Kolmogorov-Smirnov 检验

Kolmogorov-Smirnov (K-S) 检验将样本的累积分布与预定的正态分布进行比较。它计算两个分布之间的最大分离度。此检验可能受到极端值的影响,并且在处理大样本时效果最好。

  • Anderson-Darling 检验

Anderson-Darling 检验是 K-S 检验的变体,它在分布的尾部给予更多权重。因此,它对数据集尾部的偏差更敏感。较低的 p 值表示数据显著偏离正态性。

  • Lilliefors 检验

当根据样本数据估计正态分布的均值和标准差时,Lilliefors 检验是 Kolmogorov-Smirnov 检验的一个变体。在需要估计参数的实际场景中,它通常会替代 K-S 检验。

  • Jarque-Bera 检验

通过比较数据集的偏度和峰度,Jarque-Bera 检验可验证正态性。它评估数据集是否具有正态分布的典型形状。在计量经济学中,此检验常用于验证回归模型中的残差是否呈正态。

  • D'Agostino-Pearson 检验

为了确定数据是否偏离正态分布,D'Agostino-Pearson 检验同时检查偏度和峰度。它通过组合这两个度量来创建一个单一的检验统计量。低 p 值表明数据与正态性存在显著偏差。

选择合适的正态性检验

  • 检查样本量

由于其在识别偏离正态性方面的强大能力,Shapiro-Wilk 检验通常推荐用于小到中等样本量(通常小于 50)。由于它们可以更有效地处理大型数据集,因此对于较大的样本(超过 50),建议使用 Anderson-Darling 或 Kolmogorov-Smirnov 检验。

  • 尾部和异常值敏感度

如果您特别关注分布尾部的偏差,Anderson-Darling 检验更合适,因为它会给予尾部更大的权重。因此,与 Kolmogorov-Smirnov 检验相比,它对异常值和重尾分布更敏感。

  • 估计参数

当从样本数据计算正态分布的两个参数(均值和标准差)时,Lilliefors 检验是比标准 Kolmogorov-Smirnov 检验更好的选择。

  • 数据特征(峰度和偏度)

如果偏度和峰度是您主要关注的问题,您可能希望使用 D'Agostino-Pearson 或 Jarque-Bera 检验。这些检验有助于识别非对称或峰形分布,因为它们明确评估偏度和峰度是否与正态分布的偏度和峰度相匹配。

  • 首先检查图形

在进行正式检验之前,通常建议进行图形检查,例如 Q-Q 图或直方图。这种视觉检查可以提供早期信息,并帮助确定哪个检验将是最合适的。

正态性检验的局限性

  • 样本量敏感性

样本量对正态性检验有显著影响。在小样本中,正态性检验可能无法识别偏离正态性的情况,这可能导致误导性的阴性结果。然而,对于大样本,即使是微小的偏差也会产生统计学上的显著结果,这可能会导致假阳性。这意味着,即使偏差很小且在实际意义上不重要,但大型数据集仍可能产生显著结论。

  • 依赖基本假设

大多数正态性检验都假设数据是连续的且没有极端异常值。异常值可能会显著影响检验结果,当偏差通常是由于极端数字的存在时,可能会给人造成数据非正态的印象。

  • 关注形状,而非细节

尽管正态性检验不提供关于偏差形状的精确信息,但它们提供了数据是否呈正态的总体视图。例如,检验可能无法区分多种非正态形式,例如多峰、重尾和偏度。由于这种限制,选择合适的纠正措施可能会很困难。

  • 有限的实际意义

统计上显著的正态性检验结果并不总是意味着实际意义。由于其稳健性,许多参数检验在实践中不会受到轻微偏离正态性的影响。过早地进行数据纠正可能会因为仅依赖统计显著性而不考虑偏差程度而导致。

  • 数据类型依赖性

通常,连续数据非常适合进行正态性检验。这些检验可能不适用于分类或有序数据,或者需要进行修改。此外,由于检验假定观察是独立的,如果数据是相关的(例如时间序列数据),则结果可能不可靠。

实际应用中的正态性检验示例

  • 验证考试成绩的正态性

假设一所大学需要通过分析学生的考试成绩来确定哪些学生表现良好,哪些学生表现不佳。为了使用 t 检验评估各组的平均分数,分析师假设分数呈正态分布。分析师首先使用 Shapiro-Wilk 检验来确定考试成绩是否呈正态分布。如果考试成绩显示非正态性,他们应考虑使用 Mann-Whitney U 检验等非参数检验或进行数据转换。

  • 验证金融回报的正态性

一家投资公司的目标是通过查看其日回报率来评估股票的表现。在计算风险(例如在险价值 VaR)时,分析师通常假设金融回报呈正态分布。他们使用 Kolmogorov-Smirnov 检验等数值方法和 Q-Q 图等图形方法。如果结果显示重尾或偏度,该公司可能会采用不同的模型进行风险分析,例如 t 分布或对数正态分布。

在线性回归中,残差呈正态分布的假设对于可靠的置信区间和适当的假设检验至关重要。在拟合模型后,研究人员可能会使用 Shapiro-Wilk 检验和直方图来检查残差的正态性。如果残差不呈正态,研究人员可能会考虑转换数据或使用替代的建模方法,例如稳健回归。

  • 评估医学研究中的正态性

在临床试验中,通常会在治疗前后测量血压。为了进行配对 t 检验,他们假设正态性,以便比较平均血压变化。在进行分析之前,研究人员使用 Anderson-Darling 检验作为正式检验,并生成 箱线图 来检查偏度或异常值。如果数据偏斜,他们可以采用对数转换或非参数 Wilcoxon 符号秩检验。