上四分位数和下四分位数

2025年4月5日 | 阅读8分钟

四分位数是统计学中的一个关键概念,用于将数据集分成四个相等的部分。每个四分位数代表 25% 的数据,有助于可视化特定数值范围内的数据分布。第一四分位数,也称为下四分位数,位于数据集的 25% 以下,而第三四分位数,也称为上四分位数,位于数据集的 75% 以下。中位数将数据集分成两半,位于中间。

四分位数的作用至关重要,因为它们在仅提供均值或中位数之外,还提供了对数据分布更详细的概述。这些对于确定数据的分布以及检测与大多数数据集显著不同的任何异常值特别有用。这就是为什么四分位数在各种现实情况中都很有用,例如研究金融模式或解释考试成绩和研究结果。通过将数据分成更小的部分,四分位数提供了数据集的更精细的视角,揭示了仅通过基本平均值难以获得的数据。

Upper and Lower Quartiles

理解四分位数

使用分位数,可以将数据集在统计学上分成四个相等的部分,这有助于数据分布的分析。更简单地说,它们显示了数据在一个范围内的分散程度。下四分位数(Q1)、中位数(Q2)和上四分位数(Q3)是构成四分位数的三个基本特征。

让我们逐一分解。25% 的数据低于某个点,这一点被称为下四分位数(Q1)。超过 50% 的数据点位于中位数(Q2)之上,这是数据集的中间值。最后,75% 的数据低于某个值,而顶部的 25% 位于其之上,这通常被称为上四分位数(Q3)。通过充当分割线,这些四分位数帮助我们理解数据集中的大多数数据点位于何处。

如何计算四分位数?

要计算四分位数,首先需要将数据从小到大按升序排列。

完成后,您可以使用一个简单的公式来确定四分位数的位置

Upper and Lower Quartiles

这里,n 是数据点的总数。这些公式为您提供了四分位数在数据列表中的位置。如果数据点有 12 个,下四分位数出现在 3.25 的位置,这意味着它位于排序后的数据集的第 3 个和第 4 个值之间。

四分位距和异常值

与四分位数相关的另一个重要概念是四分位距(IQR)。它落在四分位距(IQR)之内,涵盖了数据的中间一半。IQR 衡量数据的分散程度,可以显著提高检测异常值的能力,异常值是数据点,它们比数据集中其余部分显著高或低。

计算 IQR 的公式

一旦有了 IQR,您就可以确定是否有任何数据点是异常值。异常值通常定义为低于 Q1 - 1.5 x IQR 或高于 Q3 + 1.5 x IQR 的任何点。这些异常值很重要,因为它们有时会扭曲数据分析的总体结果,因此识别它们至关重要。

四分位数计算示例

让我们来看一个例子。假设您有以下数据集

1. 整理数据:数字已按升序排列。

2. 查找位置

Upper and Lower Quartiles

3. 确定值

  • Q1 = 12(数据集中的第 3 个值)
  • 中位数(Q2)= 20(第 6 个值)
  • Q3 = 30(第 9 个值)

4. 计算 IQR

  • IQR=Q3−Q1=30−12=18

现在我们有了 IQR,我们可以检查是否有任何异常值。异常值是任何低于 Q1 - 1.5 x 18 或高于 Q3 + 1.5 x 18 的值。

在这种情况下

  • 异常值的下限 = 12 - 27 = -15
  • 异常值的上限 = 30 + 27 = 57

由于没有任何值低于 -15 或高于 57,因此此数据集中没有异常值。

下四分位数(Q1)

一个关键的统计指标,它指定 25% 的数据落在此下方,即下四分位数或 Q1。换句话说,它是将数据集的最低四分之一与其他部分分开的线。这使得 Q1 有助于理解数据集中最小值的分布情况。四分位数,包括 Q1,将数据分成相等的几部分,并有助于更清晰地了解数据的分布和形状。

如何计算下四分位数?

要计算 Q1,首先需要将数据按升序排列,从小到大。

排序后,可以使用此公式确定下四分位数的位置

Upper and Lower Quartiles

这里,n 代表数据点的总数。此公式的结果给出了 Q1 在有序数据中的位置。如果结果不是整数,则 Q1 的位置将在两个数据点之间进行插值。

Q1 在数据分布中的意义

Q1 特别重要,因为它有助于分析师和研究人员了解数据低端是如何分布的。Q1 提供关于 25% 数据点低于该值的位置的信息,作为数据集大多数部分的分割线。它还有助于检测异常值,尤其是在与第三四分位数(Q3)和第一四分位数与第三四分位数之间的范围(IQR)结合使用时。如果数据点远低于 Q1,则可能被视为异常值,表明需要进一步检查的异常或极端值。

研究人员可以通过识别 Q1 并将其与上四分位数进行比较来评估数据的分散性和变异性。Q1 在评估偏斜或分布不均的数据时特别有用,因为它突显了数据在低端处的聚集位置。

示例计算

让我们使用以下数据集计算 Q1

  • 步骤 1:排序数据:数据已按升序排列。
  • 步骤 2:应用公式:Q1 位置 = (11+1)/4 = 3
  • 步骤 3:查找值:排序后的数据集中第 3 个值是 12,因此下四分位数 Q1=12

在此示例中,25% 的数据点低于 12,这表明下四分位数标记了四分之一数据所在的位置。此值提供了对数据在低端行为的更清晰理解,有助于分析和决策。

上四分位数(Q3)

Q3,也称为上四分位数,是一个统计指标,表示 75% 的数据低于该数据点的数值。本质上,Q3 分隔了数据集中底部的 75% 和顶部的 25%。Q3 等四分位数有助于将数据分解成更小的部分,从而更容易分析分布并识别数据点的分布方式,尤其是在范围的高端。

如何计算上四分位数?

要计算 Q3,首先必须将数据按升序排列,从小到大。然后,用于确定上四分位数位置的公式如下

Upper and Lower Quartiles

这里,n 是数据集中数据点的总数。此计算结果给出了 Q3 在有序数据中的位置。与 Q1 类似,如果位置不是整数,则在两个值之间进行插值以找到 Q3。

Q3 在数据分布中的意义

Q3 至关重要,因为它有助于理解数据集中较大值的分布。Q3 提供了分布的更全面视图,它突出了数据的前 25%,而 Q1 则侧重于底部的 25%。在确定四分位距(IQR),即 Q3 和 Q1 之间的差值时,Q3 尤其关键。IQR 是指中间 50% 的数据,是识别异常值和理解数据集分布的有效指标。

Q3 的意义还延伸到识别极大值或异常值。如果数据点远高于 Q3,它们可能是需要进一步调查的异常值。理解上四分位数有助于研究人员和分析师比较数据分布,检测趋势,并对数据在高端的行为方式得出有意义的见解。

示例计算

让我们使用以下数据集计算 Q3

  • 步骤 1:整理数据:数据当前按升序排序。
  • 步骤 2:使用公式:Q3 位置 = 3 x (11+1)/4 = 9
  • 步骤 3:确定值:在已排序的数据集中,第 9 个值是 30;因此,上四分位数 Q3 = 30。

在此实例中,75% 的数据点低于 30,这表明了较大值的分布。通过理解 Q3,我们可以确定数据集中的高值是否异常大,还是属于正常范围,这使其成为分析的重要工具。

上下四分位数的应用

在研究、教育和金融领域进行数据分析时,上下四分位数至关重要。它们有助于研究人员、分析师和决策者理解数据分布,发现趋势,并做出明智的决策。

在金融领域,四分位数通常用于评估投资的表现。股市中的 Q3 可能指示表现最佳的投资,而 Q1 则突出表现不佳的投资。投资者可以因此能力比较回报并评估风险。四分位数可以帮助评估收入分布,识别财富差距,并揭示金融模式。

在研究中,尤其是在健康或社会科学等领域,四分位数有助于理解调查、实验或研究中数据的分布情况。研究人员利用四分位数来比较不同群体,检测异常值,并理解结果的分布。在临床试验中,Q1 和 Q3 可能会揭示特定医疗治疗对不同人群的影响,从而可以有针对性地进行干预。

在教育中,四分位数被用来评估学生的学业成绩。教育工作者可以通过比较学生的分数分布与同龄人来评估学生的表现。下四分位数可能表明需要额外帮助的学生,而上四分位数则代表取得优异成绩的学生。这些信息有助于指导教学决策,并确定需要课程改进的领域。

总的来说,上下四分位数将复杂的数据集分成更小的部分,有助于识别趋势,发现异常,并基于统计分析做出决策。它们具有很强的能力,可以帮助各个领域的专业人士理解数据的分布和多样性。

结论

总之,四分位数,如 Q1 和 Q3,是用于检查数据分布的重要统计工具。它们有助于将数据划分为不同的部分,从而简化了对数据集中值分布方式的理解。IQR 有助于检测异常值。四分位数广泛应用于金融、研究和教育等各个领域,有助于决策、评估绩效和识别数据趋势。总的来说,四分位数提供了对数据行为方式的关键见解。


下一主题业务