中位数的优缺点

17 Mar 2025 | 6 分钟阅读

中位数的定义

在中位数、概率论和概率论中,中位数是统计学中用于分隔数据样本、总体或概率分布中较高一半和较低一半的值。它可以被视为数据集的“中间”值。平均值(通常称为“平均数”)和中位数在表达数据方面的根本区别在于,中位数更能准确地描绘“典型”值,因为它不会被极少数异常大或小的值扭曲。例如,由于收入分布可能相当偏斜,中位数收入可能更能反映“正常”收入。鉴于其崩溃阈值为 50%,并且它是最稳健的统计量,因此中位数对于稳健统计量至关重要,因为它只要不超过一半的数据被污染,就可以防止结果任意大或小。

Advantages and Disadvantages of Median

无论是否在入门统计学课程中,每个人都应该熟悉平均值和中位数这两个词。虽然这些短语经常可以互换使用,但在考虑数据集时,它们有所不同,尤其是在公司使用和科学研究数据集方面。中位数是指将所有数字从小到大排列后,位于中间的任何一个数字,一半的数字小于它,一半的数字大于它。平均值是指所有数字的总和除以集合中的总数。中位数是一种特殊的平均值,可用于表示数据集中的值。计算中位数的方法是找到一半数据低于该点,另一半数据高于该点的点。虽然它比平均值使用频率低,但当数据集包含可能扭曲平均值计算或标准差的异常值时,它特别有用。

鉴于它是数据集的中间点,中位数在统计学上比平均值和均值具有一些优势,这就是为什么它被称为中位数。中位数在汇总统计量和数据可视化中概括了分布数据。这包括散点图、直方图、茎叶图、箱形图等图形。中位数在这些类型的可视化中显示在其精确的中心或数据点数量为奇数的区域。如果数据集包含偶数个数据点,则取平均值。

中位数的优点

首先讨论中位数是合理的。中位数是指一组数字中,下方数值数量与上方数值数量相等的中间值。例如,在范围 [1, 4, 3] 中,值为 3 是中位数,因为小于 3 的值有两个(1 和 2),大于 3 的值有两个(4 和 5)。**鉴于它是一种统计测量方法,中位数在许多方面优于其他平均值,包括以下方面:**

  • 简单易行

与其它平均值不同,中位数不需要复杂或精密的计算。例如,在处理包含小数的数据时,计算平均值比应有的更难,但计算中位数却很简单。此外,由于它只使用整数,因此确定中位数不需要复杂的步骤,并且可以快速完成。

  • 不受极端值影响

极端值对中位数没有影响。这意味着给定的极端高或低值不会影响您的平均值。

例如,在范围 [1, 4, 3] 中,值为 3 是中位数,因为小于 3 的值有两个(1 和 2),大于 3 的值有两个(4 和 5)。由于我们的集合中只有三个数字,而 4 是一个极端值,我们可以说数字 4 在任何方面都不是我们集合的一部分。

Advantages and Disadvantages of Median
  • 图形表示

通过在数据点之间画一条线,您可以看到确定中位数的确切位置是多么简单。一条将一组数据点分成两半的线在视觉上代表了中位数。例如,在范围 [1, 4, 3] 中,值为 3 是中位数,因为小于 3 的值有两个(1 和 2),大于 3 的值有两个(4 和 5)。

  • 适用于开放式分布

中位数适用于开放式分布。这意味着即使您的数据有无限多的值,您仍然可以使用它来获取中位数。

换句话说,不管您的集合中有多少个点,您都必须在计算它们的平均值后找出哪个点正好位于它们中间。但请记住,在使用连续变量(如年龄)时,不可能确定中位数,因为它们之间没有明确的界限。

  • 明确且稳定

它明确且稳定。这意味着对于给定的一组数据值,中位数有一个明确的值。另一方面,在计算众数时可能存在两个可能的值(双峰分布)。

  • 易于理解

它易于理解和计算。有时可以通过目视检查轻松找到。

  • 可通过图形计算

通过绘制直方图,可以图形化地计算中位数。

Advantages and Disadvantages of Median
  • 不受极端值影响

在检查偏斜分布时使用,因为它不受极端值影响。极端值根本不会影响它。这是因为中位数是使用数据值的相对位置确定的。

  • 可用于开放式类别

它可以用于具有开放式类别的分布。

  • 用于定性数据

我们可以使用中位数来分析定性数据的集中趋势,这些定性数据的属性可以按升序或降序排序。然而,算术平均值不能用于分析智力、美貌等属性。

  • 减小总偏差

数据值与中位数的总绝对偏差小于任何其他值。因此,中位数最有可能代表数据集的核心值。

Advantages and Disadvantages of Median

中位数的缺点

由于中位数是一种非参数检验,因此其 p 值近似为 0。因此,低 p 值并不总是表示存在异常值。相反,它表明可能存在异常值。除了使用中位数外,如果您想确定数据集是否存在异常值,您可以执行参数检验,如 t 检验或方差分析。

缺点包括以下几点:

  • 观测值模糊:

当观测值数量恰好为偶数时,不可能确定中位数。我们只能取中间两个值的平均值来估计它。

  • 未考虑所有观测值

这个特性有时被称为“中位数不敏感性”。例如,当范围为 10、25、50、60 和 65 时,中位数是 50。在不改变中位数的情况下,观测值 10 和 25 可以被替换为任何小于 50 的值,而 60 和 65 可以被替换为任何大于 50 的值。

  • 无法进行代数运算

例如,对于两个数据集的平均值,有一个合并算术平均值的公式。然而,我们需要确定两个数据集的中位数给定的合并数据集的中位数。

  • 抽样变异性

与其它变量相比,抽样变异性对均值有显著影响。

  • 大型数据集可能很繁琐

对于小型数据集,由于不需要进行数学计算,因此可以轻松手动找到中位数。对于大型数据集,手动确定中位数是不可能的,因为即使是少量观测值也必须按顺序排列,这非常乏味。

  • 不适用于分数和百分比

这不适用于分数或百分比。如果您选择中位数作为您的平均值,您将无法确定您的数据中有多少百分比对应于某个特定值。由于分数只能表示为整数,您将无法精确确定两个观测值之间的数字。

结论

美国的中位数工资为 31,660 美元,而平均工资为 52,851 美元。平均值是所有值的总和除以值的总数。中位数是中间值,一半的值作为第一个值,另一半作为第二个值。


下一个主题Emmc