中位数(统计学)定义

2025年3月17日 | 阅读 12 分钟

在中数和概率论中,中位数是划分统计样本、总体或概率分布的上、下两半的值。它可能被称为数据集合的“中间”值。与均值(通常称为“平均值”)相比,使用中位数来解释数据的最大优点是,中位数更能准确地代表中间值,因为它不会被极高或极低的少数数值所扭曲。例如,由于仅增加最高收入对中位数没有影响,因此人均收入是定义收入分布中心的一种更好的方法。因此,中位数对于健全的统计至关重要。

Median (Statistics) Definition

历史

古代近东的科学家不仅使用汇总统计数据,而是选择与包含各种事件的更普遍理论最一致的数字。诸如均值之类的统计数据是地中海(以及随后的欧洲)学术界的中世纪和近代早期产物。

为了客观地分析不同的评估,中位数的概念最早出现在公元六世纪的《塔木德》中。然而,这一概念需要获得更广泛科学界的认可。

相反,Al-Biruni发明的极差是当前中位数最接近的前辈。Al-Biruni 的工作如何传给后来的学者仍有待确定。Al-Biruni 使用他的方法来测定金属,但即使在他公布他的发现后,大多数测定师仍然选择他们结果中最不利的那个值,因为他们担心这会让他们看起来像在作弊。然而,随着海上交通在地理大发现时代的发展,船只导航员被迫在恶劣天气和危险海岸下进行更多尝试来计算纬度,这激发了人们对汇总统计数据重新产生兴趣。无论它是独立创造还是被发现,Harriot 的《1595 年给 Raleigh 探险圭亚那的指示》都建议海军导航员使用极差。

中位数的概念可能最初出现在爱德华·赖特(Edward Wright)1599 年出版的书《航海中的某些错误》(Certaine Errors in Navigation)关于罗盘导航的章节中。由于中位数包含比极差更多的信息,赖特可能认为它更可能准确,因为他不愿丢弃测量值。然而,由于他没有提供他方法的使用示例,因此很难确定赖特是否准确地描述了当前的中位数概念。克里斯蒂安·惠更斯(Christiaan Huygens)的信中提到了中位数(在概率的上下文中),但将其作为不适合用于精算实践的统计量来说明。

L1 范数,以及间接的中位数,是 Roger Joseph Boscovich 回归方法的基础,该方法首次提倡使用中位数。这发生在 1757 年。拉普拉斯(Laplace)在 1774 年阐明了这一愿望,当时他提议使用中位数作为后验概率分布的公认估计值。精确的标准是 |α - α*|,其中 α* 是估计值,α 是实际值,以最小化错误的预测量。拉普拉斯在 1800 年代早期建立了样本均值和样本中位数的分布,以实现这一点。但十年后,高斯(Gauss)和勒让德(Legendre)提出了最小二乘法,该方法通过最小化 (α - α*)² 来得到均值。高斯和勒让德的发明使得回归领域的计算更加简单。因此,直到 150 年后计算机技术发展起来(并且仍然是一种相当不寻常的方法),拉普拉斯的提议才经常被忽视。

Antoine Augustin Cournot 在 1843 年首次使用了中位数(valeur médiane)一词,它指的是将概率分布分成两半的值。Gustav Theodor Fechner 使用中位数(Centralwerth)来分析社会和心理现象。以前它只用于天文学及相关科目。尽管拉普拉斯以前使用过它,并且 F. Y. Edgeworth 的教科书中也提到过中位数,但正是 Gustav Fechner 使中位数广泛应用于数据形式分析。在 1869 年引入“中间值”(middle-most value)和 1880 年引入“中值”(medium)之后,Francis Galton 在同年首次使用了英文术语“median”。

在整个 19 世纪,统计学家们大力推广中位数的用法,因为它们直观清晰且易于手动计算。然而,中位数的概念在计算机上的计算要困难得多,并且不像算术平均数那样适合高阶矩理论。因此,在 20 世纪,算术平均数逐渐取代中位数成为一般平均数的概念。

有限数据集

当一个有限的整数列表从最小值到最大值排序时,中位数是“中间”的数字。

如果数据集合的观测次数是奇数,则选择中间的观测值。例如,以下列表包含七个数字

数字 1、3、3、6、7、8 和 9 的中位数值是 6,即第四个值。

当数据集中观测次数相等时,没有明确的中间值,中位数通常是两个中间值的算术平均值。例如,这个包含 8 个数字的集合

1、2、3、4、5、6、8 和 9 的中位数值均为 4.5。这表示中位数是完全修剪后的极差(更专业的说法)。

总的来说,可以使用此约定如下定义中位数:当数据集中 n 个项目 x 从最小值到最大值排序时,

如果 n 是奇数,则中位数(x) = x(n+1)/2

如果 n 是偶数,则中位数(x) = (x(n/2) + x((n/2)+1) ) / 2

Median (Statistics) Definition

形式化定义

形式上,一个总体的中位数是任何一个值,使得至少一半的总体大于或等于该值,并且至少一半小于该值。如前所述,中位数可能不唯一。如果一半以上的人口存在于每个集合中,那么人口的一部分恰好等于不同的中位数。任何有序(一维)数据集都有一个明确定义的中位数,它不受任何距离度量的影响。因此,中位数可用于分类但不数值化的类别(例如,当学生被授予 A 到 F 的等级时计算中位数等级)。然而,如果实例数是偶数,结果可能位于类别之间。

另一方面,几何中位数可以在任意多维空间中指定。medoid 是一个类似的概念,其结果会匹配样本参与者。虽然没有普遍接受的中位数标准符号,但一些作者选择将变量 x 的中位数写为 x 或 x1/2,有时也写为 M。这些实例中的任何一个都需要中位数使用这些符号或任何其他符号时都有明确的定义。中位数是第二个四分位数、第五十分位数和第 50 个百分位数的特例,用于总结与统计分布相关的常用值。

用途

当对极端值给予较少权重时,可以使用中位数作为位置度量。通常是因为分布是偏斜的,极端值未知,或者离群值不可靠,即它们可能是转录或测量错误。

以多重集为例

1, 2, 2, 2, 3, 14.

在此实例中,众数和中位数均为 2;这些数字可以被视为比算术平均数(在此实例中为 4,大于除一个值之外的所有值)更能代表中心。根据普遍接受的经验关系,均值比中位数“更偏向”分布的“尾部”,这种情况并不总是准确的。充其量,人们可以断言这两个统计量不能“相距太远”;有关更多信息,请参阅下面关于不等式相关均值和中位数的章节。

为了确定中位数,可以省略极值,因为它基于集合中的中间数据。例如,如果在一项评估问题回答时间的心理测试中,一小部分受试者在规定时间内未能完全解决问题,仍然可以得出中位数。

中位数是描述性统计中常用的汇总统计量,因为它易于理解、计算简单,并且能可靠地近似均值。在这种情况下,有多种变异性度量可供选择,包括范围、四分位距、平均绝对偏差和中位数绝对偏差。

对各种位置和离散度度量进行的实际比较通常侧重于如何有效地从样本数据中推断出相关的总体值。使用样本中位数计算时,中位数的属性非常出色。如果采用特定的总体分布,可能会更好,但其属性始终相当不错。例如,根据对候选估计器效率的比较,当且仅当数据不受混合分布或重尾分布数据的影响时,样本均值在统计上更有效。但是,中位数仍然优于最小方差均值(对于大型正态样本,效率为 64%),这意味着中位数的方差约为均值的 50%。

某些分布的中位数

即使对于某些没有明确定义的均值的分布,例如柯西分布(Cauchy distribution),某些类型的分布的中位数也可以根据其参数计算:

  • 对称单峰分布的中位数等于其众数。
  • 具有均值的对称分布也具有中位数。
  • 均值为 1、方差为 2 的正态分布的中位数值为 1。实际上,对于正态分布,均值等于中位数等于众数。
  • [a, b] 区间内均匀分布的中位数等于 (a + b) / 2,这也等于其均值。
  • 位置参数(由 x0 表示)是具有比例参数和位置参数的柯西分布的中位数。
  • 最小值使得幂律成立的是 xmin,而具有指数 a > 1 的幂律分布的中位数是 21/(a-1)xmin
  • 指数分布(速率参数为 λ)的中位数值是 2 的自然对数与速率参数之比,即 1ln2/λ。
  • 具有形状参数 k 和尺度参数的威布尔分布的中位数是 (ln 2)1/k

性质

最优性性质

E(|X-c|)

是实数 c 和随机变量 X 之间的平均绝对误差。

如果 X 的概率分布允许上面提到的期望存在,那么 m 是 X 的中位数,当且仅当 m 最小化相对于 X 的平均绝对误差。具体来说,如果 m 是样本中位数,它最小化绝对偏差的算术平均值。但请记住,当样本包含偶数个分量时,此最小值并非唯一。

更广泛地说,中位数被定义为以下值的最小值:

E(|X-c|-|X|),

如多变量中位数(更具体地说,空间中位数)部分所述。

这种基于优化的中位数定义对于分析统计数据非常有用,例如在 k-medians 聚类时。

均值与中位数之间的不等关系

比较两个具有不同偏斜度的对数分布的均值、中位数和众数。具有有限方差的分布中,中位数与均值之间的差值限制在一个标准差内。

对于离散样本,此界限由 Book 和 Sher 于 1979 年建立,并由 Page 和 Murty 于 1982 年更广泛地建立。作为对 O'Cinneide 后续证明的评论,Mallows 于 1991 年提供了一个简短的证明,该证明两次使用了 Jensen 不等式。当我们使用 || 作为绝对值时,我们得到

| μ - m | = | E(X - m) | </= E(|X - m|)

</= E(|X - μ|)

</= √ E((X - μ)²) = σ

第一个和第三个不等式是由于将 Jensen 不等式应用于平方函数和绝对值函数而产生的,这两个函数都是凸函数。中位数最小化了绝对偏差函数 a − E(|X − a|),这导致了第二个不等式。

通过将范数替换为 Mallows 证明中的绝对值,可以得到该不等式的多变量版本

|| μ - m || </= √ E(||X - μ||²) = √ trace(var(X))

当 m 是函数 minimiser a − E(||X − a||) 时,或当数据集为二维或更高维时,当 m 为空间中位数时,空间中位数是不同的。

使用切比雪夫单边不等式(可以在位置和尺度参数的不等式中找到)的另一种证明。此外,Cantelli 不等式可直接推导出此公式。

样本中位数

有效的样本中位数计算

尽管比较排序 n 个项目需要 O(n log n) 次操作,但选择算法只需 O(n) 次操作即可确定第 k 小的项。这包括中位数,即 n/2 阶统计量(或对于偶数样本,是两个中间阶统计量的算术平均值)。

选择算法的缺点是它们仍然需要 O(n) 的内存;也就是说,它们需要将整个样本存储在内存中(或其线性大小的部分)。由于这个原因,以及线性时间的要求可能令人望而却步,因此存在许多估计中位数的方法。快速排序算法通常使用“三数取中”规则作为子程序,该规则将中位数估计为三元素子样本的中位数。此规则简单,并使用输入中位数的估计值。Tukey 的 ninther 是一个更可靠的估计器,它是三数取中规则通过少量递归得到的结果:如果 A 是表示样本的数组,并且

med3(A) = median(A[1], A[n/2], A[n]),

然后

ninether(A) = med3(med3(A[1.....n/3]), med3(A[n/3.....2n/3]), med3(A[2n/3.....n]))

remedian 是一个中位数估计器,它在样本上进行一次传递,具有线性时间但亚线性内存需求。

抽样分布

拉普拉斯曾被用来计算样本中位数和均值的分布。当一个总体具有概率密度函数 f(x) 时,从中位数 m 的样本中位数的分布渐近正态,具有均值 μ 和方差

1 / (4nf(m)²)

其中中位数 m 是 f(x),样本大小是 n。

样本中位数 ~ N (μ = m, σ² = 1 / (4nf(m)²)

以下是当代证明。现在已知拉普拉斯的发现是任意分位数渐近分布的一个特例。

密度是正态样本,其中密度为 f(m) = 1 / √(2πσ²)

因此,对于大样本,中位数的方差等于 (π/2) * (σ²/n)。

渐近分布的偏差

对于离散变量的情况,公式如下,在经验局部密度中给出。我们假设我们的变量是连续的,并且样本大小是奇数。样本可以归纳为“低于中位数”、“等于中位数”和“高于中位数”,这对应于具有概率的二项分布。

由于连续变量的多个样本值可能不精确地等于中位数,因此可以从二项分布直接计算点 v 处的密度

Pr[Median = *v*] *dv* = (2n + 1)! / (n! n!) * F(*v*)n(1 - F(*v*))n f(*v*) *dv*

我们将讨论 beta 函数。当使用整数参数 α 和 β 时,可以表示为

B(α, β) = (α - 1)! (β - 1)! / (α + β - 1)!

另外,f(*v*) *dv* = dF(*v*),

使用这些关系并将 α 和 β 都设为 n+1,也可以写成

F(*v*)n(1 - F(*v*))n / B(n+1, n+1) *dF(v)*

因此,中位数密度函数是一个对称的 beta 分布,由 F.adv 推广。其方差等于其均值,即 0.5,正如预期的那样。

根据链式法则,样本中位数的相关方差为

1 / (4(N+2)f(m)²)

额外的两个在极限情况下几乎可以忽略不计。

多变量中位数

当样本或总体只有一维时,单变量中位数已在本篇文章之前的章节中进行了解释。当维度为二维或更高时,存在许多概念超出了单变量中位数的定义;所有这些多变量中位数在维度恰好为一时都与单变量中位数一致。

边缘中位数

对于相对于预定坐标集定义的向量,定义了边际中位数。由单变量中位数组成的向量称为边际中位数。边际中位数的性质已由 Puri 和 Sen 研究过,并且易于计算。

几何中位数

点是欧几里得空间中一组离散样本点 x1,... xn 的所有样本点到该点的距离之和最小化的点。

与边际中位数不同,几何中位数在欧几里得相似变换(如平移和旋转)下是等变的。

所有方向上的中位数

“所有方向上的中位数”是所有坐标系下的边际中位数相交的位置。由于中位数选票定理,这一概念在投票理论中有应用。当存在(至少对于离散分布)时,几何中位数与所有方向上的中位数相对应。

中心点

中心点是高维中位数的一种替代推广。


下一个主题垄断定义