连续概率分布

2025年6月17日 | 阅读时长8分钟

在概率论和统计学中,概率分布是数学中用来表示给定试验下多种可能结果发生可能性的表达式。样本空间和事件概率(样本空间的子集)被用来量化描述随机现象。表示随机变量取其任意可能值时发生可能性的函数称为概率分布。

换句话说,变量的值会根据其底层的概率分布而波动。假设你从一个随机样本中选取了受试者,然后测量了他们的身高。随着你测量身高,你可以建立一个身高的分布。当你需要知道各种结果的可能性、可能值的分布范围以及哪些结果更可能发生时,这种分布很有帮助。分布分为两类:连续或离散。

连续概率分布的支撑集是一个不可数集合,例如实线上的一个区间。它们可以通过一个累积分布函数来区分,该函数可用于计算每个支撑子集的概率。

正态分布

正态分布可以说是统计学中应用最广泛的分布。大多数传统的检验都假设数据呈正态分布。在使用这些检验之前,通常应该检验“正态性假设”。在许多数学模型(包括线性和非线性回归)中,误差项被假定为具有特定均值和方差的正态分布。正态分布用于许多假设检验和置信区间,以确定显著值。

输出

Continuous Probability Distribution

均匀分布

由于它为连续分布定义了一个特定区间上的等可能概率,所以均匀分布作为参考分布具有重要意义。随机数生成是均匀分布最重要的应用之一。换句话说,几乎所有类型的生成器都会产生介于零和一之间的随机数。在使用不同的分布时,均匀随机数会经历一些变化。

输出

Continuous Probability Distribution

柯西分布

一种具有重尾的连续概率分布,其均值和方差都未定义,由两个参数定义:位置参数 mu 控制分布峰值的中心偏移;尺度参数 gamma 控制分布的散布或尺度。这种柯西分布常用于具有极端离群值或数据被罕见极端事件严重主导的现象。与正态分布类似,它也具有钟形曲线,但尾部更重,极端值出现的可能性更高。它在物理学和信号处理等领域很有用,这些领域中极端值的出现备受关注。然而,它的矩未定义,因此缺乏均值和方差,这使得它在某些应用中成为一个奇怪且难以处理的分布。

输出

Continuous Probability Distribution

t 分布

这在假设检验的临界区域和置信区间计算的许多情况下都适用。最广泛使用的例子是检验数据是否与假设的过程均值一致。

输出

Continuous Probability Distribution

F 分布

F 分布在许多情况下都很有用,尤其是在确定置信区间和假设检验的关键区域时。为了确定两个总体的方差是否相等,两个常见示例是 F 检验和方差分析。

输出

Continuous Probability Distribution

卡方分布

卡方是一种非常有用的统计工具,尤其是在检验假设或形成分类数据的置信区间时。它源于独立标准正态变量的平方和,其形状受自由度的影响。常见的应用包括确定列联表中行和列之间的独立性,以及寻找总体方差是否等于某个给定值。这也是它对于拟合优度检验和分类关系分析不可或缺的原因之一。

输出

Continuous Probability Distribution

指数分布

指数分布是一种连续概率分布,通常用于泊松过程建模中事件之间的时间。它由参数“lambda”表征,该参数描述了事件的发生率,它不依赖于记忆,因为在给定点之后,事件发生的可能性不取决于已经经过的时间。它的应用包括建模等待时间、系统可靠性和组件寿命,因此在排队论和生存分析等领域至关重要。

输出

Continuous Probability Distribution

威布尔分布

威布尔分布用于表示许多可靠性应用中的失效时间。

输出

Continuous Probability Distribution

对数正态分布

对数正态分布是一种连续概率分布,其随机变量的对数呈正态分布。它有两个参数,即底层正态分布的均值和标准差。对数正态分布呈正偏态,用于建模不能取负值的数据,例如收入水平、股票价格或生物体的尺寸。它在金融、经济学和环境研究中具有应用价值,因为它非常通用,并且允许表示偏态数据。

输出

Continuous Probability Distribution

Birnbaum-Saunders 分布

Birnbaum-Saunders 分布是可靠性应用中建模失效时间的一种广泛使用的分布。

输出

Continuous Probability Distribution

伽玛分布

伽玛分布是等待时间、可靠性和系统寿命研究中最受欢迎的连续分布之一。它依赖于两个参数:形状参数 k 和尺度参数 theta,它们都会影响形状和散布。如果 k 是整数,它表示泊松过程中第 k 个事件的等待时间。它非常通用,包含指数分布和卡方分布等其他分布作为特例。伽玛分布应用于排队论、风险分析和水文学等领域。

输出

Continuous Probability Distribution

拉普拉斯分布

拉普拉斯分布也称为双指数分布。它是一种连续概率分布,在均值处有一个尖锐的峰值,并且比正态分布有更重的尾部。它由两个参数表征:其位置参数 mu 决定了分布的中心,尺度参数 b 控制了数据的散布或变异程度。它通常应用于信号处理、经济学以及机器学习中,用于建模包含频繁的剧烈变化或极端离群值的数据。它对这种偏差的抵抗力使其成为稳健统计应用的有用工具。

输出

Continuous Probability Distribution

幂正态分布

这是一个广义正态分布的连续概率分布族,它有一个参数,最常见的表示为 alpha,用于确定分布的形状。当 alpha = 1 时,幂正态分布退化为标准正态分布。当 alpha 不等于 1 时,它会具有不同的偏度和峰度,从而能够捕捉具有重尾或不对称性的数据,这在金融和环境建模等领域非常有用,因为实际数据可能不遵循精确的正态曲线,但确实包含一些与正态曲线相关的特征。

输出

Continuous Probability Distribution

Tukey Lambda 分布

这个连续概率分布族概括了几个著名的分布,即正态分布、指数分布和均匀分布。该分布有一个 lambda 参数,通过该参数可以调节分布的形状。Tukey lambda 分布的各种形式包括:当 lambda 等于 0 时呈正态形状;当 lambda 取特定集合中的某个值时呈指数形状;当 lambda 位于一个更广泛的取值范围内时,可能呈现任何其他偏斜或峰度形状。它广泛用于建模具有不同程度偏斜和重尾的数据。它在金融、风险分析和环境建模等领域有许多应用。

输出

Continuous Probability Distribution

极值 I 型分布

这是对数据集中最大值或最小值事件的极端行为进行建模的连续分布,它是环境科学、水文学、工程学和风险分析等应用中最常用的分布之一,这些应用关注预测罕见事件,如最高温度、最大降雨量或最大地震。Gumbel 分布有两个参数:它由沿 x 轴移动分布的位置参数 mu 和控制分布散布或分散程度的尺度参数 beta 来指定。Gumbel 分布的特点是尾部较重;因此,该分布用于对远离均值的极端值进行建模。这一特性使得该分布能够有效地估计各种应用中罕见、高影响力事件的可能性。

输出

Continuous Probability Distribution

Beta 分布

Beta 分布是一个定义在 [0, 1] 区间上的灵活的连续概率分布。因此,它可以用于建模任何表示比例或概率的随机变量,例如实验中的成功率或贝叶斯统计中的参数分布。它由两个形状参数 alpha 和 beta 决定,并且已被证明可以采取多种多样的形状。例如,当两个参数相等时,分布是均匀的。当 alpha > beta 时,分布会偏向于 1。如果 alpha < beta,则会偏向于 0。这可以用于建模概率模型中的不确定性,并在金融、生物学和机器学习等领域有广泛的应用。由于其灵活性和建模各种类型数据的能力,它在统计分析中发挥着关键作用,尤其是在贝叶斯推断中,此时它们充当未知概率的先验分布。

输出

Continuous Probability Distribution