Python - 统计学中的离散超几何分布

2024 年 08 月 29 日 | 阅读 9 分钟

在数据分析和决策制定中,统计学至关重要,它能让我们深入了解不确定性和变异性的复杂世界。从预测股市趋势到理解遗传特征,统计分布是建模和分析的基石。其中,离散超几何分布在涉及有限总体和不放回抽样的情况下发挥着关键作用。在本文中,我们将踏上概率和统计之旅,深入探讨离散超几何分布的复杂性,并揭示 Python 的 scipy.stats 模块如何赋能我们将其应用于实际场景。通过本次探索,您将对该分布的机制及其在现实世界中的相关性有扎实的理解,从而掌握一个强大的工具,以便在面对不确定性时做出明智的决策。

什么是统计学中的离散超几何分布?

离散超几何分布是一种统计概率分布,用于模拟从有限总体中不放回抽样的情况。它描述了从包含已知数量成功和失败的总体中,在固定次数的抽取中获得一定数量成功的概率。

关键参数

  • 总体大小 (N):它是个人或项目的总数。
  • 总体中的成功次数 (M):成功个人或项目的计数。
  • 抽取次数 (n):从总体中抽取或采样的总次数。
  • 所需成功次数 (k):您希望获得的特定数量的成功个人或项目。

工作方式

概率质量函数 (PMF)

离散超几何分布的 PMF 计算在 'n' 次抽取中获得恰好 'k' 次成功的概率。在数学上,它表示为:

其中

  • (从 M 中选择 k) 有多种方法可以从 'M' 个成功项目中选择 'k' 个成功。
  • ((N - M) 中选择 (n - k)) 是从 'N - M' 个非成功项目中选择剩余的 'n - k' 个项目的方法数。
  • (从 N 中选择 n) 是从总体中的 'N' 个项目中选择 'n' 个项目的总方法数。

累积分布函数 (CDF)

离散超几何分布的 CDF 计算在 'n' 次抽取中获得最多 'k' 次成功的概率。它是从 '0' 到 'k' 的单个概率之和

计算概率的步骤

  • 使用组合公式或函数(例如,Python 的 scipy 库中的 scipy.special.comb())计算 (从 M 中选择 k)、((N - M) 中选择 (n - k)) 和 (从 N 中选择 n)。
  • 将这些值代入 PMF 公式,计算获得恰好 'k' 次成功的概率。
  • 对于 CDF,通过从 '0' 迭代到 'k',将获得最多 'k' 次成功的概率相加。

该分布是“离散的”,因为它处理的是个体计数,而不是连续值。

与其他分布(例如二项分布,它假设每次抽取后替换)不同,离散超几何分布考虑了由于不放回抽样,每次抽取后成功概率的变化。

离散超几何分布的概率质量函数 (PMF) 给出在 'n' 次抽取中获得恰好 'k' 次成功的概率。累积分布函数 (CDF) 提供获得最多 'k' 次成功的概率。

实际应用

离散超几何分布应用于各种现实世界场景,在这些场景中我们对涉及有限总体和不放回抽样的情况建模感兴趣。让我们探讨其一些详细应用

制造中的质量控制

在制造过程中,确保产品质量至关重要。超几何分布可用于评估生产批次的质量。从批次中不放回地选择一定数量的物品,该分布有助于评估获得特定数量缺陷物品的可能性。此信息有助于决定批次是否符合质量标准或需要进一步检查。

遗传学和种群研究

遗传学研究通常涉及分析种群中存在的性状或等位基因。在研究遗传性状时,研究人员可能会不放回地选择个体样本,以了解特定性状的分布。离散超几何分布在此适用,它考虑了每次抽取时成功概率(特定等位基因的存在)的变化。该分布有助于估计样本中具有特定性状的个体数量的可能性。

审计抽样

审计师使用统计抽样技术来评估财务记录的准确性和可靠性。超几何分布可用于审计抽样场景,其中不放回地选择一部分金融交易进行检查。通过应用该分布,审计师可以估计在样本中发现一定数量的违规或欺诈交易的概率,帮助他们识别潜在问题并有效分配资源。

生态学和环境研究

在生态学研究中,研究人员经常调查特定区域的物种丰度。离散超几何分布可用于从生物种群中抽取特定数量的个体,以确定观察到具有特定特征(例如,性别、大小或行为)的个体数量的概率。这有助于生态学家得出关于生态系统种群动态和生物多样性的结论。

彩票和游戏分析

超几何分布甚至可以应用于分析彩票、机会游戏和赌博的某些方面。例如,考虑一个场景,其中一定数量的获奖彩票隐藏在大量彩票中,玩家购买了其中的一部分。该分布可以估计玩家在购买中获得特定数量获奖彩票的可能性。

医学测试和临床试验

在医学测试中,研究人员可能对评估治疗对特定患者子集的有效性感兴趣。超几何分布可用于模拟在临床试验中观察到一定数量阳性结果(成功)的概率,其中不放回地选择有限数量的患者。

市场研究和调查

在进行市场研究或调查时,研究人员通常旨在估计目标人群中某些特征的流行程度。离散超几何分布可以帮助计算在不放回抽样场景中获得具有特定属性的受访者数量的概率,从而帮助分析师对整个总体进行推断。

库存管理

企业经常面临与库存管理相关的决策,例如在商店中补充商品。超几何分布可用于分析从有限供应中补充商品时选择具有特定特征(例如,有缺陷的商品)的物品数量的概率。

体育分析

在体育分析中,超几何分布可用于评估特定结果的可能性。例如,在预测篮球运动员在一场比赛中成功投篮的次数时,该分布可以帮助解释有限的尝试次数和每次投篮成功概率的变化。

社会科学和人口统计学

研究社会现象或人口趋势的研究人员可能会使用超几何分布来分析人口子集,并估计观察到具有特定特征或行为的个体数量的可能性。

生态毒理学和环境风险评估

在评估污染物对生态系统的影响时,科学家可能会从受污染区域采样生物体,以估计某些性状或疾病的流行率。超几何分布有助于确定在样本中遇到特定数量受影响生物体的概率。

法医学

法医科学家使用统计技术分析证据并在刑事调查中得出结论。离散超几何分布可用于选择用于法医分析的物品,以估计找到具有相关特征的特定数量物品的概率。

在所有这些应用中,离散超几何分布都是分析涉及从有限总体中不放回抽样情况的强大工具。它能够捕捉每次抽取时成功概率的变化,这使得它在总体规模相对较小,而样本规模相对较大的场景中特别有用。通过应用这种分布并利用 Python 的统计库,来自各个领域的专业人员可以获得见解,做出明智的决策,并从他们的数据中得出有意义的结论。

在所有这些应用中,离散超几何分布是一种宝贵的工具,用于量化概率并根据从有限总体中不放回抽样做出明智的决策。Python 的 scipy.stats 库简化了计算方面,让实践者能够专注于分析的见解和影响。通过理解和利用此分布,各个领域的专业人员可以增强其决策过程,并更深入地了解现实世界场景的动态。

Python 实现

创建超几何离散随机变量

在概率论和统计学中,随机变量是一个值不确定并由随机实验结果决定的变量。超几何离散随机变量是一种遵循离散超几何分布的随机变量。它表示从有限总体中不放回抽取特定数量的项目时获得的成功次数。

要创建超几何离散随机变量,您需要定义分布的参数:总体大小 (N)、总体中的成功次数 (M)、抽取次数 (n) 和所需成功次数 (k)。一旦定义了这些参数,您就可以使用该分布生成表示抽取中成功次数的随机变量。

超几何离散变量和概率分布

超几何离散随机变量生成超几何离散变量。这些变量表示从总体中不放回抽取的样本中获得的成功次数。每次生成随机变量时,您都在模拟从总体中抽取项目并计算这些抽取中的成功次数。

超几何离散随机变量的概率分布描述了在抽取中观察到每个可能的成功次数的可能性。此分布由超几何概率质量函数 (PMF) 定义。对于 'k' 的每个可能值(成功次数),PMF 计算在 'n' 次抽取中获得恰好 'k' 次成功的概率。

图形表示

图形描绘有助于可视化概率分布并深入了解随机变量的行为。对于离散超几何分布,您可以创建概率质量函数 (PMF) 图来可视化不同成功次数的概率。

要创建 PMF 图,您将 'k' 的可能值绘制在 x 轴上,将相应的概率绘制在 y 轴上。此图显示了一系列条形或点,每个条形或点的高度代表获得该特定成功次数的概率。

创建和可视化 PMF 图有助于您了解分布的特征,例如最可能的成功次数以及概率在不同结果上的分布。它是解释离散超几何分布在实际场景中含义的宝贵工具。

输出

Generated samples: [3 3 3 4 3 5 4 4 3 3 5 5 4 4 4 4 5 4 4 5]

注意:上述代码的输出每次运行都会有所不同

此代码演示了创建超几何离散随机变量、生成变量、计算概率分布以及创建条形图以可视化分布的过程。请记住安装 scipy 和 matplotlib 库 (pip install scipy matplotlib)。

结论

离散超几何分布是一种统计工具,用于建模从有限总体中不放回抽取时获得一定数量成功的概率。它考虑了每次抽取时成功概率的变化,并应用于制造、遗传学和审计等许多领域。

使用 Python 的 scipy.stats 模块,我们可以创建超几何随机变量,生成变量,并计算不同结果的概率质量函数 (PMF)。通过条形图可视化 PMF 增强了我们对分布行为的理解。

本质上,离散超几何分布使我们能够分析涉及有限总体和不放回抽样的场景。它提供了对实现所需结果可能性的见解,有助于跨不同领域的决策和数据分析。通过掌握其概念并利用 Python 的功能,我们为自己配备了一个多功能工具,用于做出明智的决策并从现实世界数据中提取有价值的见解。