伯努利试验和二项分布

7 Jan 2025 | 7 分钟阅读

引言

在概率推测中,以瑞士科学家雅各布·伯努利命名的伯努利试验是基本概念。它们处理一系列评估或识别,这些评估或识别有两种可能的结果,通常被推断为“成功”和“不成功”。这些结果通常与抛硬币时的正面或反面、公众中品牌标识的存在或不存在,或者事件的发生或不发生等事物相关联。

伯努利基础中的每个主要因素都是独立的,这意味着一个主要因素的结果对另一个主要因素的结果没有影响。同样,成功(表示为 p)的可能性对所有基础都保持不变,而不成功(q)的可能性基本上是 1-p。这些介绍是更高级概率课程的基础,尤其是那些包含二项式分布的课程。

伯努利起源在许多领域都有应用,包括科学、规划、科学估计和财务问题。例如,它们用于模拟抛硬币,其中成功可以定义为获得正面。在临床环境中,成功可能表明患者从疾病中康复。了解伯努利起源至关重要,因为它们提供了概率推测的基本理解,并为二项式散射等进一步发展的概念提供了基础,使检查员通常能够做出明智的结论和假设。

伯努利试验的例子

  • 在线广告点击:在在线广告中,用户点击广告(成功)或不点击广告(失败)的决定取决于他们是否访问网站。每次点击或未点击事件都是一个伯努利试验,因为广告点击通常是独立的事件,并且在不同人群中发生的概率是固定的。
  • 制造缺陷:伯努利试验可用于表示对制造过程中生产的产品进行检查。每个被检查的物体都有可能是无缺陷的(成功)或有缺陷的(失败)。每次检查都作为伯努利试验,前提是物体彼此独立且检查程序是恒定的。
  • 天气预报:预测某一天是否会下雨可以看作是一个伯努利试验。有两种可能的结果:下雨(成功)或根本不下雨(失败)。天气预报将每日预报视为一个独特的伯努利试验,并经常提供特定日期的降雨概率。
  • 调查回答:在民意调查中,每个受访者都会被提出是/否选择题。每个回答都可以看作是一个伯努利试验,其中同意某个陈述或其他积极回答被称为成功,而不同意或不感兴趣被称为失败。

二项式分布的特征

  • 固定试验次数 (n)

固定试验次数 n 是二项式分布的核心。它不同于其他分布,因为其他分布的重复次数可能会有所不同。例如,如果我们进行 20 次医学检查或抛 10 次硬币,n 在实验期间保持不变。

  • 独立的试验

在二项式实验中,每次试验都是独立的,这意味着一次试验的结果不会影响后续试验的结果。独立的试验包括,例如,多次抛硬币或对不同患者进行测试。这种独立性前提对于二项式模型的有效性至关重要。

  • 两种可能的结果

二项式试验只有两种可能的结果:成功或失败。概率值 p 和 1-p 分别常用于描述这些事件。例如,在抛硬币的试验中,获得正面可以视为成功,获得反面视为失败。

  • 成功的恒定可能性 (p)

在二项式实验中,每次试验成功的可能性 (p) 都是相同的。二项式分布与概率波动的情况不同,原因在于此特性。例如,如果医疗治疗有效的可能性是 0.7,那么在治疗的每个患者身上它都保持在 0.7,假设每个患者都是相同的。

  • 离散概率分布

由于二项式分布是离散的,它将概率分配给成功的整数或离散值。另一方面,连续分布允许结果在某个范围内取任何数字。例如,二项式分布可以预测在五次抛硬币中获得正好三个正面的可能性,但它无法预测获得特定成功百分比的可能性。

二项式分布的均值和方差

  • 平均值(建议值)

在特定试验次数中预期的成功中位数由均值表示,其表示为 μ 或 E(X)。μ=E(X)=np 是计算具有参数 n(总尝试次数)和 p(每次试验成功的可能性)的二项式分布的均值的公式。

  • 变化

值的分布围绕均值的扩展或离散度由方差测量,方差表示为 σ^2 或 Var(X)。具有 n 和 p 两个参数的二项式分布的方差可以按如下方式找到:σ^2 = Var(X)=np(1-p)

这些公式提供了一种简单的方法来计算给定试验次数 (n) 和成功概率 (p) 的二项式分布的均值和方差。

我们用一个例子来演示这些计算

假设我们进行十次独立的伯努利试验(抛硬币),成功的概率 p=0.5(获得正面)。

  • 期望值,或均值,是 μ=E(X)=np=10×0.5=5。
    因此,预期有五个正面。
    方差是 σ^2 = Var(X)=np(1-p)=10×0.5×(1-0.5)=2.5。
    因此,正面数量的方差为 2.5。

二项式分布的例子包括

  • 抛硬币:二项式分布可以通过重复抛掷一枚公平硬币来展示。每次抛掷的结果是正面或反面,这代表一次试验。考虑一个场景,我们希望确定在十次抛硬币中获得正好五个正面的可能性。这种情况与二项式分布范式一致,其中正面的概率为 0.5,试验次数为 10。
  • 医学检查:考虑一项旨在识别某种疾病的医学检查。阳性结果表明存在疾病,而阴性结果表明不存在疾病。假设测试的特异性(在所讨论的个体没有疾病的情况下获得阴性结果的可能性)为 0.90,其敏感性(在患者患有疾病的情况下获得阳性结果的可能性)为 0.95。我们可以通过对不同患者进行多项测试来使用二项式分布来描述阳性测试结果的模式。
  • 质量控制:在制造环境中,负责质量控制的人员在检查一批产品时计算缺陷产品的数量。每个产品都经过公正检查,结果表明产品是令人满意的(成功)还是有缺陷的(失败)。质量控制经理可以通过检查多批次缺陷产品的分布来评估制造过程的性能。
  • 选举日投票:选民在选举期间为不同的候选人或选项投票。假设在一次地方选举中有两位主要竞争者,选民独立地在他们之间做出选择。每个选民的选择导致投票给候选人 A 或 B。政治分析师可以通过考虑多个投票站的投票分布来计算每个候选人赢得选举的可能性。
  • 客户转化:企业在网络营销中经常使用广告活动来吸引新客户。网站的每个访问者都可以选择转化或不转化。企业可以通过使用二项式分布分析各种广告活动或营销渠道的转化率来评估其促销策略的有效性并优化其转化率。

二项式分布与伯努利试验之间的联系

由于二项式分布是几个独立的伯努利试验的产物,因此二项式分布与伯努利试验之间存在联系。它们之间的关系如下

  • 伯努利实验

伯努利试验是单独的观察或实验,有两种可能的结果:成功和失败。由于每次试验都独立于其他试验,因此一次试验的结果不会影响另一次试验的结果。对于每次试验,成功的机会(用字母 p 表示)保持不变。

  • 二项式分布

二项式分布描述了在预定数量的独立伯努利试验中获胜次数的概率分布。它是从几次伯努利试验中获得的结果的总和。

让我们澄清一下
n:尝试的数量。
p:试验成功的可能性。
X:代表成就数量的随机数。
接下来,二项式分布的概率质量函数 (PMF) 由以下公式给出
P (X = k) = (1-p)^n-k x p^k x (nk)
其中 k 是成就的总数。

  • 关系

可以将二项式测试的每个结果视为 n 次独立伯努利试验的产物。例如,当抛掷硬币 n 次并计算正面数量时——伯努利试验的一个基本示例——获得的正面数量具有变量 n 和 p 的二项式分布,其中 p 是每次抛掷中获得正面的机会。

  • 特点

伯努利试验的特性构成了二项式分布的各个方面的基础,包括均值、方差和形状。二项式分布的方差 σ ^2 = np(1-p) 和均值 μ=np 可以用每个伯努利试验的特性来描述。