贝叶斯共轭先验

2025年4月26日 | 阅读 8 分钟

引言

一种名为贝叶斯推断的统计方法使用概率分布来更新对未知量的看法。与将参数视为固定但未知值的传统频率学方法不同,贝叶斯推断将参数视为具有关联概率的独立变量。这使得能够以更灵活和自然的方式整合新信息和现有知识。

在观察到证据后修正先前想法的行为是贝叶斯推理的核心。在看到任何数据之前,先验分布反映了关于参数的先验观念或知识。概率(衡量参数的某些值如何很好地解释数据)会添加到新观察到的数据中。其结果是后验分布,表示在考虑数据后关于参数的修正看法。

贝叶斯推理有许多好处。当数据不足时,它特别有帮助,因为它能够整合先前知识。此外,它提供了一个完整的概率分布,而不是单一的估计,从而能够更全面地理解不确定性。共轭先验是贝叶斯分析中的一个基本概念,通过确保后验分布属于与先验相同的族来简化更新。因此,贝叶斯技术具有普遍适用性和计算效率。

共轭先验:它们是什么?

在贝叶斯推断中,共轭先验是一种先验分布,当与特定的似然函数配对时,会产生与先验属于同一族(即后验分布)的后验分布。这种特性简化了贝叶斯更新,提高了计算效率和分析可处理性。

例如,如果似然函数是二项分布,则使用 Beta 分布作为先验,可以确保后验分布也同样是 Beta 分布。这使得参数调整变得简单,并避免了复杂的积分。

共轭先验:为什么使用它们?

由于其显著的计算和分析优势,共轭先验经常在贝叶斯推断中使用。它们的基本优势在于,它们确保后验分布保持在与先验完全相同的族中,从而使贝叶斯更新变得简单而有效。

主要优点

  • 数学上的简便性
    由于后验分布具有与先验相同的有用形状,共轭先验不需要复杂的积分。因此,解析解很简单。
  • 计算效率
    共轭先验允许快速计算,因为后验更新仅需要参数的修改,而不是重新计算整个分布。迭代贝叶斯更新和实时推理从中受益匪浅。
  • 解释上的简便性
    由于先验和后验都属于同一族,因此更容易解读贝叶斯更新。分析师可以轻松地比较新数据如何改变分布参数。
  • 统计学和机器学习的实际应用
    共轭先验在许多贝叶斯模型中用于可处理性,例如概率性 机器学习 方法和分层 贝叶斯网络。它们经常应用于医疗分析、垃圾邮件过滤和 A/B 测试 等领域。

常见的共轭先验分布

  • Beta-二项模型
    在计算概率(如实验的成功率)时,此模型很有用。作为先验,Beta 分布自然地与二项似然函数(该函数预测特定次数试验中的成功次数)相结合。当观察到新数据时,后验分布仍然是具有修改后参数的 Beta 分布。因此,概率估计简单且计算效率高。
  • Gamma-泊松模型
    泊松概率常用于对计数数据进行建模,例如在特定时间段内到达的客户数量或网站访问量。在这种情况下,共轭先验是 Gamma 分布。在观察到新计数后,Gamma 先验会更新为具有修改后参数的 Gamma 后验。此方法对于预测事件在一段时间内的发生频率非常有用。
  • 正态-正态模型(方差已知)
    在假设方差已知的情况下估计未知均值时,正态分布同时用于似然函数和先验。由于后验也具有正态分布,因此更新均值看法非常简单。这经常用于 A/B 测试等领域,A/B 测试是一种公司评估客户对不同产品迭代响应的方法。
  • 正态-逆 Gamma 模型(均值和方差未知)
    当正态分布的均值和方差都未知时,将正态分布和逆 Gamma 分布的组合用作先验。此方法在分层贝叶斯分析和金融建模中非常有用,因为在存在多种不确定性来源的情况下,它能够同时更新这两个参数。
  • Dirichlet-多项式模型
    多项式概率常用于需要分类数据的问题,例如主题建模或消费者偏好研究。其共轭先验是 Dirichlet 分布,它允许在观察到新的分类数据时进行有效更新。机器学习和自然语言处理都广泛使用这一概念。

使用共轭先验进行贝叶斯更新示例

  • 计算网站转化率(Beta-二项模型)
    一家企业希望计算用户点击广告的可能性。在广告系列开始之前,他们使用 Beta 分布来表示他们对点击次数的假设。在广告运行一段时间后,他们收集了总印象数和点击次数的数据。通过整合这些额外数据,后验分布得到修正,从而提供更准确的点击率估计。
  • 使用 Gamma-泊松模型预测每日客户到达量
    一家咖啡馆的目标是预测每天将有多少顾客光顾。他们假设根据历史数据,每日访问量的平均值具有原始的 Gamma 先验分布。随着时间的推移,随着新客户数据的收集,后验分布会得到修正。这使得咖啡馆能够就库存和人员配备做出更明智的决策。
  • 使用正态-正态模型进行 A/B 测试以评估新产品方面
    一家 软件 公司正在测试一款移动应用功能的两个迭代版本,以确定哪个版本能提高用户参与度。在测试之前,他们假设每次用户平均参与时间遵循正态先验分布。在重复测试并收集新的参与度数据后,后验分布仍然是正态分布,但具有新的参数。这有助于公司在发布新功能时做出数据驱动的决策。
  • 使用正态-逆 Gamma 模型在金融领域估计未知的均值和方差
    一家投资公司寻求评估一家股票的风险(方差)和预期回报。由于这两个参数都未知,他们使用了正态-逆 Gamma 先验。随着收集到更多的市场数据,后验有助于公司通过更新平均回报预测和周围的不确定性来改进其投资策略。
  • 文本分析中的主题建模(Dirichlet-多项式模型)
    一家新闻机构希望根据词语频率将文章分组到不同的主题中。Dirichlet 先验用于表达主题-词语分布的初始信念。随着时间的推移,通过在新文章的分析中观察到的词语数量进行更新,后验改进了主题指定。自然语言处理和机器学习都广泛使用此方法。

共轭先验的优缺点

共轭先验的优点

  • 数学上的简便性
    由于先验和后验分布属于同一族,贝叶斯更新很简单。这通过消除复杂积分的需求来简化计算。
  • 计算效率
    共轭先验使得解析解成为可能,从而大大降低了计算成本。大规模数据分析和实时应用从中受益匪浅。
  • 解释上的简便性
    由于后验分布保持与先验相同的分布族,因此更容易评估参数变化。营销、金融和医疗保健等行业的决策从中受益。
  • 对分层框架有益
    为了简化多层次不确定性中的推断,例如在营销或医疗诊断的多层次分析中,许多贝叶斯层次模型都包含共轭先验。

共轭先验的限制

  • 有限的适应性
    由于共轭先验仅限于特定的概率函数,因此它们可能不适用于复杂的现实世界分布或所有类型的数据。
  • 潜在的偏差
    在选择共轭先验时,通常会施加关于数据的实质性假设。如果先验数据与真实分布不匹配,则可能会将偏差引入推断方法。
  • 不总是实用的
    现实世界的数据有时会偏离共轭所需的数学框架。可能需要采用更灵活的策略,例如数值逼近技术(如马尔可夫链蒙特卡罗)。
  • 不能有效地处理所有不确定性
    当先验知识非常明确时,共轭先验效果最好。如果先验知识薄弱或非常模糊,使用非共轭假设和更通用的分布可能是更好的选择。

在实际问题中使用共轭先验

  • 营销 A/B 测试
    企业通过 A/B 测试来比较不同的广告活动、产品功能和网站设计。Beta-二项模型是估计转化率的一种流行技术。企业可以通过用观察到的点击或购买数据更新 Beta 先验,轻松确定哪个版本效果更好。
  • 零售需求预测
    为了有效地管理库存,零售商必须预测未来的销售情况。使用过去的销售数据,Gamma-泊松模型有助于预测购买数量。Gamma 先验会根据新的销售数据进行更新,从而改进需求预测并最大限度地减少缺货或积压。
  • 电子邮件过滤中的垃圾邮件识别
    垃圾邮件过滤器使用词语模式来确定电子邮件是垃圾邮件还是真实邮件。Dirichlet-多项式模型在类别之间更新词语的概率分布。随着时间的推移,随着更多电子邮件被分类,该模型会变得更好,从而提高垃圾邮件检测的准确性。
  • 医疗诊断和保健
    医生使用贝叶斯技术来完善疾病诊断的概率。例如,Beta-二项模型可以根据过去的病史计算癌症诊断中阳性测试的可能性。后验通过新的测试数据进行更新,从而提高诊断的准确性。
  • 金融风险建模
    投资公司使用贝叶斯推断来评估风险和股票回报。随着新的市场数据可用,正态-逆 Gamma 模型允许同时更新不确定性(方差)和预期回报(均值)。这有助于风险管理和投资组合优化。
  • NLP,即自然语言处理
    Dirichlet-多项式模型用于主题建模,例如在大型文本数据集中查找主题。随着对新的文本数据进行分析,它有助于在主题之间更新词语分布,从而提高搜索引擎和推荐系统的分类准确性。

下一个主题验证性因子分析