贝叶斯线性回归简介

17 Mar 2025 | 6 分钟阅读

在预测建模中,线性回归是一种简单且广泛使用的技术,用于确定和预测变量之间的相关性。然而,标准线性回归存在不足,主要是在考虑参数估计的不确定性方面。贝叶斯线性回归是一个了不起的扩展,它利用贝叶斯思想来提供估计量周围的不确定性度量以及因子估计。

本文将简要介绍贝叶斯线性回归,其实现和常用包。

线性回归

以下是线性回归思想的完整解释。

一种用于确定一个或多个自变量与一个因变量之间关系的主要统计方法称为线性回归。它广泛应用于金融、经济和流行病学等许多领域的推理和预测。在传统的线性回归中,假设使用普通最小二乘等技术来估计恒定的模型参数。

线性回归的目标是模拟一个或多个自变量(表示为 X)与一个因变量(通常表示为 Y)之间的关系。基本线性回归模型的公式为 Y = β0 + β1X + ε,其中 β0 和 β1 分别代表截距和斜率系数,ε 表示误差项。

关于贝叶斯统计

贝叶斯统计是一个强大的统计框架,它提供了一种直观的方法来衡量对特定假设的信念程度以及围绕这些假设的不确定性。与依赖长期频率估计概率的经典统计相比,贝叶斯统计以一种有组织且一致的方式,利用先验知识和新证据来更新信念。由于贝叶斯信息将先验信息纳入评估中,因此即使在小样本量的情况下,也可以进行更准确可靠的推断。它还提供了一种计算不确定性和生成概率预测的自然方法,使其成为工程、金融和医学等许多不同行业的重要工具。

贝叶斯线性回归

贝叶斯线性回归是一种复杂统计方法,它改进了传统线性回归模型。该技术不为模型参数提供固定的系数值,而是将它们视为随机变量,并为其分配概率分布。为了创建后验分布,这些分布也被称为先验分布,可以通过观测到的数据进行更新。通过使用这种技术,我们可以增进对模型参数周围不确定性的理解,并利用这些信息来指导我们的决策。

贝叶斯线性回归包含不同的参数,这些参数被评估为其他变量的加权和。它侧重于确定回归分布以及其他变量的分配。以风格 XX 给定风格 YY 的线性方程是贝叶斯线性回归模型最基本的变体。

该模型的性能取决于数据集的大小。如果数据集很小或数据分布不均,则此模型工作效率很高,在这种情况下非常有用。与传统的或基本线性回归模型(其中输出从每个属性导出)不同,贝叶斯线性回归的输出源自概率分布。

贝叶斯线性回归模型的主要目标是确定后验分布,即在观察数据使用后参数的更新概率分布。然后,使用贝叶斯定理将其与概率分布和似然函数相结合。

后验表达式可以表示为

  • Ps:给定另一事件同时发生的条件下,某一事件发生的概率。
  • 似然:使用边际化变量的函数。
  • 先验:事件 A 在事件 B 发生之前的概率。

这与贝叶斯定理相似,该定理由以下公式定义:

P(A|B) = (P(B|A) P(A)) / P(B)

贝叶斯岭回归公式为

p(y | λ) = N(w | 0, λ^-1 I p)

alpha 是 gamma 分布的 alpha 参数,gamma 是 lambda 分布的先验参数。

与贝叶斯线性回归相关的重要概念

在此,简要解释了与贝叶斯线性回归相关的概念和术语。

  • 贝叶斯推断:这种用于得出统计结论的技术利用贝叶斯定理,根据新数据或证据更新假设的概率。
  • 先验分布:在观察到任何数据之前,我们对参数的信念由贝叶斯统计中的先验分布表示。它总结了我们对参数的已知或假设。
  • 似然函数:考虑到模型的参数,似然函数显示了观察到数据的可能性。它衡量了模型对观测数据的拟合程度。
  • 后验分布:在考虑了观测数据后,后验分布代表了参数的更新概率分布。使用贝叶斯定理,它整合了似然函数和先验分布。

贝叶斯线性回归的方法

  1. 马尔可夫链蒙特卡洛 (MCMC):Gibbs 采样和 Metropolis-Hastings 算法等 MCMC 技术通常用于对参数的后验分布进行采样。在分析解决方案不可行的情况下,这些技术使我们能够近似后验分布。
  2. 贝叶斯模型选择:在此方法中,根据后验概率来比较不同的模型。这使我们能够考虑模型复杂性并为我们的数据选择最佳模型。

贝叶斯线性回归的实现

代码实现

输出

Iteration 100/1500 - Loss: 195836.27301228046
Iteration 200/1500 - Loss: 10234.213674783707
Iteration 300/1500 - Loss: 2864.751305103302
Iteration 400/1500 - Loss: 2965.7793782949448
Iteration 500/1500 - Loss: 10660.465940713882
Iteration 600/1500 - Loss: 53644.811547636986
Iteration 700/1500 - Loss: 6655.162144422531
Iteration 800/1500 - Loss: 1236449.2593714595
Iteration 900/1500 - Loss: 5936.451872467995
Iteration 1000/1500 - Loss: 113500.02471113205
Iteration 1100/1500 - Loss: 1367162.6505781412
Iteration 1200/1500 - Loss: 32734.52324461937
Iteration 1300/1500 - Loss: 7104.992194890976
Iteration 1400/1500 - Loss: 13948.908851921558
Iteration 1500/1500 - Loss: 10711.885968387127
Slope (Estimated): 0.3461870849132538
Intercept (Estimated): 0.3947797119617462
Sigma (Estimated): 1.1930272579193115

Introduction to Bayesian Linear Regression

贝叶斯线性回归的优点

  • 当输入数据集规模较小时,该模型非常高效且有效。
  • 贝叶斯线性回归是一种稳健的方法。
  • 它能很好地处理实时数据(在线),即用户手中有完整的数据集。
  • 无需存储数据。

贝叶斯线性回归的缺点

  • 这是一个耗时的过程。
  • 它在处理大量数据时效率不高。
  • 在实现过程中,安装新包时可能会出错。

下一主题萤火虫算法