机器学习中的概率模型

2025年6月24日 | 阅读 8 分钟

机器学习中的概率模型是现实世界过程的数学表示，它包含不确定或随机变量。概率建模的目标是根据数据或先验知识来估计系统可能结果的概率。

概率模型用于各种机器学习任务，如分类、回归、聚类和降维。一些流行的概率模型包括

高斯混合模型 (GMMs)
隐马尔可夫模型 (HMMs)
贝叶斯网络
马尔可夫随机场 (MRFs)

概率模型允许表达不确定性，这使得它们特别适合数据经常存在噪声或不完整性的现实应用。此外，这些模型可以在新数据可用时进行更新，这在许多动态和演变系统中非常有用。

为了更好地理解，我们将使用kaggle上的OSIC肺纤维化问题来实施概率模型。

问题陈述：“在此比赛中，您将根据患者的肺部CT扫描图像预测患者肺功能的下降严重程度。您将根据肺活量计的输出来确定肺功能，肺活量计用于测量吸入和呼出的空气量。挑战在于利用机器学习技术，以图像、元数据和基线 FVC 作为输入进行预测。”

导入库

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

EDA

train_Datafame = pd.read_csv('train.csv')
test_Dataframe = pd.read_csv('test.csv')

让我们来看看这三个不同患者的肺功能下降情况。

def chart_builder(patient_id, ax):
    d = train_Datafame[train_Datafame['Patient'] == patient_id]
    x = d['Weeks']
    y = d['FVC']
    ax.set_title(patient_id)
    ax = sns.regplot(x, y, ax=ax, ci=None, line_kws={'color':'red'})
    

f, axes = plt.subplots(1, 3, figsize=(15, 5))
chart_builder('ID00007637202177411956430', axes[0])
chart_builder('ID00009637202177434476278', axes[1])
chart_builder('ID00010637202177584971671', axes[2])

输出

肺容量在下降是显而易见的。但正如我们所见，它们因病例而异，患者之间差异很大。

建立模型

是时候发挥想象力了。这个表格数据集可以以多种方式建模。以下是我们可能会用到的一些工具

隐马尔可夫模型
高斯过程
变分自编码器

在我们仍在学习的过程中，我们将从尝试最简单的模型——线性回归开始。然而，我们将变得更复杂一些。以下是我们的假设

线性回归的参数（α 和 β）是每个患者特有的。因此，我们将能够为每个患者预测其 FVC 在任何一周的曲线（或多条曲线），并由此推断出相应的参数。
然而，这些变量并非完全独立。所有患者都遵循一个基本模型。
它们都有不同的均值和方差，并且呈正态分布。
这些均值和方差取决于基线测量（基线周、FVC 和百分比），以及患者的年龄、性别和吸烟状况。
在这一点上，我们将变得更加复杂，假设这些参数也是从 CT 扫描中发现的潜在变量的函数。不过，这将在稍后进行。

我们的模型由下图所示的贝叶斯网络表示

该模型背后的逻辑

FVC_ij是我们感兴趣的观测变量。在任何一周 j（-12≤j≤133）时，患者的 FVC 被假定为正态分布，其均值为 α_i+β_i j，方差为 σ_i²（所请求的置信度）。
α_i，即每个患者 i 的下降函数的截距，在逻辑上是 FVC_i^b（患者 i 的基线测量值）和 ω_i^b（测量基线 FVC 的周数）的函数。我们假设它服从正态分布，均值为 FVC_i^b+ω_i^b β^int，方差为 σ^int。
β_i，即每个患者 i 的下降函数的斜率，在逻辑上是 A_i（患者年龄）、性别和吸烟状况的函数。我们假设它服从正态分布，均值为 α^s+A_i β_c^s，方差为 σ^s。我们考虑了六种不同的 β_c^s：吸烟女性、吸烟男性、前吸烟女性、前吸烟男性、从未吸烟女性和从未吸烟男性。
为了简化起见，我们暂时省略了 Percent 随机变量。我们将在第二个版本中包含它。
最后，我们对先验 β^int、α^s、σⁱ、σ^int 和 σ^s 一无所知。我们将前两个建模为正态分布，后三个建模为半正态分布。

数学模型规范

简单数据预处理

# Importing required library
import pymc3 as pm
import theano
import arviz as az
from sklearn import preprocessing

# Pre-processing that is quite basic: adding the patient class
def patient_class(r):
    if r['Sex'] == 'Male':
        if r['SmokingStatus'] == 'Currently smokes':
            return 0
        elif r['SmokingStatus'] == 'Ex-smoker':
            return 1
        elif r['SmokingStatus'] == 'Never smoked':
            return 2
    else:
        if r['SmokingStatus'] == 'Currently smokes':
            return 3
        elif r['SmokingStatus'] == 'Ex-smoker':
            return 4
        elif r['SmokingStatus'] == 'Never smoked':
            return 5

train_Datafame['Class'] = train_Datafame.apply(patient_class, axis=1)

# Adding FVC and week baselines is a very basic pre-processing step.
auxi = train_Datafame[['Patient', 'Weeks']].groupby('Patient')\
    .min().reset_index()
auxi = pd.merge(auxi, train_Datafame[['Patient', 'Weeks', 'FVC']], how='left', 
               on=['Patient', 'Weeks'])
auxi = auxi.groupby('Patient').mean().reset_index()
auxi['Weeks'] = auxi['Weeks'].astype(int)
auxi['FVC'] = auxi['FVC'].astype(int)
train_Datafame = pd.merge(train_Datafame, auxi, how='left', on='Patient', suffixes=('', '_base'))

# Very simple pre-processing: creating patient indexes
label_encoder = preprocessing.LabelEncoder()
train_Datafame['PatientID'] = label_encoder.fit_transform(train_Datafame['Patient'])

patients = train_Datafame[['Patient', 'PatientID', 'Age', 'Class', 'Weeks_base', 'FVC_base']].drop_duplicates()
data_fvc = train_Datafame[['Patient', 'PatientID', 'Weeks', 'FVC']]

patients.head()

输出

在 PyMC3 中建模

b_FVC = patients['FVC_base'].values
b_w = patients['Weeks_base'].values
age = patients['Age'].values
class_patient = patients['Class'].values

t = data_fvc['Weeks'].values
obs_FVC = data_fvc['FVC'].values
id_patient = data_fvc['PatientID'].values

with pm.Model() as hierarchical_model:
    # Hyperpriors for Alpha
    int_beta = pm.Normal('int_beta', 0, sigma=100)
    int_sigma = pm.HalfNormal('int_sigma', 100)
    
    # Alpha
    alpha_mu = b_FVC + int_beta * b_w
    alpha = pm.Normal('alpha', mu=alpha_mu, sigma=int_sigma, 
                      shape=train_Datafame['Patient'].nunique())
    
    # Hyperpriors for Beta
    s_sigma = pm.HalfNormal('s_sigma', 100)
    s_aplha = pm.Normal('s_aplha', 0, sigma=100)
    cs_beta = pm.Normal('cs_beta', 0, sigma=100, shape=6)
    
    # Beta
    beta_mu = s_aplha + age * cs_beta[class_patient]
    beta = pm.Normal('beta', mu=beta_mu, sigma=s_sigma,
                     shape=train_Datafame['Patient'].nunique())
    
    # Model variance
    sigma = pm.HalfNormal('sigma', 200)
    
    # Model estimate
    est_FVC = alpha[id_patient] + beta[id_patient] * t
    
    # Data likelihood
    like_FVC = pm.Normal('like_FVC', mu=est_FVC,
                          sigma=sigma, observed=obs_FVC)

拟合模型

# Inference button (TM)!
with hierarchical_model:
    trace = pm.sample(2000, tune=2000, target_accept=.9)

输出

我们仅采样了 4000 个不同的模型，这些模型都能解释数据。

检查模型

让我们看一下我们开发的生成模型。

with hierarchical_model:
    pm.traceplot(trace);

输出

似乎我们的模型为每个患者学习了独特的 alpha 和 beta。

检查一些患者

PyMC3 包含一个非常强大的可视化工具 ArviZ。尽管如此，我们还是使用了 Seaborn 和 Matplotlib。

def chart_builder(patient_id, ax):
    d = train_Datafame[train_Datafame['Patient'] == patient_id]
    x = d['Weeks']
    y = d['FVC']
    ax.set_title(patient_id)
    ax = sns.regplot(x, y, ax=ax, ci=None, line_kws={'color':'red'})
    
    x2 = np.arange(-12, 133, step=0.1)
    
    pid = patients[patients['Patient'] == patient_id]['PatientID'].values[0]
    for sample in range(100):
        alpha = trace['alpha'][sample, pid]
        beta = trace['beta'][sample, pid]
        sigma = trace['sigma'][sample]
        y2 = alpha + beta * x2
        ax.plot(x2, y2, linewidth=0.1, color='green')
        y2 = alpha + beta * x2 + sigma
        ax.plot(x2, y2, linewidth=0.1, color='yellow')
        y2 = alpha + beta * x2 - sigma
        ax.plot(x2, y2, linewidth=0.1, color='yellow')

f, axes = plt.subplots(1, 3, figsize=(15, 5))
chart_builder('ID00007637202177411956430', axes[0])
chart_builder('ID00009637202177434476278', axes[1])
chart_builder('ID00010637202177584971671', axes[2])

输出

这里绘制了每个患者拥有的 4000 个不同模型中的 100 个。拟合的回归线用绿色表示，标准差用黄色表示。让我们把它们整合起来！

(迭代并)使用模型

现在让我们使用我们的生成模型。

简单数据预处理

# Very simple pre-processing: adding patient class
def patient_class(row):
    if row['Sex'] == 'Male':
        if row['SmokingStatus'] == 'Currently smokes':
            return 0
        elif row['SmokingStatus'] == 'Ex-smoker':
            return 1
        elif row['SmokingStatus'] == 'Never smoked':
            return 2
    else:
        if row['SmokingStatus'] == 'Currently smokes':
            return 3
        elif row['SmokingStatus'] == 'Ex-smoker':
            return 4
        elif row['SmokingStatus'] == 'Never smoked':
            return 5

test_Dataframe['Class'] = test_Dataframe.apply(patient_class, axis=1)
test_Dataframe = test_Dataframe.rename(columns={'FVC': 'FVC_base', 'Weeks': 'Weeks_base'})
test_Dataframe.head()

输出

# prepare submission dataset
submission = []
for i, patient in enumerate(test['Patient'].unique()):
    df = pd.DataFrame(columns=['Patient', 'Weeks', 'FVC'])
    df['Weeks'] = np.arange(-12, 134)
    df['Patient'] = patient
    df['PatientID'] = i
    df['FVC'] = 0
    submission.append(df)
    
submission = pd.concat(submission).reset_index(drop=True)
submission.head()

输出

后验预测

PyMC3 提供了两种方法来对未见过的、已隐藏的数据进行预测。第一步涉及使用 theano.shared 变量。我们只需要写 4-5 行代码即可完成。我们进行了测试，并且它运行完美，但为了更好地理解，我们还将使用第二种方法。

虽然它比 4-5 行代码稍微长一些，但我们发现它更具启发性。PyMC3 的开发者在 Luciano Paz 的这个回答中解释了该概念。我们将使用第一个模型上学习到的参数的分布作为先验，构建第二个模型来预测隐藏数据上的 FVC。根据贝叶斯方法，当我们收集新数据时，我们会不断更新我们的模型。

b_FVC = test_Dataframe['FVC_base'].values
b_w = test_Dataframe['Weeks_base'].values
age = test_Dataframe['Age'].values
class_patient = test_Dataframe['Class'].values
t = submission['Weeks'].values
id_patient = submission['PatientID'].values
            
with pm.Model() as new_model:
    # Hyperpriors for Alpha
    int_beta = pm.Normal('int_beta', 
                         trace['int_beta'].mean(), 
                         sigma=trace['int_beta'].std())
    int_sigma = pm.TruncatedNormal('int_sigma', 
                                   trace['int_sigma'].mean(),
                                   sigma=trace['int_sigma'].std(),
                                   lower=0)
    
    # Alpha
    alpha_mu = b_FVC + int_beta * b_w
    alpha = pm.Normal('alpha', mu=alpha_mu, sigma=int_sigma, 
                      shape=test_Dataframe['Patient'].nunique())
    
    # Hyperpriors for Beta
    s_sigma = pm.TruncatedNormal('s_sigma', 
                                 trace['s_sigma'].mean(),
                                 sigma=trace['s_sigma'].std(),
                                 lower=0)
    s_aplha = pm.Normal('s_aplha', 
                        trace['s_aplha'].mean(), 
                        sigma=trace['s_aplha'].std())
    cov = np.zeros((6, 6))
    np.fill_diagonal(cov, trace['cs_beta'].var(axis=0))
    cs_beta = pm.MvNormal('cs_beta',
                          mu=trace['cs_beta'].mean(axis=0),
                          cov=cov,
                          shape=6)
    
    # Beta
    beta_mu = s_aplha + age * cs_beta[class_patient]
    beta = pm.Normal('beta', mu=beta_mu, sigma=s_sigma,
                     shape=test_Dataframe['Patient'].nunique())
    
    # Model variance
    sigma = pm.TruncatedNormal('sigma', 
                               trace['sigma'].mean(),
                               sigma=trace['sigma'].std(),
                               lower=0)
    
    # Model estimate
    # Here, there are two methods for calculating FVC. One is stochastic, and the other is deterministic. We determine sigma later by analyzing std dev over the 4000 distinct models, supposing FVC is deterministic. This results in more confidence (lower sigmas). Uneven lines result from assuming that FVC is stochastic (see code comments below). The confidence is significantly lower despite the roughly similar mean FVC values (higher sigmas, about 2x the first case). Try presenting both instances, beginning with the first presumption.
    
  
    est_FVC = pm.Deterministic('est_FVC', alpha[id_patient] + beta[id_patient] * t)
    
    # sigma = pm.HalfNormal('sigma', 200)
    # FVC_like = pm.Normal('FVC_like', mu=alpha[id_patient] + beta[id_patient] * t, 
    #                      sigma=sigma,
    #                      shape=submission.shape[0])

with new_model:
    trace2 = pm.sample(2000, tune=2000, target_accept=.9)

输出

来吧！每一点都有 4000 个预测！

生成最终预测

preds = pd.DataFrame(data=trace2['FVC_est'].T)
submission = pd.merge(submission, preds, left_index=True, right_index=True)
submission['Patient_Week'] = submission['Patient'] + '_' + submission['Weeks'].astype(str)
submission = submission.drop(columns=['Patient', 'Weeks', 'FVC', 'PatientID'])

FVC = submission.iloc[:, :-1].mean(axis=1)
confidence = submission.iloc[:, :-1].std(axis=1)
submission['FVC'] = FVC
submission['Confidence'] = confidence
submission = submission[['Patient_Week', 'FVC', 'Confidence']]
submission.to_csv('submission.csv', index=False)
submission.head()

输出

注意：我们生成最终预测是为了能够将其提交给比赛进行评估。

结论

本质上，概率模型就是一个包含不确定性的模型。在机器学习中，这通常涉及使用概率分布来表示系统中不同变量之间的关系。例如，在分类任务中，概率模型可能会表示某个输入属于每个可能类的概率。

下一主题最大池化

机器学习中的概率模型

导入库

EDA

建立模型

简单数据预处理

在 PyMC3 中建模

拟合模型

检查模型

检查一些患者

(迭代并)使用模型

简单数据预处理

后验预测

生成最终预测

注意：我们生成最终预测是为了能够将其提交给比赛进行评估。

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的概率模型

导入库

EDA

建立模型

简单数据预处理

在 PyMC3 中建模

拟合模型

检查模型

检查一些患者

(迭代并)使用模型

简单数据预处理

后验预测

生成最终预测

注意：我们生成最终预测是为了能够将其提交给比赛进行评估。

结论

相关帖子

Bagging 机器学习

机器学习的挑战

机器学习中的成本函数

广义估计方程简介

机器学习在交易中的应用

机器学习中的剪枝

最佳计算机视觉书籍

机器学习在反洗钱领域的应用

EfficientNet：机器学习模型架构的突破

DNN 机器学习

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器