KL 散度

2025年3月28日 | 阅读 5 分钟

KL 散度，简称 Kullback-Leibler 散度，是衡量一个概率分布与另一个预测分布之间偏差程度的指标。它是信息理论和事实中的一个概念，广泛应用于诸如设备学习、统计学和信号处理等领域。

数学上

给定在同一域 x 上的两个概率分布 P(x) 和 Q(x)，从 Q 到 P 的 KL 散度，表示为 D_KL (P||Q)，定义为

或者，对于连续分布

KL 散度衡量使用 Q 近似 P 时丢失的信息。它不是对称的，这意味着 D_KL (P||Q)≠D_KL (Q||P)，并且它是非负的，D_KL (P||Q)≥0。当 P 和 Q 相同时，KL 散度为零，表示两个分布相同。

为了进一步理解 KL 散度，我们将尝试通过最小化 P（两个高斯分布之和）与另一个高斯分布 Q 的 KL 散度来近似分布 P。

代码

加载库

import pdb
import numpy as np
import torch
from torch.autograd import grad
import torch.nn.functional as F
import matplotlib.pyplot as plt

# for animation
%matplotlib inline
import matplotlib.animation
from IPython.display import Image

import warnings
warnings.filterwarnings('ignore')
from typing import Dict, List, Tuple

高斯分布构造

Pytorch 简化了从特定分布获取样本的过程。Torch 拥有广泛的常用分布。首先，让我们创建两个高斯分布，参数为

mu1,sigma1 = -5,1
mu2,sigma2 = 10,1

gaussian1 = torch.distributions.Normal(mu1,sigma1) 
gaussian2 = torch.distributions.Normal(mu2,sigma2)

检查合理性

让我们在特定位置对分布进行采样，看看它是否是具有预测参数的高斯分布。

plt.figure(figsize=(14,4))
x = torch.linspace(mu1-5*sigma1,mu1+5*sigma1,1000)
plt.subplot(1,2,1)
plt.plot(x.numpy(),gaussian1.log_prob(x).exp().numpy())
plt.title(f'$\mu={mu1},\sigma={sigma1}$')

x = torch.linspace(mu2-5*sigma2,mu2+5*sigma2,1000)
plt.subplot(1,2,2)
plt.plot(x.numpy(),gaussian2.log_prob(x).exp().numpy())
plt.title(f'$\mu={mu2},\sigma={sigma2}$')

plt.suptitle('Plotting the distributions')

输出

上图显示分布已正确构造。

让我们将高斯分布相加并创建一个新分布 P(x)。

我们的目标将是使用另一个高斯分布 Q(x) 来近似这个新分布。我们将通过最小化分布 P(x) 和 Q(x) 之间的 KL 散度来找出参数 μQ 和 σQ。

plt.figure(figsize=(14,4))
x = torch.linspace(-mu1-mu2-5*sigma1-5*sigma2,mu1+mu2+5*sigma1+5*sigma2,1000)
px = gaussian1.log_prob(x).exp() + gaussian2.log_prob(x).exp()
plt.subplot(1,2,2)
plt.plot(x.numpy(),px.numpy())
plt.title('$P(X)$')

输出

构造 Q(X)

我们将使用高斯分布来近似 P(X)。我们不确定哪些参数能最好地表示分布 P(x)。

所以，让我们从 μ=0 和 σ=1 开始。我们可能已经选择了更好的数字，因为我们已经熟悉我们试图近似的分布 (P(x))。然而，在实际环境中通常并非如此。

mu = torch.tensor([0.0])
sigma = torch.tensor([1.0])

plt.figure(figsize=(14,4))
x = torch.linspace(-mu1-mu2-5*sigma1-5*sigma2,mu1+mu2+5*sigma1+5*sigma2,1000)
Q = torch.distributions.Normal(mu,sigma) # this should approximate P, eventually :-)
qx = Q.log_prob(x).exp()
plt.subplot(1,2,2)
plt.plot(x.numpy(),qx.detach().numpy())
plt.title('$Q(X)$')

输出

KL 散度

Pytorch 有一个计算 KL 散度的函数。重要的是要记住，提供的输入预期具有对数概率。目标表示为概率（未应用对数）。因此，函数的第一个参数将是 Q，第二个参数将是 P（目标分布）。我们还必须谨慎处理数值稳定性。

px = gaussian1.log_prob(x).exp() + gaussian2.log_prob(x).exp()
qx = Q.log_prob(x).exp()
F.kl_div(qx.log(),px)

输出

当我们求幂再取对数时，散度会变为无穷大。直接使用对数值似乎是可接受的。

px = gaussian1.log_prob(x).exp() + gaussian2.log_prob(x).exp()
qx = Q.log_prob(x)
F.kl_div(qx,px)

输出

现在我们将定义函数 optimize_loss，它旨在优化与由均值 (mu) 和标准差 (sigma) 定义的高斯分布相关的给定损失函数 (loss_fn)。

def optimize_loss(px: torch.tensor, loss_fn: str, muq: float = 0.0, sigmaq: float = 1.0,\
                  subsample_factor:int = 3,mode:str = 'min') -> Tuple[float,float,List[int]]:
    
    mu = torch.tensor([muq],requires_grad=True)
    sigma = torch.tensor([sigmaq],requires_grad=True)    

    opt = torch.optim.Adam([mu,sigma])

    loss_val = []
    epochs = 10000

    #required for animation
    all_qx,all_mu = [],[]
    subsample_factor = 3 #have to subsample to reduce memory usage

    torch_loss_fn = getattr(F,loss_fn)
    for i in range(epochs):
        Q = torch.distributions.Normal(mu,sigma) # this should approximate P
        if loss_fn!='kl_div': # we need to exponentiate q(x) for these and few other cases
            qx = Q.log_prob(x).exp()
            all_qx.append(qx.detach().numpy()[::subsample_factor])
        else:
            qx = Q.log_prob(x)
            all_qx.append(qx.exp().detach().numpy()[::subsample_factor])
            
        if mode=='min':
            loss = torch_loss_fn(qx,px)
        else:
            loss = -torch_loss_fn(qx,px,dim=0)
    #   backward pass
        opt.zero_grad()
        loss.backward()    
        opt.step()
        loss_val.append(loss.detach().numpy())
        all_mu.append(mu.data.numpy()[0])
        
        
        if i%(epochs//10)==0:
            print('Epoch:',i,'Loss:',loss.data.numpy(),'mu',mu.data.numpy()[0],'sigma',sigma.data.numpy()[0])


    print('Epoch:',i,'Loss:',loss.data.numpy(),'mu',mu.data.numpy()[0],'sigma',sigma.data.numpy()[0])
    
    plt.figure(figsize=(14,6))
    plt.subplot(2,2,1)
    plt.plot(loss_val)
    plt.xlabel('epoch')
    plt.ylabel(f'{loss_fn} (Loss)')
    plt.title(f'{loss_fn} vs epoch')
    
    plt.subplot(2,2,2)
    plt.plot(all_mu)
    plt.xlabel('epoch')
    plt.ylabel('$\mu$')
    plt.title('$\mu$ vs epoch')
    
    return mu.data.numpy()[0],sigma.data.numpy()[0],all_qx

x = torch.linspace(-mu1-mu2-5*sigma1-5*sigma2,mu1+mu2+5*sigma1+5*sigma2,1000)
px = gaussian1.log_prob(x).exp() + gaussian2.log_prob(x).exp()
mu,sigma,all_qx = optimize_loss(px, loss_fn='kl_div', muq = 0.0, sigmaq = 1.0)

输出

def create_animation(x:torch.tensor,px:torch.tensor,all_qx:List,subsample_factor:int = 3,\
                     fn:str = 'anim_distr.gif') -> None:

    # create a figure, axis, and plot element 
    fig = plt.figure() 
    ax = plt.axes(xlim=(x.min(),x.max()), ylim=(0,0.5)) 
    text = ax.text(3,0.3,0)
    line1, = ax.plot([], [], color = "r")
    line2, = ax.plot([], [], color = "g",alpha=0.7)

    def animate(i):    
    # non-uniform sampling, interesting stuff happens fast initially
        if i<75:
            line1.set_data(x[::subsample_factor].numpy(),all_qx[i*50])
            text.set_text(f'epoch={i*50}')
            line2.set_data(x[::subsample_factor].numpy(),px.numpy()[::subsample_factor])
        else:
            line1.set_data(x[::subsample_factor].numpy(),all_qx[i*100])
            text.set_text(f'epoch={i*100}')
            line2.set_data(x[::subsample_factor].numpy(),px.numpy()[::subsample_factor])

        return [line1,line2]

    ani = matplotlib.animation.FuncAnimation(fig,animate,frames=100 
                                   ,interval=200, blit=True)

    fig.suptitle(f'Minimizing the {fn[:-3]}')
    ax.legend(['Approximation','Actual Distribution'])
    # save the animation as gif
    ani.save(fn, writer='imagemagick', fps=10) 

# %% capture if you don't want to display the final image
ani = create_animation(x, px,all_qx,fn='kl_div.gif')
Image("../working/kl_div.gif")

输出

让我们检查一下当我们尝试求解 P 和 Q 之间的均方距离时会发生什么。

x = torch.linspace(-mu1-mu2-5*sigma1-5*sigma2,mu1+mu2+5*sigma1+5*sigma2,1000)
px = gaussian1.log_prob(x).exp() + gaussian2.log_prob(x).exp()
mu,sigma,all_qx = optimize_loss(px, loss_fn='mse_loss', muq = 0.0, sigmaq = 1.0)

输出

fn = 'mse_loss_mean0.gif'
ani = create_animation(x,px,all_qx,fn=fn)
Image(f"../working/{fn}")

输出

我们可以观察到，结果与 KL 散度示例显著不同。当我们接近其中一个高斯曲线时，没有中间地带！

您可以尝试 μQ 的不同起始值。如果您选择接近 10（第二个高斯分布的均值）的数字，它将收敛到该值。

x = torch.linspace(-mu1-mu2-5*sigma1-5*sigma2,mu1+mu2+5*sigma1+5*sigma2,1000)
px = gaussian1.log_prob(x).exp() + gaussian2.log_prob(x).exp()
mu,sigma,all_qx = optimize_loss(px, loss_fn='mse_loss', muq = 5.0, sigmaq = 1.0)

fn = 'mse_loss_mean5.gif'
ani = create_animation(x,px,all_qx,fn=fn)
Image(f"../working/{fn}")

输出

这也可能很容易应用于 L1 损失。现在，让我们检查一下当我们尝试最大化两个分布的余弦相似度时会发生什么。

x = torch.linspace(-mu1-mu2-5*sigma1-5*sigma2,mu1+mu2+5*sigma1+5*sigma2,1000)
px = gaussian1.log_prob(x).exp() + gaussian2.log_prob(x).exp()
mu,sigma,all_qx = optimize_loss(px, loss_fn='cosine_similarity', muq = 5.0, sigmaq = 1.0,mode='max')

fn = 'cosine_similarity.gif'
ani = create_animation(x,px,all_qx,fn=fn)
Image(f"../working/{fn}")

输出

如上面的一维示例所示，我们收敛到最近的平均值。在高维环境中，存在许多谷值，最小化 MSE/L1 损失可能会有不同的结果。在深度学习中，我们随机初始化神经网络的权重。因此，同一神经网络的不同运行会收敛到不同的局部最小值是合理的。随机权重平均等技术可以通过为不同的局部最小值分配权重来提高泛化能力。不同的局部最小值可能编码有关数据集的重要信息。

下一个主题Transformer 架构

KL 散度

数学上

加载库

高斯分布构造

检查合理性

构造 Q(X)

KL 散度

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

KL 散度

数学上

加载库

高斯分布构造

检查合理性

构造 Q(X)

KL 散度

相关帖子

ML 中的迁移学习简介

泰勒级数

SIFT (尺度不变特征变换) 简介

ML 中的数据匿名化

ML 中的 Zillow 房价 (Zestimate) 预测

机器学习中的随机搜索

餐厅评论的 NLP 分析

机器学习中的 XGBoost 算法简介

反向传播 - 算法

什么是 Xavier 初始化？

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器