随时间反向传播 - RNN

2025年6月21日 | 阅读 4 分钟

引言

循环神经网络（Recurrent Neural Networks）是处理序列数据的网络。它们不仅可以根据当前输入预测输出，还可以考虑在此之前生成的输入。当前的输出取决于当前的输出和记忆元素（包括先前的输入）。

为了训练这些网络，我们使用传统的反向传播并增加一些变化。我们不是在确切的时间“t”上训练系统。我们根据特定的时间“t”以及在时间“t”之前发生的一切进行训练，例如：t-1、t-2、t-3。

请看下面的 RNN 图示

S1、S2 和 S3 分别是时间 t1、t2 和 t3 时的隐藏状态或记忆单元，而 Ws 代表与之相伴的权重矩阵。

X1、X2 和 X3 分别是时间 t1、t2 和 t3 的输入，而 Wx 代表与之相伴的加权矩阵。

Y1、Y2 和 Y3 分别是 t1、t2 和 t3 的输出，而 Wy 是与之相伴的加权矩阵。

对于任何时间 t，我们有以下两个方程

S_t = g₁ (W_x x_t + W_s S_t-1)
Y_t = g₂ (W_Y S_t )

其中 g1 和 g2 是激活函数。

我们现在将在时间 t = 3 时执行反向传播。

设误差函数为

E_t=(d_t-Y_t )²

这里，我们使用平方误差，其中 D3 是在时间 t = 3 时的期望输出。

为了进行反向传播，必须更改与输入、记忆单元和输出相关联的权重。

调整 W_y

为了更好地理解，我们可以看下图

说明

E₃ 是 Y₃ 的函数。因此，我们将 E₃ 对 Y₃ 求导。

Y₃ 是 W₃ 的函数。因此，我们将 Y₃ 对 W₃ 求导。

调整 Ws

为了更好地理解，我们可以看下图

说明

E₃ 是 Y₃ 的函数。因此，我们将 E₃ 对 Y₃ 求导。Y₃ 是 S₃ 的函数。因此，我们将 Y₃ 对 S₃ 求导。

S₃ 是 W_s 中的一个元素。因此，我们将 S₃ 对 W_s 求导。

但这还不够，因此我们必须考虑之前的时间步。我们还必须考虑权重矩阵 W_s，对误差函数关于记忆单元 S₂ 和 S₁ 进行（偏）微分。

必须要注意的是，一个记忆单元，如 S_t，是其前一个记忆单元 S_t-1 的结果。

因此，我们将 S₃ 对 S₂ 求导，S₂ 对 S₁ 求导。

通常，我们可以用以下公式来描述

调整 W_X

为了更好地理解，我们可以看下图

说明

E₃ 是 Y₃ 的一个结果。因此，我们将 E₃ 对 Y₃ 求导。Y₃ 是 S₃ 的一个函数结果。因此，我们将 Y₃ 对 S₃ 求导。

S₃ 是 W_X 中的一个元素。因此，我们可以将 S₃ 对 W_X 求导。

我们不能止步于此，因此我们还需要考虑之前的时间步。因此，我们考虑 W_X 权重矩阵，将误差函数对记忆单元 S₂ 和 S₁ 进行（偏）微分。

通常，我们可以用以下公式来定义

局限性

这种使用随时间反向传播（BPTT）的技术是一种可用于有限时间间隔的方法，例如 8 或 10 个时间步。如果我们继续反向传播，梯度会变得太小。这被称为“梯度消失”问题。这是因为信息的价值随时间呈几何级数递减。因此，如果时间步数大于 10（比如说），数据实际上就被丢弃了。

超越 RNNs

解决这个问题最著名的方案之一是使用所谓的长短期记忆（LSTM）单元来代替传统的 RNN 单元。然而，可能会出现另一个问题，称为梯度爆炸问题，即梯度变得不可控地高。

解决方案

一个著名的方法叫做梯度裁剪，即在每个时间步，我们确定梯度 δ 是否大于阈值。如果是，那么我们应该将其归一化。

下一主题上下文老虎机概述

随时间反向传播 - RNN

引言

调整 W_y

调整 Ws

调整 W_X

超越 RNNs

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

随时间反向传播 - RNN

引言

调整 Wy

调整 Ws

调整 WX

超越 RNNs

相关帖子

贝叶斯主动学习与最优实验设计

如何开始学习机器学习

机器学习中的 t-SNE

学习人工智能和机器学习的先决条件

机器学习在教育领域的应用

10 个生成对抗网络 (GAN) 项目创意

理解曼哈顿距离

泰勒级数

2021 年十大机器学习课程

ML 驱动的系统有何独特之处？

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器

调整 W_y

调整 W_X