随时间反向传播 - RNN2025年6月21日 | 阅读 4 分钟 引言循环神经网络(Recurrent Neural Networks)是处理序列数据的网络。它们不仅可以根据当前输入预测输出,还可以考虑在此之前生成的输入。当前的输出取决于当前的输出和记忆元素(包括先前的输入)。 为了训练这些网络,我们使用传统的反向传播并增加一些变化。我们不是在确切的时间“t”上训练系统。我们根据特定的时间“t”以及在时间“t”之前发生的一切进行训练,例如:t-1、t-2、t-3。 请看下面的 RNN 图示 ![]() S1、S2 和 S3 分别是时间 t1、t2 和 t3 时的隐藏状态或记忆单元,而 Ws 代表与之相伴的权重矩阵。 X1、X2 和 X3 分别是时间 t1、t2 和 t3 的输入,而 Wx 代表与之相伴的加权矩阵。 Y1、Y2 和 Y3 分别是 t1、t2 和 t3 的输出,而 Wy 是与之相伴的加权矩阵。 对于任何时间 t,我们有以下两个方程 St = g1 (Wx xt + Ws St-1) 其中 g1 和 g2 是激活函数。 我们现在将在时间 t = 3 时执行反向传播。 设误差函数为 Et=(dt-Yt )2 这里,我们使用平方误差,其中 D3 是在时间 t = 3 时的期望输出。 为了进行反向传播,必须更改与输入、记忆单元和输出相关联的权重。 调整 Wy为了更好地理解,我们可以看下图 ![]() ![]() 说明 E3 是 Y3 的函数。因此,我们将 E3 对 Y3 求导。 Y3 是 W3 的函数。因此,我们将 Y3 对 W3 求导。 调整 Ws为了更好地理解,我们可以看下图 ![]() ![]() 说明 E3 是 Y3 的函数。因此,我们将 E3 对 Y3 求导。Y3 是 S3 的函数。因此,我们将 Y3 对 S3 求导。 S3 是 Ws 中的一个元素。因此,我们将 S3 对 Ws 求导。 但这还不够,因此我们必须考虑之前的时间步。我们还必须考虑权重矩阵 Ws,对误差函数关于记忆单元 S2 和 S1 进行(偏)微分。 必须要注意的是,一个记忆单元,如 St,是其前一个记忆单元 St-1 的结果。 因此,我们将 S3 对 S2 求导,S2 对 S1 求导。 通常,我们可以用以下公式来描述 ![]() 调整 WX为了更好地理解,我们可以看下图 ![]() ![]() 说明 E3 是 Y3 的一个结果。因此,我们将 E3 对 Y3 求导。Y3 是 S3 的一个函数结果。因此,我们将 Y3 对 S3 求导。 S3 是 WX 中的一个元素。因此,我们可以将 S3 对 WX 求导。 我们不能止步于此,因此我们还需要考虑之前的时间步。因此,我们考虑 WX 权重矩阵,将误差函数对记忆单元 S2 和 S1 进行(偏)微分。 通常,我们可以用以下公式来定义 ![]() 局限性 这种使用随时间反向传播(BPTT)的技术是一种可用于有限时间间隔的方法,例如 8 或 10 个时间步。如果我们继续反向传播,梯度会变得太小。这被称为“梯度消失”问题。这是因为信息的价值随时间呈几何级数递减。因此,如果时间步数大于 10(比如说),数据实际上就被丢弃了。 超越 RNNs解决这个问题最著名的方案之一是使用所谓的长短期记忆(LSTM)单元来代替传统的 RNN 单元。然而,可能会出现另一个问题,称为梯度爆炸问题,即梯度变得不可控地高。 解决方案 一个著名的方法叫做梯度裁剪,即在每个时间步,我们确定梯度 δ 是否大于阈值。如果是,那么我们应该将其归一化。 下一主题上下文老虎机概述 |
引言 主动学习和最优实验设计 (OED) 是机器学习和数据科学的关键组成部分,尤其是在数据获取成本高昂或耗时的情况下。贝叶斯方法通过利用概率模型来指导决策,为这些任务提供了一个有原则的框架。读完本节后,读者将能够……
阅读9分钟
?当今世界,我们每天都会接触到新的软件、应用程序、小工具以及更多使我们的生活更轻松、更快捷的技术。新技术日新月异,正在改变传统的做事方式,其中一种……
阅读 10 分钟
使用一种称为 t-SNE(t-分布随机邻域嵌入)的非线性降维方法可以显示高维数据。该技术由 Laurens van der Maaten 和 Geoffrey Hinton 于 2008 年提出,作为一种新的数据降维方法,可保留局部相似性...
阅读 4 分钟
机器学习 (ML) 和人工智能 (AI) 是 21 世纪最流行的技术。大多数初学者和专业人士都希望在这些领域发展事业,因为这两个领域都是计算机科学和工程领域最有利可图的领域。人工智能 (AI) 是一个...
5 分钟阅读
机器学习 (ML) 已成为一项突破性工具,在各个行业中都做出了重大贡献。教育领域也不例外,因为 ML 算法正被用于彻底改变教学和学习实践。通过利用数据的力量和先进的计算技术,……
阅读 3 分钟
GAN简介 使用深度学习技术,两个神经网络相互对抗,以提供更准确的预测,这被称为生成对抗网络(GAN)。GAN 通常使用协作式零和博弈框架进行学习,并以无监督方式运行。构成 GAN 的两个神经网络...
阅读 10 分钟
距离度量在衡量点或对象在空间中的分离程度方面起着非常重要的作用。神经网络在机器学习、机器人和地理信息系统等领域得到了广泛应用。模式识别、聚类和空间分析是一些...
阅读 4 分钟
泰勒级数是数学中的一个基本概念,广泛应用于机器学习的许多问题中。基本思想是用多项式在某个点附近展开一个复杂函数。近似技术在...时非常重要
阅读 4 分钟
机器学习和人工智能 (AI) 是最先进和蓬勃发展的技术之一,影响着绝大多数行业。它是软件工程中最知名、最令人兴奋的领域之一,正在逐步发展。搜索引擎、聊天机器人、垃圾邮件过滤、欺诈检测等...
阅读 10 分钟
机器学习 (ML) 正在彻底改变系统的工作方式,使其更实用、适应性更强、效率更高。传统的基于规则的系统完全依赖于特定的编程来执行任务,其严格的规则需要不断更新以应对不断变化的数据模式或新情况……
7 分钟阅读
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India