什么是 LSTM 网络2025年6月21日 | 阅读 6 分钟 本教程讨论了传统 RNN 在处理递增和递减梯度时遇到的问题。它还提出了一种通过长短期记忆 (LSTM) 解决这些问题的方案。 引言LSTM(长短期记忆)是一种先进的循环神经网络 (RNN) 设计,旨在更准确地反映时间序列和相关短期关系。其关键特性包括 LSTM 单元的内部结构、对 LSTM 架构的多次修改以及一些热门的 LSTM 应用。 LSTM 网络LSTM 网络扩展了循环神经网络 (RNN),主要用于处理 RNN 无法有效处理的情况。当我们谈论 RNN 时,它是一种算法,通过考虑先前事件的输出来处理当前输入(反馈),然后将其存储在用户的内存中,存储时间很短(短期记忆)。在众多应用中,它最知名的应用包括非马尔可夫语音控制和音乐创作领域。然而,RNN 存在一些缺点。 长短期记忆 (LSTM) 被引入,因为它首先无法保存长期信息。有时需要很久以前存储的数据的祖先来确定当前输出。然而,RNN 完全无法处理这些“长期依赖”。 第二个问题是,无法更好地控制上下文的哪个部分是必需的,哪些部分必须被遗忘。RNN 的其他问题是在通过反向传播训练 RNN 时发生的梯度爆炸或消失(稍后解释)。 因此,梯度消失问题几乎完全消除,因为训练模型不受影响。LSTM 解决了特定问题中的长期延迟,并且还能处理噪声、分布式表示或无限数量的影响。 使用 LSTM,它们不需要像隐马尔可夫模型 (HMM) 那样保持相同数量的状态。LSTM 为我们提供了广泛的参数,如学习率以及输出和输入偏差。因此,不需要微调。通过使用类似反向传播技术 (BPTT) 中的 LSTM,将更新每个权重的复杂度降低到 O(1),这是一个显着的优势。 梯度爆炸与消失训练网络的根本目标是减小网络输出的损失。通过权重集确定的梯度(或损失)用于调整权重并最小化损失。一个层的梯度取决于下一层的影响,如果任何分量很小,就会导致梯度减小(缩放效应)。 将此效应乘以学习率(0.1 到 0.001)会减小权重变化并产生类似的结果。当由于大分量导致梯度很大时,权重可能会发生显着变化,从而导致梯度爆炸。为了解决梯度爆炸问题,对神经网络单元进行了重建,其缩放因子为一。该单元通过门控单元得到了增强,从而促成了 LSTM 的发展。 LSTM 网络架构LSTM(长短期记忆)网络的设计在几个关键方面与传统 RNN 不同。 隐藏层结构构成 RNN 和 LSTM 的结构之间的主要区别在于 LSTM 的隐藏层是门控单元或单元。它有四个层协同工作,以产生单元的输出以及单元的状态。这两者都会传递到下一层。 门控机制与仅由 Tanh 组成的单个神经网络层的 RNN 不同,LSTM 由三个逻辑 sigmoid 门和一个 Tanh 层组成。添加了门来限制信息通过单元。它们决定了下一个单元需要哪些数据,以及哪些数据必须被丢弃。输出通常在 0-1 范围内,其中“0”表示“全部拒绝”,而“1”表示“全部包含”。 LSTM 的隐藏层![]() 每个 LSTM 单元有三个输入和一个两个输出,ht 和 Ct。在特定时间 t,ht 是隐藏状态,Ct 是单元状态或内存。xt 是当前信息点或输入。第一个 sigmoid 层有两个输入:ht-1 和 xt,其中 ht-1 是前一个单元的隐藏状态。它也称为遗忘门,因为它输出的是要从前一个单元中包含多少数据的选择。其输出将是一个 [0,1] 之间的数字,通过(逐点)乘以前一个单元的状态。 应用LSTM 模型在使用前必须使用训练数据集进行训练,然后才能用于实际应用。最常见的应用列在以下部分: 文本生成:文本生成或语言建模涉及在输入一系列单词后计算下一个单词。语言模型可以用于字符级别或 n-gram 级别,以及句子或段落级别。 图像处理:LSTM 网络可以通过生成文本表示来分析和描述图像。此应用程序经常用于计算机视觉任务,例如图像字幕和对象识别。 语音和手写识别:LSTM 网络可用于识别和转录口语或手写文本。此应用在语音识别系统和光学字符识别 (OCR) 中具有重要意义。 音乐生成:LSTM 网络可以通过学习现有音乐数据中的模式来生成音乐序列。此应用程序能够创建新的旋律、和声和作品。 语言翻译:LSTM 网络可用于机器翻译任务,将文本序列从一种语言转换为另一种语言。通过学习语言之间的映射,LSTM 网络促进了自动语言翻译。 LSTM 网络的缺点
LSTM 网络的优点
结论总而言之,由于其展示序列数据和捕捉长期依赖性的能力,LSTM 网络已成为人工智能中的关键工具。它们已在自然语言处理、计算机视觉、语音识别、音乐生成和语言翻译等各种领域得到应用。虽然 LSTM 网络存在缺点,但持续的研发意味着解决这些限制并进一步增强基于 LSTM 的模型的能力。 下一个主题非参数统计入门 |
我们请求您订阅我们的新闻通讯以获取最新更新。