AI Transformer

2025 年 1 月 7 日 | 阅读 14 分钟

引言

AI Transformer是展示一种被称为Transformer架构的人工智能新思维方式如何引导科学家开发新型模型的范例。它的革命性在于它使用了自注意力机制，这种机制的工作方式使得模型能够轻松捕捉长距离依赖关系，这是以前任何模型都无法做到的。例如，与顺序处理的模型相比，Transformer能同时考虑所有序列，这意味着Transformer具有高度的可并行性，在机器翻译、文本生成和情感分析等任务上速度更快。如今，这种AI结构推动了一些AI应用的发展，这些应用涉及语言理解、生成和推理等创新。这个AI Transformer是现代AI研究的核心。它在构建智能系统方面具有极高的通用性和可扩展性。

人工智能中的Transformer是什么？

Transformer是一种神经网络设计，可以将一个输入序列转换为一个输出序列。它们通过学习上下文并在构成序列的各个部分之间建立联系来实现这一点。以输入序列“天空的颜色是什么？”为例。Transformer模型使用内部的数学表示来识别“颜色”、“天空”和“蓝色”这些词语之间的意义和关系。这些信息被用来生成结果：“天空是蓝色的。”

对于许多类型的序列转换，包括蛋白质序列分析、机器翻译和语音识别，组织机构都会使用Transformer模型。

为什么Transformer很重要？

深度学习模型的早期目标之一是教会计算机理解并响应自然语言处理（NLP）活动。这些模型非常侧重于NLP任务。它们利用序列中的前一个词来预测下一个词。

为了更好地理解这一点，可以想想你智能手机的自动补全功能。它根据你输入词对的频率提供建议。例如，如果你经常输入“我很好”，你的手机会在“我”之后自动建议“很好”。

早期的机器学习（ML）模型在更大规模上使用了类似的技术。它们利用训练数据集绘制不同词对或词组之间的关系频率，并试图预测下一个词。然而，一旦输入长度超过某个限度，早期的技术就无法保持上下文。例如，早期的机器学习模型无法生成一个连贯的段落，因为它无法保持段落最后一句和第一句之间的上下文。早期的神经网络无法记住“意大利”和“意大利语”之间的关系，而这种关系对于模型生成“我来自意大利。我喜欢骑马。我说意大利语。”这样的输出是必需的。

通过允许模型处理文本中这种长距离关系，Transformer模型极大地改变了自然语言处理的方法。

赋能大规模模型

Transformer通过使用并行计算完整地处理长序列，大大减少了训练和处理时间。这使得训练像GPT和BERT这样能够学习复杂语言表示的超大型语言模型（LLM）成为可能。它们拥有数十亿个参数，涵盖了广泛的人类语言和知识，推动了研究向更具通用性的人工智能系统发展。

促进多模态AI系统

你可以利用Transformer将AI应用于整合复杂数据集的工作。例如，像DALL-E这样的模型展示了Transformer如何将计算机视觉与自然语言处理（NLP）结合起来，从文本描述中生成图像。通过整合多种信息形式，Transformer使你能够开发出更接近人类创造力和理解力的AI系统。

AI研究与行业创新

Transformer开启了AI研究和技术的新时代，拓展了机器学习的可能性。它们的成功促进了新应用和系统的开发，以解决前沿问题。它们使机器能够理解和生成人类语言，从而催生了能够提升消费者满意度和开辟新商业机会的应用。

Transformer有哪些用例？

任何序列数据，包括编程语言、音乐作品和人类语言，都可以用来训练大型Transformer模型。以下是一些示例用例：

自然语言处理

Transformer使机器能够比以往更准确地生成、理解和翻译人类语言。它们可以生成逻辑连贯、符合上下文的语言，并在各种场景中总结长篇文本。得益于Transformer技术，像Alexa这样的虚拟助手能够理解并响应语音指令。

机器翻译

Transformer在翻译系统中提供精确、实时的跨语言翻译。与早期技术相比，使用Transformer的翻译变得更加准确和流畅。

DNA序列分析

通过将DNA片段视为类似于语言的序列，Transformer可以预测基因突变的后果，理解遗传模式，并帮助识别导致特定疾病的特定DNA区域。理解个体基因构成的能力可以带来更有效的治疗方法，这使得这种能力对个性化医疗至关重要。

蛋白质结构分析

Transformer模型能够处理序列数据，这使它们适合模拟折叠成复杂蛋白质结构的长氨基酸序列。了解蛋白质结构的基础知识对于药物开发和生物过程都至关重要。预测蛋白质基于其氨基酸序列的三维结构的应用也可以从Transformer中受益。

Transformer是如何工作的？

自21世纪初以来，神经网络已成为自然语言处理和图像识别等人工智能（AI）应用中最广泛使用的技术。为了处理复杂问题，它们由多层相互连接的计算节点（或称神经元）组成，类似于人脑中的神经元。

传统的神经网络在处理数据序列时通常使用编码器或解码器架构模式。例如，一段英文文本被送入编码器，编码器在读取和处理后输出一个紧凑的数学表示。这种形式总结了输入的关键点。解码器则以此摘要为起点，逐步生成输出序列，这可能是一段相同文本的法文翻译。

由于这种操作的顺序性，数据的每个单词或片段都必须一个接一个地处理。这个过程的缓慢可能会导致在长距离上丢失一些更精细的细节。

自注意力机制

Transformer模型引入了自注意力机制，改变了这一过程。该方法允许模型一次性查看序列的多个部分，并确定哪些部分最重要，而不是按顺序处理输入。

想象一下，你试图在一个拥挤的环境中听某人说话。你的大脑自然会忽略不重要的声音，专注于他们的讲话。自注意力机制让模型能够执行类似的功能：它更多地关注相关的输入，并将其整合以提供更准确的输出预测。

由于这种技术，Transformer可以在更大的数据集上进行训练，这也提高了它们的效率。它也更高效，特别是对于长文本，因为后续内容的含义可能会受到很久以前的背景信息的影响。

Transformer架构的组成部分有哪些？

Transformer神经网络设计由多个软件层组成，以实现预期的结果。下图描绘了Transformer架构的各个部分。

输入嵌入

在这里，输入序列被转换为软件程序可以解释的数学格式。首先，从输入序列中提取一组标记（token）或独特的序列元素。例如，如果输入是一个短语，那么标记就是单词。然后，通过嵌入将标记序列创建一个数学向量序列。在训练阶段，向量的属性被学习，它们以整数形式传达语义和句法信息。

向量在图形上由n维空间中的一组坐标表示。以一个二维图为例，y轴表示类别，x轴反映单词首字母的字母数值。单词“banana”（香蕉）的首字母是b，属于水果类别，其值为(2,2)。单词“mango”（芒果）的首字母是m，也属于水果类别，其值为(13,2)。向量(x,y)告知神经网络，“banana”和“mango”属于同一类别。

想象一个n维空间，其中每个单词的数百个属性，如其句法、意义和句子用法，都被映射为一组整数。软件可以利用这些数据来理解人类语言模型，并计算单词之间的数学相关性。通过使用嵌入，可以将离散的标记表示为连续的向量，模型可以对其进行检查和学习。

位置编码

由于模型本身不按顺序处理序列输入，位置编码在Transformer设计中扮演着关键角色。Transformer必须考虑标记在输入序列中出现的顺序。为了识别每个标记在序列中的位置，位置编码将信息附加到其嵌入中。通常，这是通过使用一组函数将独特的 positional signal 附加到每个标记的嵌入中来实现的。模型能够利用位置编码来保留标记顺序并理解序列上下文。

Transformer模块

在传统的Transformer模型中，一些Transformer模块层层堆叠。每个Transformer模块的两个主要部分是逐点前馈神经网络和多头自注意力机制。模型使用自注意力机制来评估序列中不同标记的相对重要性。在生成预测时，它会专注于数据的重要部分。

让我们用两个例子：“他躺下”（He lies down）和“不要说谎”（Speak no lies）。在这两个句子中，“lies”这个词的含义只有在与其他词语结合时才能明确。理解正确的解释需要使用“down”和“talk”这两个词。自注意力使得上下文相关的标记能够进行分组。

前馈层中的其他组件有助于Transformer模型的训练和性能提升。例如，每个Transformer模块都包括：

两个主要部分之间的连接起到了快捷方式的作用。它们使得信息能够在网络中自由流动，避免了某些中间过程。
层归一化通过将不同网络层的输出保持在给定范围内，更精确地维护数值，从而确保模型训练的平稳进行。
线性变换函数允许模型修改数值，以更好地适应其正在训练的任务（例如，总结文本而不是翻译）。

线性和Softmax模块

最终，模型需要预测某个具体的东西，比如序列中将出现的下一个词。线性模块在这种情况下很有用。它是最后一个阶段之前的一个厚层，是另一个完全连接的层。它应用一个从向量空间学习到的线性映射，将其映射回初始输入域。在这个关键层，模型的决策功能将复杂的内部表示转换为您可以理解和使用的精确预测。

在最后一步，logit分数被获取并归一化为一个称为softmax函数的概率分布。对于每个类别或标记，softmax输出的元素代表了模型的置信度。

Transformer与其他神经网络架构的比较

循环神经网络（RNN）和卷积神经网络（CNN）是机器学习和深度学习应用中常用的另外两种神经网络。以下内容确定了它们与Transformer的关系。

Transformer vs. RNN

RNN和Transformer模型是两种用于管理序列数据的架构。

RNN使用循环迭代来处理数据序列，一次处理一个元素。在过程开始时，输入层接收序列的第一个元素。之后，数据被发送到一个隐藏层，该层处理数据并将结果发送到下一个时间步。这个结果连同序列中的下一个元素一起被传回隐藏层。RNN保留一个在每个时间步都会更新的隐藏状态向量，这个循环对序列中的每个元素重复进行。RNN可以通过这种技术有效地保留来自先前输入的数据。

另一方面，Transformer一次性处理整个序列。与RNN相比，这种并行化可以显著加快训练时间并处理更长的序列。由于Transformer的自注意力机制，模型还可以一次性考虑整个数据序列。因此，不再需要循环或隐藏向量。取而代之的是，使用位置编码来保留每个元素在序列中的位置信息。

在许多应用中，尤其是在NLP任务中，Transformer因其更强的处理长距离依赖关系的能力而完全取代了RNN。与RNN相比，它们也更高效和可扩展。在某些情况下，RNN仍然可能有用，特别是在模型大小和计算效率比捕获长距离交互更重要时。

Transformer vs. CNN

CNN是为网格状数据设计的，比如图像，其中局部性和空间层次结构很重要。它们使用卷积层在输入上应用滤波器，通过观察过滤后的视图，能够识别局部模式。例如，在图像处理中，初始层可能识别纹理或边界，而后续层则识别更复杂的结构，如物体或形状。

Transformer最初不能处理图像；它们的主要目的是处理序列数据。现在，视觉Transformer模型通过将图像转换为序列格式来处理图像。但对于许多实际的计算机视觉应用，CNN仍然是一个非常好且高效的选择。

Transformer模型的类型

Transformer的演变产生了多种多样的架构风格。以下是一些Transformer模型类型的例子。

双向Transformer

BERT（来自Transformer的双向编码器表示）模型不是孤立地处理单词，而是改变了基本架构，在与句子中所有其他单词的关联中处理单词。从技术上讲，它利用了一种双向的掩码语言模型（MLM）方法。在预训练期间，BERT随机掩盖一部分输入标记，并根据其上下文预测这些被掩盖的标记。BERT通过在两个层面上同时考虑从左到右和从右到左的标记序列来考虑双向性，以获得更好的理解。

生成式预训练Transformer

GPT模型利用了堆叠的Transformer解码器，这些解码器已经在大量文本语料库上进行了语言建模预训练。它们是自回归的，这意味着它们基于所有先前的值来回归或预测序列中的下一个值。通过使用超过1750亿个参数，GPT模型可以生成具有风格和语调调整的文本序列。GPT模型推动了旨在创建通用人工智能的AI研究。这意味着企业可以在实现新的生产力水平的同时，重新设计其应用程序和用户体验。

双向和自回归Transformer

BART（双向和自回归Transformer）是Transformer模型的一个例子，它结合了自回归和双向的特性。它类似于GPT中的自回归解码器和BERT中的双向编码器的结合。与BERT类似，它是双向的，一次读取整个输入序列。另一方面，它根据编码器的输入和先前生成的标记，一次一个标记地生成输出序列。

用于多模态任务的Transformer

多模态Transformer模型，如ViLBERT和VisualBERT，旨在处理两种最常见的数据形式：文本和图像输入。它们使用双流网络独立处理文本和视觉输入，然后结合数据，扩展了Transformer的设计。这种架构使模型能够学习跨模态表示。例如，ViLBERT通过使用协同注意力Transformer层，允许不同流之间的交互。这在需要理解词语和视觉之间联系的场景中至关重要，例如在涉及回答视觉问题的活动中。

视觉Transformer

视觉Transformer（ViT）将Transformer架构应用于图像分类任务。它们将图像数据视为一系列固定大小的图像块，类似于句子中处理单词的方式，而不是将图像作为像素网格来处理。每个图像块被展平并进行线性嵌入后，由传统的Transformer编码器依次处理。为了保留空间信息，会插入位置嵌入。由于使用了全局自注意力，模型可以表示任何一对图像块之间的关联，无论它们的位置如何。

现实生活中的Transformer模型

BERT

谷歌的开源自然语言处理框架BERT在2018年改变了自然语言处理领域。其新颖的双向训练使模型能够对下一个词做出更具上下文信息的预测。

在回答问题和理解模糊语言等任务中，BERT通过从各个维度掌握一个词的上下文，表现优于以前的模型。这一切的核心是Transformer，它动态地连接每个输入和输出组件。

在BERT在各种自然语言处理任务中表现出卓越性能后，谷歌决定将其整合到他们的搜索引擎中，以实现更自然的查询，BERT是在维基百科上进行预训练的。这一发明极大地增强了该领域处理复杂语言理解的能力，并引发了开发先进语言模型的竞赛。

LaMDA

谷歌基于其Transformer模型开发了LaMDA（对话应用语言模型），该模型专为对话而开发。它在2021年的谷歌I/O主题演讲中亮相。用户专注于在多个领域与软件互动，机器模仿对各种查询的自然和正确响应。

LaMDA的架构使其能够理解并响应广泛的主题和人类意图，因此非常适合聊天机器人、虚拟助手以及其他需要动态对话的交互式AI系统。

LaMDA所代表的这种自然语言处理和AI驱动的对话通信形式至关重要，无疑是AI领域的一项显著突破。

GPT和ChatGPT

OpenAI的GPT和ChatGPT等先进的生成模型以其生成既合乎逻辑又符合上下文的文本的能力而闻名。其最初的模型GPT-1于2018年6月首次亮相；其最著名的模型之一GPT-3于两年后的2020年首次亮相。

这些模型精通各种任务，包括跨语言翻译、内容创作和对话。GPT的设计使其能够生成与人类写作非常相似的文本，因此在创意写作、客户服务甚至编码辅助等应用中非常有用。ChatGPT是专为对话场景设计的版本。它在生成类人交互方面表现出色，使其成为聊天机器人和虚拟助手应用的宝贵工具。

其他变体

特别是，Transformer模型或基础模型正变得越来越普遍。为了认识到该领域的快速发展，研究发现了超过50个主要的Transformer模型，斯坦福团队评估了其中的30个。NLP Cloud是一家创新型企业，它在制药和航空等多个行业中为商业用途使用了超过25个大型语言模型。

来自Hugging Face和其他平台的模型中心正在引领将这些模型开源的增长趋势。已经开发出大量的基于Transformer的模型，每种模型都为不同的NLP任务量身定制，展示了该模型在各种应用中的适应性和有效性。

结论

总而言之，Transformer代表了自然语言处理（NLP）和人工智能领域的重大发展。

由于其独特的自注意力机制，这些模型通过高效处理序列输入，表现优于传统的RNN。它们更有效地处理长序列和并行化数据处理的能力极大地加快了训练速度。

Transformer对搜索引擎和类人语言的生成产生了变革性的影响。这些模型的例子包括谷歌的BERT和OpenAI的GPT系列。

因此，它们已成为现代机器学习的重要组成部分，扩展了人工智能的能力，并为技术发展创造了新的机会。

下一主题CNN层

AI Transformer

引言

人工智能中的Transformer是什么？