什么是大型语言模型 (LLM)

2025年03月17日 | 阅读 9 分钟

在人工智能快速发展的领域中,存在一种技术,它不仅突破了机器理解的极限,还让我们一窥了类人交流的世界。大型语言模型(LLM)是这项古老技术的奇迹。LLM 凭借其理解、生成和修改人类语言的能力,成为自然语言处理领域惊人进步的丰碑。在本文中,我们深入探讨了大型语言模型构成要素。我们将深入研究其复杂的架构、令人惊叹的训练过程、跨行业的众多用途、面临的挑战以及它迫使我们面对的道德困境。

描述大型语言模型

LLM 是复杂的 AI 模型,能够理解和生成人类语言。这些深度学习模型的特点是规模庞大,通常由数十亿个参数组成。这些参数是模型可训练的组件,使其能够识别自然语言中的复杂模式、语法约定和上下文交互。

What is a Large Language Model (LLM)

大规模基于文本的模型(LLM)在来自各种来源(包括书籍、论文、网站等)的大量文本数据上进行训练。通过广泛接触各种语言用法,模型可以理解人类交流中固有的语法、语义,甚至一定程度的推理。

LLM 通常会经历两个基本的训练阶段

预训练阶段:在预训练阶段,模型会接触到广泛而多样化的文本数据集。它会根据前面的词语来预测句子中的下一个词语。通过这样做,模型可以学习语言结构和语言中的统计趋势。

微调:预训练之后,针对特定活动或领域进行微调。这涉及在与特定应用(例如翻译、摘要或问答)相关的更集中的数据集上训练模型。通过这样做,可以微调模型的输出以最适合特定任务。

LLM 的架构结构

在复杂的人工智能领域,很少有发展能像大型语言模型 (LLM) 那样引起世界的关注。这些庞大的人工智能创造物具有惊人的能力,不仅能理解人类语言的细微差别,还能生成非常类似人类的散文。

What is a Large Language Model (LLM)

这些模型建立在精心设计的蓝图之上,这种蓝图赋予它们以惊人的能力吸收、分析和操纵语言。在本次调查中,我们着手理解支持大型语言模型的架构,特别关注变革性的 Transformer 架构。

影响大型语言模型构建的重要因素

为了修改大型语言模型 (LLM) 的行为、性能和功能,需要仔细选择和配置各种组件。以下是影响 LLM 架构的主要元素

模型大小和参数数量:调整模型的复杂性。在创建大型语言模型 (LLM) 时,需要考虑的最重要因素之一是模型的大小和它包含的参数数量。

  • 输入表示:想象一下指导模型进行单词解释作为输入表示。它通过赋予单词有意义的表示来学习。模型正在使用这种称为嵌入的表示来区分单词的许多细微含义。这类似于向艺术家展示调色板;每种颜色都代表一种独特的感觉或概念。
  • 自注意力系统:它决定哪些词对于理解句子的含义更重要。这类似于您在故事中强调特定词语,以确保每个人都能理解关键点。
  • 训练目标:在训练期间,LLM 必须学习各种主题,就像学生在学校必须学习各种课程一样。重点应该放在什么上由训练目标决定。例如,可以训练它猜测句子中下一个出现的词。这类似于教侦探预测谜题的下一个部分,以帮助他们更好地理解情节。
  • 焦点机制:由于注意力过程(例如自注意力)的设计和使用,模型可以权衡各种词语的重要性并捕捉远程相互依赖关系。
  • 数据处理和分词:分词和其他特定的文本数据处理,以及适当的准备,确保输入数据为模型正确构建。

模型通常在大量语料库上进行预训练,然后利用特定于任务的数据和目标对特定任务进行微调。

迁移学习利用预训练期间获得的知识来完成后续任务。

  • 迁移学习和微调将基于预训练的学习迁移到特定任务的微调至关重要。在预训练期间,模型学习通用语言特征,在微调期间,它将它们调整为特定任务。
  • 正则化技术:通过对模型的学习过程施加限制,正则化技术可以最大限度地减少过拟合。例如,Dropout 在训练期间随机停用某些神经元,从而增强了弹性。
  • 硬件和训练基础设施:强大的硬件加速了训练。在多个设备或节点上进行分布式训练使得大型模型能够有效训练。
  • 道德考量:确保模型生成的信息符合道德原则至关重要。采取行动阻止仇恨言论、虚假信息和其他有害输出至关重要。
  • 评估和偏见缓解:严格的评估技术衡量书面文本的质量水平。偏见缓解方法致力于减少训练数据中可能存在的偏见以及模型输出中可能出现的偏见。
  • 模型可解释性:理解模型如何决策很重要。使用特征重要性分析和注意力可视化技术可以更好地理解其决策过程。
  • 资源消耗和环境影响:训练大型模型需要大量的能源,这引发了问题。研究人员正在研究节能训练技术的环境影响。
  • 社区和协作研究:研究人员的合作,以及基准、统计数据和发现的共享,加速了该领域的进步,同时鼓励了负责任的增长。

什么是提示工程?

提示工程仔细规划和增强大型语言模型 (LLM)(如 GPT-4)的文本提示,以实现某些预期结果。用户可以通过精心准备的提示积极修改他们的回复,即使这些模型已经包含大量信息。LLM 是一个生成词语但不懂上下文的聊天机器人。

这个想法是控制算法的输入,以指导生成的输出成功匹配用户的目标。企业正在使用工具和指导来增强与其 AI 应用程序的交互,而这个领域仍处于起步阶段。某些平台甚至提供有用的提示汇编。

提示工程正在成为 IT 和商业领域专业人士的一项关键技能。随着组织寻求利用 LLM 进行定制应用,提示工程师在开发符合特定业务需求的定制模型方面发挥着关键作用。因此,这种实践有望塑造企业在各个行业中与 LLM 交互和利用 LLM 的方式。

Transformer 的设计

一种基于 Transformer 的大型语言模型 (LLM) 是一种人工智能模型,旨在理解、生成和修改人类语言。它基于 Transformer 的设计,这是一种开创性的神经网络拓扑结构,最早由 Vaswani 等人于 2017 年在《Attention Is All You Need》出版物中提出。从那时起,复杂的自然语言处理 (NLP) 模型通常以 Transformer 为起点。

What is a Large Language Model (LLM)
  • 输入嵌入:输入文本被分成更小的单元,例如单词或单词片段。每个组件都被转换为一个独特的数字,该数字体现其重要性。此阶段有助于模型理解单词或组件的含义及其交互方式。
  • 位置编码:我们用一些额外的数据补充这些数值表示。这些额外的信息告知模型每个单词或单词部分在句子中的位置。Transformer 自然不理解单词顺序。因此,这有助于模型理解单词顺序。
  • 编码器:这充当模型的大脑。它通过查看与单词对应的数字来确定文本的上下文和含义。编码器生成类似于秘密笔记的隐藏状态,并存储与文本相关的数据。为了完全理解文本,Transformer 有多层这些编码器。
  • 自注意力机制:将其视为模型的注意力方法。它考虑每个单词并确定哪个对于理解某个单词更重要。这有助于模型在文本中相距甚远的单词之间建立连接。
  • 解码器层:有些模型还具有一个解码器,可以帮助逐词生成文本。它根据之前生成的词来预测下一个词,利用它学到的知识。
  • 多头注意力:模型从多个角度审视词语,就好像它使用多双眼睛而不是一双眼睛一样。这使它能够在各种情况下理解词语。
  • 层归一化:这可以限制模型的学习能力。它有助于模型在各种文本类型上正常运行并保持专注。
  • 输出层:模型在此处做出最终预测。根据模型正在执行的操作,它提供下一个单词的概率、回答问题或执行其他操作。

Transformer 中的自注意力机制提供三个主要优点

  • 每层计算复杂度降低:当数据点数量 (n) 小于数据维度 (d) 时,观察到此优势。在这种情况下,自注意力机制降低了每层的计算复杂度。
  • 增强的并行化计算:自注意力机制有助于实现更具并行性的计算,这通过所需顺序操作的最小数量来衡量。这使得在训练期间能够更快地处理和优化。
  • 远程依赖的路径长度缩短:通过利用自注意力,Transformer 可以有效缩短网络中远程依赖之间的路径长度。这种路径长度的缩短有助于减轻灾难性遗忘的风险,即网络在训练期间可能会忘记重要信息。

本质上,Transformer 中的自注意力机制通过有效管理计算、启用并行处理和维护数据中远程元素之间的连接来提供这些优势。

“自回归”和“seq2seq”这两个词是什么意思?

答案:自回归描述了根据过去的步数推断未来的步数。过去,这种建模方法已用于金融预测等行业。它在自然语言处理 (NLP) 中用于预测句子中的下一个标记或单词。

Seq2seq 是一种将输入序列转换为输出序列的技术。由于数据通常由不同的部分组成,例如句子中的字母或标记,因此使用“序列”一词。词嵌入技术将标记转换为数值向量以处理这些元素。

这种方法可以处理各种输入-输出情况,这一事实使其具有极强的适应性,非常适合各种现实世界的问题。例如,它可以控制语音声音字节、图片像素行及其相关的输出词。使用序列表示随时间变化的数据(例如语音)和其他数据布局具有有趣的哲学含义。

实际上,这种适应性使得分类任务成为可能,例如从五种选项中选择一条推文的情绪并进行预测。通过将查询和可能的响应构架为字符(标记)序列,模型可以处理各种任务,这类似于“通用人工智能”(AGI) 的概念。这意味着单个模型可以成功地完成各种任务。

AGI 和灵活性

Transformer 的普及不仅是由于其性能的提高,这得益于使用更大的模型(这一发展通常与参数数量呈线性关系)。尽管更高的精度无疑对其吸引力很重要,但这只是解释 Transformer 广泛使用的一部分原因。

Transformer 之所以用途广泛且在多个领域都具有相关性,是因为它们在处理自回归和 seq2seq 任务方面的适应性。因此,它们的影响不仅仅是提高基准精度。它为通用人工智能 (AGI) 铺平了道路,使单一模型能够处理各种活动,从而更接近类人的多功能性和适应性。

结论

总之,由 GPT-3 等技术提供支持的大型语言模型 (LLM) 的出现彻底改变了语言模型的格局。由于它们理解上下文、给出深思熟虑的回答甚至模仿人类语言细微差别的非凡能力,这些模型帮助开创了自然语言理解和生成的新时代。在本文中,我们研究了 LLM 的功能、用途和基本工作原理,揭示了它们从语言翻译和摘要到创意写作和代码生成的各种能力。