2024 年 18 个最佳大型语言模型

2025年4月14日 | 阅读 10 分钟

引言

2023年,生成式AI的爆炸式增长将由大型语言模型驱动。尽管如此,它们已经存在了很长时间。

LLM是黑盒人工智能系统,它们通过在海量数据集上应用深度学习来理解和生成新文本。注意力机制是一种模仿人类认知注意力的机器学习技术,于2014年首次在题为“Neural Machine Translation by Jointly Learning to Align and Translate”的研究论文中提出。这标志着现代LLM发展的开端。Transformer模型在另一篇题为“Attention Is All You Need”的论文中于2017年被引入,该模型改进了注意力机制。

18 of the best large language models in 2024

Transformer模型是如今一些最知名的语言模型的基础,例如Transformer的双向编码器表示(BERT)和生成式预训练Transformer系列LLM。

ChatGPT于2022年推出,仅两个月后就吸引了超过1亿用户——该模型采用了OpenAI的一系列语言模型。自那时以来,已经推出了许多竞争模型。有些是开源的,而有些则归微软和谷歌等大公司所有。

要跟上该领域不断发展的步伐可能充满挑战。这里列出了过去和现在最重要的模型。它包括那些在过去产生重大影响的领导者以及那些未来可能产生影响的领导者。

顶级当前LLM

以下是一些当前最相关的大型语言模型。它们处理自然语言并对未来的模型架构产生影响。

  1. BERT
    Google于2018年发布了BERT LLM系列。基于Transformer的BERT模型可以将数据序列转换为不同的数据序列。BERT拥有3.42亿个参数,被设计为Transformer编码器的堆栈。BERT最初在庞大的数据集上进行训练,然后经过优化以执行诸如句子文本相似度和自然语言推理等特定功能。在2019年的Google搜索版本中,它被用来增强查询理解。
  2. Claude
    Claude LLM专注于“宪法AI”,该模型根据一套原则修改AI输出,以使它所驱动的AI助手准确、安全且有用。Anthropic是创建Claude的公司。Claude 3.0是Claude LLM的最新版本。
  3. Cohere
    企业AI平台Cohere提供多种LLM,包括Embed、Rerank和Command。这些LLM可以针对特定业务的独特需求进行定制和训练。Attention Is All You Need的作者之一创立了生产Cohere LLM的公司。Cohere的一个优势在于它不像OpenAI那样仅限于单一云,OpenAI被限制在Microsoft Azure。
  4. Ernie
    百度的大型语言模型Ernie驱动着Ernie 4.0聊天机器人。该机器人于2023年8月推出,拥有超过4500万用户。据传Ernie拥有10万亿个参数。尽管在其他语言方面也很有能力,但该机器人在中文方面表现最好。
  5. Falcon 40B
    技术创新研究所创建了基于Transformer、仅解码器的模型Falcon 40B。它使用英语数据进行训练,并且是公开可用的。该模型还提供了两个更小的版本:Falcon 1B和Falcon 7B(分别为10亿和70亿参数)。Falcon 40B现在可在Amazon SageMaker上获取。您也可以在GitHub上免费获取。
  6. Gemini
    Google的Gemini LLM系列是该公司Gemini聊天机器人的驱动力。该模型取代了Palm作为聊天机器人的动力源,并因此次切换从Bard更名为Gemini。由于Gemini模型是多模态的,它们可以处理文本以及图像、音频和视频。此外,大量的Google产品和应用程序集成了Gemini。提供三种尺寸:Ultra、Pro和Nano。这三个模型分别是Ultra(最大、最强大)、Pro(中等模型)和Nano(最小、最适合设备端任务的模型)。在大多数基准测试评估中,Gemini的表现优于GPT-4。
  7. Gemma
    Google的开源语言模型Gemma系列使用与Gemini相同的资源进行训练。Gemma提供两种尺寸的模型:一个20亿参数的模型和一个70亿参数的模型。Gemma模型在多个评估基准上比同等大小的Llama 2模型更高效,并且可以在个人计算机上本地运行。
  8. GPT-3
    OpenAI于2020年发布了GPT-3,这是一个拥有超过1750亿参数的大型语言模型。GPT-3使用了一个仅解码器的Transformer架构。微软在2022年9月宣布,它是唯一一家使用GPT-3底层模型的公司。GPT-3的规模是其前身的十倍。GPT-3的训练数据来自Wikipedia、Books1、Books2、WebText2和Common Crawl。
    OpenAI最初在2018年的论文“Improving Language Understanding by Generative Pre-Training”中介绍了GPT系列,并向公众发布了GPT系列中最后一个模型GPT-3的参数数量。
  9. GPT-3.5
    GPT-3.5是GPT-3的改进版本,参数更少。GPT-3.5通过人类反馈和强化学习得到改进。驱动ChatGPT的GPT版本是GPT-3.5。OpenAI表示,GPT-3.5 Turbo是各种模型中最强大的。GPT-3.5的训练数据可追溯至2021年9月。
    它还被集成到Bing搜索引擎中,但后来被GPT-4取代。
  10. GPT-4
    GPT-4是OpenAI GPT系列中最大的模型,于2023年发布。它与其它模型一样,是一个基于Transformer的模型。虽然有传言称该模型包含超过170万亿个参数,但其参数数量并未像其他模型那样公开。OpenAI表示,GPT-4是一个多模态模型,这意味着它除了语言之外,还可以处理和生成图像。此外,GPT-4还增加了一个系统消息,允许用户自定义任务和语气。
    GPT-4在多项学术考试中的表现达到了人类水平。模型发布后,一些人推测GPT-4接近于通用人工智能(AGI),即达到或超越人类智力水平的智能。微软Bing搜索由GPT-4提供支持,该模型也可通过ChatGPT Plus获取,并最终将集成到Microsoft Office产品中。
  11. Lamda
    Google Brain开发的名为Lamda(Language Model for Dialogue Applications)的大型语言模型系列于2021年发布。Lamda在庞大的文本语料库上进行了预训练,并使用了仅解码器的Transformer语言模型。当前Google工程师Blake Lemoine在2022年公开表示该程序具有感知能力时,LaMDA引起了广泛关注。它使用了Seq2Seq架构进行开发。
  12. Llama
    Meta于2023年发布的大型语言模型Meta AI(Llama)。最大版本的大小为650亿个参数。Llama目前是开源的,而以前仅对批准的研究人员和开发人员开放。Llama还有较小的版本,需要较少的处理能力即可使用、测试和进行实验。
    Llama在GitHub、Wikipedia、CommonCrawl和Project Gutenberg等公共数据源上进行了训练。Llama具有Transformer架构。Llama被有效地泄露并产生了许多后继模型,包括Vicuna和Orca。
  13. Mistral
    Mistral是一个70亿参数的语言模型,在所有评估的基准测试中得分均高于同等大小的Llama语言模型。Mistral还有一个经过微调的模型,该模型旨在遵循指令。由于其体积较小,它可以独立托管并有效地用于业务需求。其发布使用了基于Apache 2.0的许可证。
  14. Orca
    微软创建的Orca是一个拥有130亿个参数的程序,足够小,可以在笔记本电脑上运行。它试图通过模仿其他开源模型实现的推理过程来取得进步。在许多任务中,Orca的表现与GPT-3.5相当,并且能够以显著减少的参数完成与GPT-4相同的任务。Orca建立在LLaMA的130亿参数版本之上。
  15. Palm
    Google的5400亿参数、基于Transformer的Pathways语言模型驱动着Bard,也就是它的AI聊天机器人。它在多个TPU 4 Pod上进行了训练,TPU 4 Pod是Google专有的机器学习硬件。Palm擅长于推理任务,如编码、分类、数学和问答。Palm也非常擅长将复杂任务分解为更简单的子任务。
    PaLM这个名字来源于Google的一项开发Pathways的研究项目,该项目最终产生了一个模型,该模型可作为多种用例的基础。存在许多经过微调的Palm版本,例如用于网络安全部署、加速威胁分析的Sec-Palm,以及用于生命科学和医疗数据的Med-Palm 2。
  16. Phi-1
    微软Phi-1是一个基于Transformer的语言模型。Phi-1在四天内使用一套教科书质量的数据进行了训练,仅拥有13亿个参数。Phi-1体现了训练较小模型但使用更高质量和合成数据的趋势。
    由于其体积较小,Phi-1的通用能力较弱,主要专注于Python编码。
  17. StableLM
    StableLM是一系列开源语言模型,由Stability AI创建,该公司也创建了图像生成器Stable Diffusion。截至撰写本文时,已有30亿和70亿参数的模型可用,并且正在开发150亿、300亿、650亿和1750亿参数的模型。StableLM致力于成为开放、友好和乐于助人的。
  18. Vicuna 33B
    Vicuna是另一个由Llama衍生出的著名开源LLM。它由LMSYS创建,并通过sharegpt.com上的信息进行微调。尽管多个基准测试显示它比GPT-4小且能力不足,但对于其尺寸的模型来说,它仍然表现出色。GPT-4拥有万亿个参数,而Vicuna只有330亿个。
  19. LLM的先驱
    尽管LLM是一个相对较新的现象,但它们的先驱可以追溯到几十年前。了解ELIZA等遥远的先驱和Seq2Seq等近期的先驱是如何促进现代LLM的发展的。
  20. Seq2Seq
    Seq2Seq是一种用于自然语言处理、图像字幕和机器翻译的深度学习技术。它是Google的一项发明,也是其许多当前LLM(如LaMDA)的基础。Amazon的大型语言模型AlexaTM 20B也基于Seq2Seq。它结合使用了解码器和编码器。
  21. Eliza
    Eliza于1966年创建,是最早的自然语言处理程序之一。它是语言模型的早期实例之一。Eliza通过模式匹配和替换来模仿对话。通过运行特定的脚本,Eliza可以使用权重来指示响应哪些关键词,以模仿病人与治疗师之间的互动。Eliza背后的开发者Joshua Weizenbaum写了一本关于计算和人工智能局限性的书。

大型语言模型如何工作

大型语言模型通过消耗海量书面文本信息(如书籍、文章和互联网数据)来运行。这些深度学习模型随着处理更多高质量数据,在理解和使用人类语言方面变得越来越好。

18 of the best large language models in 2024

让我们更仔细地看看它们工作背后的基本原理

  1. 架构
    大型语言模型基于创新的Transformer模型架构。借助这种深度学习技术,LLM可以通过注意力机制评估序列中每个词的重要性,从而处理词之间的长距离依赖关系。
  2. 注意力机制
    注意力机制是Transformer架构的关键组成部分之一,它使模型在生成输出时能够专注于原始输入文本的不同部分。
    这使得它能够捕获文本中单词或子词之间的关系,无论它们在文本中的距离有多远。
  3. 训练数据
    LLM使用包含互联网部分内容的庞大数据集进行训练。这有助于它们学习风格、修辞、推理,甚至是一些常识,而不仅仅是语法和事实。
  4. Token
    文本被分成称为“token”的单元,token可以小到一个字符,也可以大到一个单词。模型在处理这些token批次时生成和理解语言。
  5. 训练过程
    预训练包括在大型文本语料库上进行无监督学习。它们在预测序列中的下一个词的同时,还学习语言模式、事实,甚至一些推理能力。
    微调:预训练后,模型使用标记数据针对特定任务(如翻译和摘要)进行优化。通过这个指令调整过程,模型被调整以使其在这些任务上更有效。
  6. 分层方法
    Transformer架构的每个层都包含循环神经网络和注意力机制。信息在穿过这些层时被越来越抽象化,从而使模型能够生成连贯且适合上下文的文本。
  7. 生成能力
    LLM是生成式的,这意味着它们可以根据用户输入生成连贯的文本。大型语言模型通过注意力机制学习到的模式,能够生成语言。
  8. 交互性
    通过聊天机器人模型,大型语言模型能够实时响应查询、根据提示生成文本,甚至模仿特定的写作风格。
  9. 局限性
    LLM并不真正“理解”文本。它们从训练数据集中识别模式。

由于它们对序列敏感,它们可能会以不同的方式响应略有不同的问题。

它们不具备人类的推理或批判性思维能力。它们的响应是基于训练过程中观察到的模式。