什么是生成式人工智能?

2025年3月17日 | 阅读 10 分钟

生成式人工智能是一种人工智能技术,可以创建多种类型的材料,如文本、图片、音频合成数据。当前对生成式人工智能的热情主要源于新界面易于使用的特性,这些界面允许快速生成高质量的文本、照片视频

这项技术相对较新。生成式人工智能最初于20世纪60年代随着聊天机器人的发展而使用。然而,直到2014年,生成式人工智能才具备生成令人信服的逼真图像、视频和真实人物声音的能力。这一突破得益于生成对抗网络(GANs)的进步,这是一种机器学习算法。

What is Gen AI

一方面,这种补充才能为更全面的教育内容和改进的电影配音创造了机会。它也引发了对企业有害网络攻击的担忧,例如令人信服地冒充主管的欺诈请求和深度伪造( digitally manipulated images or videos)。

Transformer及其所实现的创新语言模型是另外两项最近的发现,下文将详细描述,它们在生成式人工智能的主流化中发挥了重要作用。科学家现在可以训练更大的模型,而无需预先识别所有数据,这得益于一种称为Transformer的机器学习方法。因此,通过使用数十亿文本页面,可以训练新的模型,生成更微妙和复杂的回复。Transformer引入了注意力机制,使模型能够理解句子中以及跨页面、章节和书籍的词语关联。不仅如此,Transformer还能够通过其追踪关联的能力来研究代码、蛋白质、化学物质和DNA。

随着大型语言模型(LLM)的出现速度,即具有数十亿甚至数万亿参数的模型,生成式人工智能模型现在能够创建引人入胜的散文、生成逼真的图像,甚至即时构建中等有趣的喜剧。此外,由于多模态人工智能的改进,团队现在能够开发文本、图形和视频内容。像Dall-E这样根据文本描述自动生成图像或根据照片生成文本标题的工具就是基于此的。

尽管有这些发展,生成式人工智能技术在创建易于理解的文本和设计精美的图形方面仍处于起步阶段。早期的实现容易出现幻觉和吐出奇怪的响应,并伴随着偏见和准确性问题。然而,迄今为止的研究轨迹表明,生成式人工智能的基本能力可能会彻底改变企业技术和组织的运作方式。未来,这项技术可能被用于编写代码、制造新商品、生产治疗方法、改造商业实践和变革供应链。

生成式人工智能是如何工作的?

生成式人工智能始于一个提示,这个提示可以是单词、图像、视频、设计、音符或任何人工智能系统可以解释的输入。然后,各种人工智能算法会根据查询提供新的信息。内容可能包括文章、问题答案,或者由照片或人声制作的令人信服的伪造品。

生成式人工智能的早期版本涉及通过API或其它复杂方法输入数据。开发人员必须熟悉独特的工具,并使用Python等语言创建程序。

现在,生成式人工智能的先驱们正在设计更好的用户体验,使您可以用简单的英语解释请求。在初步响应之后,您还可以根据您希望生成材料代表的风格、语气和其它特征来调整结果。

生成式人工智能的历史

约瑟夫·魏泽鲍姆在20世纪60年代创建了聊天机器人Eliza,这被认为是生成式人工智能的第一个例子。这些早期版本主要依赖模式,词汇量有限,并且由于其基于规则的方法容易被破坏,因此不够健壮。此外,早期聊天机器人在可扩展性和定制方面存在困难。

2010年深度学习和神经网络取得重大进展之后,该领域因其自主转录语音、识别视觉元素和分析现有书面内容的能力而重新焕发活力。

2014年,伊恩·古德费罗介绍了生成对抗网络(GANs)。这种深度学习技术提供了一种新颖的方法来组织相互竞争的神经网络,以生成并优先处理各种类型的信息。这些设备可以生成逼真的文本、音乐、声音和类人形象。这引发了人们对生成式人工智能可能用于创建模仿视频中音频和人物的逼真深度伪造品的兴趣和担忧。

随后,各种神经网络结构和方法学的进步促进了生成式人工智能能力的发展。神经辐射场、Transformer、扩散模型、VAE和长短期记忆是所采用的一些方法。

如何评估生成式人工智能模型?

一个成功的生成式人工智能模型需要三个重要特征:

  1. 质量:生成高质量的输出至关重要,特别是对于直接与用户交互的应用程序。例如,在语音生成方面,低质量的语音很难理解。同样,在生成图像时,目标结果在外观上应与自然拍摄的照片相当。
  2. 多样性:一个好的生成模型能够在不牺牲生成质量的前提下,捕捉其数据分布中的少数模式。因此,训练模型的负面偏见被最小化。
  3. 速度:许多交互式应用程序,包括实时照片编辑,需要快速开发才能用于内容制作过程。

生成式人工智能模型

为了表示和解释内容,生成式人工智能模型结合了不同的AI方法。例如,为了创建文本,一些自然语言处理系统将原始字符(如字母、标点符号和单词)翻译成句子、实体和动作。然后,这些通过多种编码方法表示为向量。类似地,向量被用来表示图片中不同的视觉特征。

注意:训练数据可能包含不容忍、偏见、欺骗和夸大,这些方法也可能将其编码。

一旦开发人员就世界的表示达成一致,他们就利用专门的神经网络来构建响应提示或查询的新信息。结合解码器和编码器的神经网络,或变分自编码器(VAEs),是可用于构建人工智能训练数据、逼真人脸甚至定制人像的方法之一。

以下是两种最古老和最流行的架构:

  • RNNs:循环神经网络(RNNs)至今仍在使用;它们最早出现在20世纪80年代中期。借助RNNs,人工智能能够从依赖顺序数据(即序列具有价值的信息,例如在线点击流、语言和股市走势)的任务中学习并自动化这些任务。鉴于音乐的顺序结构和基于时间的依赖性,RNNs构成了许多音频AI模型的基础,包括用于音乐生成应用程序的模型。然而,它们在自然语言处理(NLP)领域表现出色。在许多其它经典AI任务中,RNNs还用于语音识别、手写分析、金融和天气预报,以及能源消耗波动的预测。
  • CNN:大约十年后,卷积神经网络(CNNs)被开发出来。它们擅长表示空间数据并能够创建图像,因为它们专注于网格状数据。CNNs被用于流行的文本到图片生成式AI程序,如DALL-E和Midjourney,以生成最终图像。

RNNs仍然被广泛使用;然而,随着时间的推移,对它们的改进带来了突破:

Transformer模型:与RNNs相比,Transformer模型现在是表示序列的更强大和通用的方法。它们具有许多特性,使其能够并行处理大量文本和其它序列材料而不会失去对序列的理解。允许ChatGPT如此迅速有效地响应简单对话请求的主要特征之一是并行处理序列输入。

生成式人工智能有哪些应用和优势?

生成式预训练Transformer是ChatGPT模型的基础,是可用于自动化、增强和自主执行业务和IT操作的人工智能架构创新之一。

尽管具体细节因用例而异,但生成式人工智能提供了更快的S产品开发、增强的客户体验和更高的员工效率等优势。终端用户应公平地看待他们希望获得的价值,特别是如果他们正在使用在当前状态下有严重限制的服务。由于生成式人工智能会产生可能存在偏见或错误的人工制品,因此人工验证很重要,甚至可能减少员工节省的时间。为了确保每个项目都能提高运营效率,或创造新的收入或更好的体验,Gartner建议将用例与KPI挂钩。

参与Gartner近期网络研讨会投票的CEO中有38%表示,他们投资生成式人工智能的主要目的是改善客户体验和保留。收入增长(26%)、支出优化(17%)和业务连续性(7%)紧随其后。

ChatGPT、Bard和Dall-E是什么?

流行的生成式人工智能界面包括ChatGPT、Dall-E和Bard。

Dall-E:Dall-E是一个多模态人工智能程序的例子,它识别不同媒体(如视觉、文本和音频)之间的联系。它通过大量的图像和相应的文本描述数据集进行训练。在这里,它将词语的含义与视觉元素联系起来。2021年,OpenAI的GPT实现被用于其创建。2022年,一个更熟练的变体Dall-E 2发布。它在用户的信号帮助下,使用户能够以不同的风格生成视觉效果。

What is Gen AI

ChatGPT:这款于2022年11月在全球广受欢迎的人工智能聊天机器人,是围绕OpenAI的GPT-3.5实现构建的。OpenAI开发了一个聊天界面,允许用户通过互动反馈进行对话和改进文本回复。GPT的先前版本只能通过应用程序编程接口(API)访问。GPT-4于2023年3月14日发布。ChatGPT通过将其与用户的通信历史纳入其输出,模拟真实的对话。微软在新的GPT界面取得显著成功后,最近对OpenAI进行了大量投资,并将其Bing搜索引擎中包含了一个GPT版本。

What is Gen AI

Bard:在发明用于处理语言、蛋白质和其它信息形式的变革性人工智能方法方面,谷歌也是先驱者。对于研究人员来说,它使其中一些模型公开可用。然而,它从未使这些模型的公共界面可访问。由于微软旨在将GPT集成到Bing中,谷歌迅速构建了Google Bard,这是一个面向大众的聊天机器人,基于其LaMDA系列大型语言模型的简化变体。在Bard仓促发布后,谷歌的股价遭受了巨大打击,因为该语言模型错误地将韦布望远镜发现的另一个太阳系中的行星误报为第一个。

What is Gen AI

同时,不一致的行为和错误的T结果让微软和ChatGPT在其早期尝试中付出了代价。此后,谷歌发布了基于其最先进的LLM PaLM 2 的新版Bard。这有助于Bard更快速、更形象地回复用户查询。

生成式人工智能的发明者是谁?

约瑟夫·魏泽鲍姆在20世纪60年代通过创建Eliza聊天机器人,开创了生成式人工智能的发展。

2014年,伊恩·古德费罗展示了生成对抗网络,展示了它们创造听起来和看起来真实的人类实体的能力。

目前对ChatGPT、Google Bard和Dall-E等工具的迷恋源于Open AI和谷歌对语言模型(LLMs)的更多研究。

What is Gen AI

生成式人工智能如何取代就业岗位?

生成式人工智能可能会取代以下几个职业:

  • 编写产品描述。
  • 创建广告内容。
  • 创建基本的数字材料。
  • 回答客户问题。
  • 为网站制作图片。

虽然一些公司将部署生成式人工智能来增强和提高其现有员工的能力,但另一些公司将寻求尽可能地取代人类的方法。

构建生成式人工智能模型的过程是什么?

构建生成式人工智能模型的第一步是成功编码所需输出的表示。例如,文本的生成式人工智能模型可能首先找出如何将单词表示为向量,这些向量显示它们彼此之间的关联程度或具有相似的含义。

由于LLM研究的最新进展,该组织正在采用相同的方法来解释在声音、蛋白质、DNA、药物、照片和三维设计中发现的模式。借助我们的生成式人工智能模型,可以正确表示材料,并快速迭代相关变体。

生成式人工智能模型是如何训练的?

生成式人工智能模型必须针对特定的用例进行训练。LLM的最新创新为将应用程序适应特定用例提供了坚实的基础。例如,OpenAI构建的著名GPT模型已被用于根据文本描述编写文本、生成代码和拍照。

在训练过程中,模型的参数会针对不同的应用场景进行更改,然后使用一组预设的训练数据对输出进行微调。例如,呼叫中心可能会利用聊天机器人训练来评估聊天机器人针对不同客户类型提出的问题以及操作员提供的回复。与文本不同,图像生成程序可能从描述照片主题和视觉方面的标签开始,以训练模型创建新图像。

生成式人工智能如何改变创意工作?

在生成式人工智能的帮助下,创意专家将能够探索不同的想法。艺术家可以从一个基本的设计概念开始,然后逐步发展出更复杂的变体。工业设计师可以研究产品的修改。建筑师可以设想并试验不同的建筑理念,作为未来发展的第一步。

此外,它可能有助于使一些创意领域民主化。例如,业务用户可以应用文本描述来分析产品营销视觉效果。他们还可以使用简单的命令或建议进一步完善这些目标。

生成式人工智能的下一步是什么?

生成式人工智能的潜力受到了广泛关注,部分原因是ChatGPT能够生成看似人类的文本。它也揭示了未来的许多担忧和困难。

短期举措将侧重于利用生成式人工智能方法来优化工作流程和用户体验。建立对生成式人工智能输出的信任也将至关重要。

许多公司还将对其数据应用生成式人工智能调整,以增加营销和品牌推广。编程团队将利用生成式人工智能通过布局和编写来强制执行公司特定的最佳实践,以开发更易于理解和一致的代码。


下一个话题什么是max