什么是上下文学习?2025 年 2 月 24 日 | 阅读需 7 分钟 上下文学习 (ICL) 是人工智能 (AI) 领域,特别是自然语言处理 (NLP) 和像 GPT(生成式预训练 Transformer)这样的大型语言模型 (LLM) 领域中一个相对较新的概念。它指的是这些模型能够仅仅通过在同一上下文或提示中接触相关示例来学习和适应新任务或概念,而无需对特定任务进行微调或显式再训练。 上下文学习从根本上改变了 AI 系统与数据交互的方式以及它们如何应用于不同领域。它依赖于模型根据实时提供给它的示例推断模式、关系和规则的能力。这种强大的能力对 AI 模型在各种应用中的灵活性和可用性产生了深远的影响。 上下文学习是如何工作的?上下文学习 (ICL) 在像 GPT 这样的大型语言模型中运行,通过允许它们根据提示中提供的示例适应新任务,而无需额外的训练。这种方法允许模型从实时接收到的数据中推断出项目的规则或模式。让我们用简单的术语分解一下它是如何工作的 1. 预训练模型 在上下文学习发生之前,模型已经通过从各种来源(包括书籍、文章和网站)获取大量文本数据进行了预训练。这种训练有助于模型学习一般的语言模式、世界信息、语法以及单词和概念之间的关系。 例如,像 GPT 这样的模型由于其大量的训练,知道如何构成句子,理解多种语言,并识别独特的任务(如翻译或摘要)。 2. 提示的作用 在 ICL 过程中,用户通过制作“提示”向版本提供特定任务。此提示包含模型需要执行的任务示例。关键是版本使用提示中提供的上下文信息来识别所询问的内容。 3. 从示例中学习 ICL 完全在提示的上下文中发生。模型不会通过完全改变其参数而以传统意义上的方式“学习”。相反,它通过识别提示中的示例并生成与示例中显示的模式相符的答案来暂时“适应”任务。 提供的示例数量会影响版本执行任务的程度。通常,只需几个示例(有时称为“少样本学习”)就足以让模型概括任务并做出准确的预测。 4. 预测与泛化 一旦版本从上下文中理解了任务,它就可以根据同一提示中提供的新输入进行预测或执行任务。它使用从示例中学习到的模式来处理未见的输入。 例如,如果您扩展先前的翻译提示以包含新句子,版本将继续根据它从先前示例中推断出的英语到法语翻译模式进行翻译。 5. 上下文敏感性 上下文学习中版本所做的预测对所提供的特定示例高度敏感。示例呈现方式或示例数量的微小变化都会影响版本的输出。这是因为模型并没有真正深入“理解”任务,而是遵循提示中的模式。 总结 上下文学习的工作原理是
大型模型无需再训练即可在上下文中“学习”新任务的能力,使 ICL 成为适用于从翻译和摘要到问题解决和创意任务的各种应用程序的强大工具。 上下文学习的关键特征上下文学习 (ICL) 作为 AI 和系统学习中的一种创新方法脱颖而出,在模型如何适应新任务方面提供了独特的灵活性。以下是定义上下文学习的关键特征 1. 无需微调 上下文学习允许模型执行新任务,而无需对任务特定数据进行再训练或精细调整。与需要额外训练来处理特定任务的传统模型不同,ICL 允许模型通过在提示中简单地提供任务示例来即时适应。这节省了时间和计算资源,使系统更加高效。 2. 示例驱动学习 在 ICL 中,学习完全通过提示中提供的示例进行。模型不需要特定的项目指令;相反,它通过识别给定示例中的模式来“学习”。这些示例指导版本理解任务,并使用这些示例进行预测或生成输出。例如,向模型展示如何将一些英语句子翻译成法语将使其能够继续翻译类似的句子,而无需进一步的指令。 3. 上下文敏感性 ICL 中版本的性能尤其取决于提示中示例提供的上下文。这些示例的质量、措辞和相关性直接影响版本执行任务的程度。如果示例清晰并正确表示任务,模型可以正确泛化。但是,差或模糊的示例可能会导致不正确的预测。 4. 任务灵活性 上下文学习的优势之一是其处理各种任务的能力。通过正确的示例,同一个预训练模型可以执行翻译、摘要、问答、文本技术、编码等任务。这种多功能性使 ICL 在将模型应用于不同领域和任务时特别有用,而无需多个专业模型。 5. 少样本或零样本学习 在 ICL 中,提供的示例数量可能会有所不同。在少样本情况下,版本会获得一些示例(通常在 2-5 个之间)来学习项目。在零样本情况下,不提供任何示例,模型必须仅从一般指令中推断出挑战。尽管输入最少,这些模型仍然可以泛化并以惊人的准确性执行任务,尽管性能会随着示例数量的增加而提高。 6. 隐含泛化 上下文学习利用了大型语言模型的泛化能力。即使模型可能没有经过特定挑战的显式训练,它仍然可以从提示中给出的示例中进行泛化。这是可能的,因为预训练过程使模型能够从其训练记录中学习各种模式和概念,从而使其能够快速适应新任务。 7. 临时学习 与通过更新参数来“学习”任务的传统学习方法不同,上下文学习是暂时的。模型不会根据示例改变其底层结构。相反,它仅在交互过程中进行适应,使用给定上下文来指导该会话的预测或输出。 关键特征总结
这些特性使上下文学习成为一种多功能且有效的方法,可将 AI 模型应用于跨行业的动态和多样化任务。 上下文学习的挑战虽然上下文学习具有显着优势,但也存在一些限制和挑战
上下文学习的应用上下文学习被证明是各种领域的多功能工具,例如
结论上下文学习是现代 AI 系统中强大而灵活的能力,它显着增强了大型语言模型的可用性和适应性。通过使模型能够无需显式再训练即可快速适应新任务,ICL 为 AI 应用程序开辟了新的机会,通过智能提示和示例驱动学习更轻松地解决各种问题。尽管在示例敏感性和任务复杂性方面存在挑战,但快速适应和广泛适用性的潜力使上下文学习成为 AI 研究和部署中令人兴奋的前沿领域。 |
我们请求您订阅我们的新闻通讯以获取最新更新。