人工智能(AI)中的智能体与环境

2025年6月10日 | 阅读11分钟

在人工智能中,“智能体”(agent)是一个拥有传感器和执行器的智能系统,它在某个环境中运行,并试图满足某些目标。环境(environment)指的是智能体所处的外部世界,描述了智能体采取行动的背景。

Agent and Environment in Artificial Intelligence (AI)

智能体的范围可以从基本的温度计到复杂的机器人。每一个智能体都遵循一个感知-行动控制循环,根据从环境中提取的信息来行动,而且没有两个是完全相同的。这就是AI的独特之处:交互——能够作为某个智能体感知环境并做出适当的行动,能够感知到什么是重要的。

AI中的智能体是世界上的一个自主对象,能够感知和响应。这是因为当你的环境中有一个智能体时,你基本上也必须适应气候,而智能体将不得不做出一系列的决策。

智能体的例子

  • 扫地机器人: 它们可以借助内置的传感器识别障碍物的存在,并有效地清洁地板。
  • 自动驾驶汽车: 自动驾驶汽车利用其感官来感知道路环境,并根据当前状况在道路上做出决策,以实现安全驾驶。
  • 虚拟助手: 像Alexa或Siri这样的虚拟助手会解读用户的输入,理解命令,并执行从发送提醒到操作智能设备等各种任务。

什么是AI中的环境?

因此,在人工智能的背景下,环境指的是智能体为实现给定任务而周围的条件。它是智能体执行任务并为其提供反馈的情境。环境可以是一个物理空间或一个虚拟空间,可以用来模拟真实过程或概念模型。

智能体从环境中获得关于其行动的反馈,而环境本身决定了它从完成目标中将获得多少奖励。

环境的例子

  • 一个机器人导航走向目标的迷宫。
  • 一个AI可以在其中玩游戏并与其他玩家对抗的虚拟环境。
  • 自动驾驶汽车的真实生活环境,例如交通状况、天气和路况等。
  • 通过这种方式,开发AI系统使其以某种特定方式工作,以克服这些问题并在任何相关环境中实现其目标。

智能体术语

熟悉有关智能体的关键概念对于更好地理解它们如何在环境中工作也至关重要。

  • 感知(Percept): 感知是指智能体通过其传感器从环境中接收到的信号,或者说智能体可以从其周围环境中接收或获取的输入。例如,扫地机器人推断出区域的布局和/或它可能在该区域内遇到的物体。
  • 感知序列(Percept Sequence): 智能体自某个时间点以来所感知到的所有感知的完整记录。它帮助智能体根据其接收到的过去输入做出决策。例如,一辆自动驾驶汽车利用感知序列,根据过去在交通模式中的经验来调整其决策过程。
  • 行动(Action): 行动是智能体对感知到的感知或感知序列所发起的响应或输出。行动通过附属部件执行,包括机器人的手臂、手指以及AI辅助系统中的其他执行工具,例如在国际象棋比赛中走一步棋。

智能体的类型

智能体根据其功能、能力以及所拥有的智能程度进行分类。

简单反射型智能体

这类智能体在当前状态下运行,不了解历史数据。它们的响应来自事件-条件-行动规则,即用户触发一个事件,然后智能体将查看事件-条件-行动列表并执行相应的预定义行动。

基于模型的反射智能体

这些智能体的行为类似反射智能体,但它们对其周围环境的了解更为广泛。因此,一个世界的模型被构建到包含智能体历史的内部系统中。

基于目标的智能体

这些智能体也被称为理性智能体,因为除了基于模型的智能体所存储的信息外,它们还包含目标信息或描述理想世界的信息。

基于效用的智能体

这些智能体与基于目标的智能体相似,但它们有一个额外的效用范围,可以根据目标对每个行动进行比较,并选择最佳行动。一些评级标准包括成功概率或所需资源。

AI中的环境类型

AI中通常应用几种环境。AI中的一些环境类型包括:确定性的、随机的、完全可观察的、部分可观察的、连续的、离散的、分阶段的、序列的、静态的、动态的、单智能体的、多智能体的、竞争性的和协作性的。

完全可观察 vs. 部分可观察的环境

根据智能体在任何给定时刻对环境状态信息的掌握程度,AI中的第一种环境类型可以分为完全可观察或部分可观察。

智能体对环境当前状态有完全了解的情况被称为完全可观察环境。在这种专门的环境中,智能体可以单独访问做出决策所需的环境所有方面。跳棋、国际象棋和其他游戏是完全可见环境的实例。

部分可观察环境是指智能体在特定时刻无法获得环境的完整视图。智能体只能与环境的一部分互动,而智能体无法访问的那部分环境可能包含多种事物。当你试图驾车穿过交通时,就是部分可观察环境的一些例子。

确定性 vs. 随机性

根据智能体行动结果的可预测性,人工智能中的环境可以分为随机性或确定性。如果一个行动的结果可以绝对确定地预测,那么这个环境就是确定性的。事实上,智能体行为的结果完全由环境的状态决定。当智能体的行动直接导致后果时,该环境被称为确定性环境。

确定性环境的例子是环境具有清晰且可预测响应的情况,例如简单的数学问题,其中每个算术运算的结果都是明确描述的。

另一方面,随机环境是指行动的结果不被保证,而是包含概率性。环境只是产生智能体任务结果的一部分,其中涉及一个元素或概率。随机情况的一些例子包括机会游戏,如扑克等纸牌游戏,或涉及转盘的游戏,如轮盘赌。

竞争性 vs. 协作性

在AI的环境类型中,另一种分类是竞争性或合作性,这取决于智能体之间关系性质,智能体可能直接相互竞争,或为完成共同目标而合作。

竞争性环境是多个智能体为实现不同目标而斗争的情况。所有单个智能体的表现都依赖于瓶颈和其他智能体,智能体必须在努力执行其目标的过程中合作与竞争。国际象棋等游戏是竞争性环境的一个很好的例子。

在协作环境中,有多个智能体参与某种形式的合作项目。一个智能体的成功只有在其他智能体也成功的情况下才能实现,为了完成既定的目标和指标,智能体需要紧密地协同工作。一些与协作环境相关的工作包括搜索和救援等因素。

单智能体 vs. 多智能体

根据环境中实体的数量,人工智能中的环境可以分为单智能体或多智能体环境。

单智能体环境指的是一个系统,其中一个智能体必须采取行动来完成特定任务,并且必须单独行动。单智能体环境的一些例子包括谜题和迷宫游戏。智能体必须应用一些相关的搜索算法或规划方法来找到通往目标状态的路径。

多智能体环境是一个设置,其中不同的智能体进行交易并对周围环境采取行动,以期实现个人或共同的目标。多智能体环境的经典例子是多人游戏和交通模拟。因此,为了决定智能体的行为,智能体必须应用博弈论或调用多智能体强化学习。

静态 vs. 动态

另一种对AI中环境进行分类的方法是通过其是否变化,即它所经历的变化类型。

静态环境是恒定不变的。环境的状态是不可变的,智能体的活动不会改变它。静态环境的例子是数学课上的问题或像魔方这样的谜题。例如,智能体可以使用搜索算法或决策树来改善其行为方式。

一个不断变化的环境被称为动态环境。环境的状态是不可变的,智能体的活动不会改变它。动态环境的例子是视频游戏或机器人应用。因此,智能体必须采用诸如规划或强化学习之类的方法,以便根据新环境改善其活动。

离散 vs. 连续

人工智能中的环境可以根据状态和行动空间分为离散或连续。

状态空间是环境可能处于的所有潜在状态的集合。例如,在国际象棋游戏中,状态空间将是棋盘上棋子所有可能位置的集合。在机器人控制任务中,状态空间可以包含有关机器人及其周围环境的位置或速度等数据。

行动空间是智能体在环境的任何状态下选择要采取的行动的集合。例如,如果在国际象棋等游戏中,行动空间将被定义为游戏中可以进行的所有移动的集合。在执行机器人控制任务时,行动空间可能包含改变机器人速度或方向的命令。

当状态和行动空间都是可数的或总是离散时,这是一个离散环境。离散环境是指游戏中参与者所占空间部分是严格确定的,例如国际象棋或跳棋等棋盘游戏。智能体的决策可以使用诸如搜索算法或决策树之类的方法来做出。

另一方面,在连续环境中,状态和行动空间都是连续且无限的。连续环境包括机器人技术或控制系统,因为函数在达到不连续点之前是连续的。

如上所述,在连续环境中控制状态转换模型要求智能体的决策过程也是连续的,即状态和行动空间是连续的。它必须结合诸如强化学习或优化之类的技能,以便学习和适应。

分阶段 vs. 序列

在AI中,根据给定的工作以及智能体的行动与环境之间的映射关系,环境可以是分阶段的或序列的。

分阶段环境描述了一种情景,其中智能体采取的行动不会改变环境的未来状态。它的目标是最大化智能体在每个阶段结束时收到的即时奖励,而不是N步奖励。国际象棋是在分阶段环境中进行的游戏的一个例子。智能体也可以采用蒙特卡罗方法或Q学习等模型来确保每个阶段的最佳策略。

然而,在序列环境中,智能体的决策会影响环境的未来状态。这样的智能体旨在在多次互动后最终获得最高的总奖励。序列环境的例子是机器人应用或视频游戏。

由于存在前瞻性,智能体必须采用动态规划或强化学习等动态规划方法,以获得多步的最佳策略。

已知 vs. 未知

人工智能中的环境可以并且是根据关于环境的信息量来分类的,例如已知环境和未知环境。

当智能体完全了解其收益、转移函数和环境规则时,环境被认为是已知的。智能体总是完全了解其可用的行动集合;每个行动的结果都是完全可预测的。典型的已知环境包括国际象棋或井字游戏等游戏。在已知环境中,智能体能够在其操作中结合适当的策略,例如搜索算法或决策树。

未知环境的一个例子是,智能体对环境规则、状态转移以及任何行动可能期望的奖励没有了解或了解甚少。智能体可能不知道在该特定状态下允许的行动,或者行动的结果可能是不可预测的。

应该注意的是,未知环境的例子是探索任务或现实生活应用。当智能体处于无法识别的环境中时,必须应用诸如强化学习或探索-利用困境之类的技术来优化其行为。

然而,至关重要的是要理解,已知与未知和完全可观察与部分可观察环境之间的区别是正交的。例如,一个环境可以被识别为已知但部分可观察的环境,或者可以被识别为未知但完全可观察的环境。

图灵测试与环境交互

图灵测试是一种衡量智能体基于正常人类行为采取行动的能力和效率的测试。如前所述,这种类型的测试对环境的复杂性很敏感,智能体能满足其复杂性的程度表明了其在该环境中的适应能力。

在基本设置中,智能体只能遵循特定的程序,而在一个复杂、不可预测和变化莫测的环境中,智能体需要能够推理、解决问题、学习并以最佳利益做出选择。

事实上,对环境的了解是设计智能体以在任何给定条件下表现最佳的最重要要求之一。

结论

智能体和环境为AI设定了背景,因为它们描绘了智能系统如何与其周围环境互动。然而,与AI相关的问题通常源于智能体与其环境之间的关系。这些概念在开发跨行业的AI解决方案中非常重要,例如通过自动驾驶汽车在复杂交通基础设施中进行电力控制,以及通过虚拟助手提供客户服务。

理解AI、智能体和环境至关重要,必须掌握才能将其融入将重塑我们所知世界的方法中。