AI 中环境的类型

2025年4月16日 | 阅读 9 分钟

引言

在设计和创建人工智能时,掌握智能体所处环境的类型非常重要。环境通过调节智能体的行为、决策能力和实现目标的能力来影响智能体。

因此,根据具体的领域和特定人工智能系统的预期结果,将需要采用一种或另一种人工智能环境类型。

人工智能的背景下,环境是指人工智能及其智能体试图实现特定目标时的周围环境。为了区分这些环境,可以使用一些标准:智能体可用的动作、确定性以及可观测性。

什么是人工智能中的环境?

因此,在人工智能的背景下,环境是指智能体周围的条件,以便实现给定的任务。它是智能体执行的场景,并为其提供反馈。可以设计物理空间或虚拟空间来模拟真实过程或模拟概念。

智能体从环境中获得关于其动作的反馈,环境本身决定了其目标完成所能获得的奖励数额。

人工智能中的环境类型

人工智能中几种类型的环境经常被应用。人工智能环境的一些类型包括随机的、确定的、情景的、部分可观测的、完全可观测的、离散的、连续的、顺序的、动态的、静态的、单智能体的、多智能体的、协作的、竞争的、已知的和未知的。

完全可观测与部分可观测环境

根据智能体在任何给定时刻对环境状态了解多少信息,第一类人工智能环境可以是完全可观测或部分可观测的。

  • 智能体对环境的当前状态有完全了解的情况称为完全可观测环境。专门的环境:智能体独自掌握了做出决策所需的所有环境方面的信息。跳棋、国际象棋和其他游戏是完全可见环境的例子。
  • 部分可观测环境是指智能体在特定时刻无法全面了解环境的情况。智能体只能与环境的一部分进行交互,而智能体无法触及的部分环境可能是许多事物。在试图开车穿过交通时,这都是部分可观测环境的一些例子。

确定性与随机性

人工智能中的环境可以根据智能体动作结果的可预测性分为随机环境或确定性环境。

  • 如果一个动作的结果可以被绝对确定地预测,那么该环境就被认为是确定性的。事实上,智能体行为的结果完全由环境的状况决定。当智能体的行为直接导致结果时,环境被认为是确定性的。确定性环境的例子是环境具有清晰且可预测响应的情况,例如,简单的数学问题,其中每次算术运算的结果都有明确的描述。
  • 另一方面,随机环境是指动作的结果不确定但包含概率的环境。环境仅在产生智能体任务结果方面发挥一部分作用,并且其中涉及概率元素。一些随机情况的例子包括概率游戏,例如,纸牌游戏如扑克,或涉及转盘的游戏如轮盘。

竞争与协作

在人工智能环境类型中,根据智能体之间表现出的关系的性质,另一种将被归类为竞争型或合作型,其中智能体可能彼此直接竞争或为完成共享目标而合作。

  • 竞争性环境是指许多智能体为实现不同目标而争夺的局面。所有个体智能体的表现都取决于瓶颈和其他智能体,并且智能体必须在努力实现其目标的过程中进行合作和竞争。国际象棋等游戏是竞争性环境的一个很好的例子。
  • 在协作环境中,有许多智能体参与某种形式的合作项目。智能体的成功仅在于其他智能体的成功,并且为了实现制定的目标和指标,智能体需要协同工作。一些与协作环境相关的作品包括搜索和救援等因素。

单智能体与多智能体

人工智能中的环境可以根据环境中实体的数量分为单智能体环境或多智能体环境。

  • 单智能体环境是指智能体必须采取行动以完成特定任务并必须独自采取行动的系统。单智能体环境的一些例子包括谜题和迷宫游戏。智能体必须应用一些相关的搜索算法或规划方法来找到通往目标状态的路径。
  • 多智能体环境是指不同的智能体进行交互并作用于周围环境,以实现个人或共同目标的设置。多智能体环境的经典例子是多人游戏和交通模拟。因此,为了决定智能体的行为,智能体必须应用博弈论或调用多智能体强化学习。

静态与动态

另一种对人工智能中的环境进行分类的方法是通过改变或不变的环境,即它所经历的变化类型。

  • 静态环境是指恒定不变的环境。环境的状态是不可变的,智能体的活动不会改变它。静态环境的例子是数学课上的问题,或者像鲁比克魔方这样的谜题。智能体,例如,可以使用搜索算法或决策树来改进智能体的行为方式。
  • 始终变化的环境称为动态环境。环境的状态是不可变的,智能体的活动不会改变它。动态环境的例子是电子游戏或机器人应用。因此,智能体必须采用诸如规划或强化学习之类的方法,以根据新环境改进其活动。

离散与连续

人工智能中的环境可以根据状态和动作空间分为离散环境或连续环境。

  • 状态空间是指环境可能处于的所有潜在状态的集合。例如,国际象棋游戏的状态空间将是棋盘上所有可能的棋子位置的集合。在机器人控制任务中,状态空间可能包含有关机器人及其周围环境的位置或速度等数据。
  • 动作空间是智能体在环境的任何状态下选择要执行的动作的动作集。例如,如果在一个像国际象棋这样的游戏中,动作空间将被定义为可以在游戏中进行的移动集。在执行机器人控制任务时,动作空间可能包含改变机器人速度或方向的指令。
  • 这是一个状态和动作空间都是可数或总是离散的环境。离散环境是指游戏参与者所占用的空间区域严格确定,例如,像国际象棋或跳棋这样的棋盘游戏。智能体的决策可以使用搜索算法或决策树等方法来做出。
  • 另一方面,在连续环境中,状态和动作空间都是连续的且是无限的。连续环境包括机器人或控制系统,因为直到不连续点的函数是连续的。如上所示,在连续环境中控制状态转换模型需要智能体的决策过程也是连续的,因为状态和动作空间是连续的。它必须结合诸如强化学习或优化之类的技能,以便进行学习和适应。

情景与顺序

在人工智能中,根据给定的工作以及智能体动作与环境之间的映射,环境可以是情景性的或顺序性的。

  • 情景环境描述了一种情况,在这种情况下,智能体执行一个动作不会改变环境的未来状态。它旨在最大化智能体在每个情景结束时收到的即时奖励,而不是 N 步。国际象棋是情景环境中玩的游戏之一。智能体还可以采用诸如蒙特卡罗方法或Q-learning之类的模型,以确保为每个情景获得最佳策略。
  • 然而,在顺序环境中,智能体的决策会影响环境的未来状态。这样的智能体旨在最终在多次交互后获得获得的奖励的总和。顺序环境,例如,是机器人应用或视频游戏。由于存在前瞻性,智能体必须采用动态规划方法,例如动态规划或强化学习,以便在多步中获得最佳策略。

已知与未知

人工智能中的环境可以并且是根据环境信息的量进行分类的,分为已知环境和未知环境。

  • 当智能体完全了解其收益、转换函数和环境规则时,该环境被认为是已知的。智能体始终完全了解可用的动作集;每个动作的结果都是完全可预测的。通常,已知环境包括国际象棋或井字游戏等游戏。在已知环境中,智能体能够在其操作中结合适当的策略,例如搜索算法或决策树。
  • 未知环境的一个例子是智能体对环境的规则、状态转换以及任何动作可能预期的奖励没有了解或了解很少的环境。智能体可能不知道在此特定状态下允许的动作,或者动作的结果可能是不可预测的。应注意的是,未知环境例如是探索任务或现实应用。在智能体处于无法识别的环境中时,必须应用强化学习或探索-利用困境等技术来优化智能体的行为。
  • 然而,重要的是要理解已知与未知和完全可观测与部分可观测环境之间的区别是正交的。例如,一个环境可以被识别为已知的但部分可观测的环境,或者它被识别为未知的、完全可观测的环境。

结论

人工智能环境可以通过其属性进行分类,这些属性反过来会影响相关智能体的行为和决策。人工智能环境的类型包括确定性的、随机的、完全可观测的、部分可观测的、连续的、离散的、情景的、顺序的、静态的、动态的、单智能体的、多智能体的、竞争的、协作的、已知的、未知的,并决定智能体如何与世界互动。确定性环境给出确定的结果,而随机环境包含随机性。完全可观测环境共享其所有信息,而部分可观测环境则不然。连续环境包含稳态特征,而离散环境包含独立的状态特征。情景环境用于单独处理任务,而顺序环境则依赖于先前的动作。在决策过程中不发生变化的环境称为静态环境,而发生变化的环境称为动态环境。单智能体环境只包含一个智能体,而多智能体环境则涉及交互。竞争性情况意味着高度竞争,而协作性情况意味着高度协作。已知可以根据具体规则进行描述,未知则需要探索,这反过来决定了人工智能的方法。理解所有这些差异对于创建适用于各种情况的运行智能解决方案至关重要。例如,机器人技术经常需要动态和顺序条件,而基于规则的系统主要需要确定性和静态条件。这些分类有助于构建人工智能、区分问题解决策略和做出最佳决策。