分层强化学习

2025年03月17日 | 阅读 9 分钟

随着人工智能的不断发展,分层强化学习(HRL)领域是最有前途的趋势之一。这种现代方法解决了传统强化学习(RL)面临的一些关键挑战,包括漫长的训练时间和难以处理奖励稀疏的复杂任务。通过将复杂任务分解为更简单的子任务,HRL 提高了学习效率和可扩展性,使其成为当今人工智能研究和应用的关键领域。

什么是分层强化学习?

分层强化学习(HRL)是强化学习(RL)更广泛领域中的一个专业领域,专注于将复杂任务分解为不那么复杂、更易于管理的子任务。这种方法涉及将学习过程构建为多个层次,其中较高层次为较低层次设定目标或子目标以实现。HRL 旨在提高学习效率,管理长期依赖关系,并更有效地处理奖励稀疏的任务。

HRL 的核心是将学习系统构建成多个抽象层次。这种分层结构包含协同解决复杂任务的高级和低级策略。

  • 高级策略:这些策略在抽象层面上操作,为低级策略设定子目标或子任务以实现。它们通常做出跨越更长时间范围的决策。
  • 低级策略:这些策略负责执行为实现高级策略设定的子目标所需的特定行动。它们在更细粒度的层面上操作,管理即时、逐步的行动。

分层强化学习(HRL)以其将复杂任务分解为更简单子任务的能力而著称,从而实现更高效、更有效的学习。以下是构成 HRL 的关键组成部分:

1. 策略层次

  • 高级策略
    1. 在抽象层面上操作。
    2. 就应追求哪些子目标或子任务做出战略决策。
    3. 在更长的时间范围内工作,为较低层次设定更广泛的目标。
  • 低级策略
    1. 执行为实现高级规则设定的子目标所需的特定行动。
    2. 在更细粒度的层面上操作,处理即时、战术决策。
    3. 专注于有助于完成子任务的短期行动。

2. 时间抽象

时间抽象允许 HRL 处理不同时间尺度上的决策。这包括:

  • 高级行动:这些可能涉及设置一个跨越多个时间步长的目标。
  • 低级行动:这些是为实现高级规则设定的子目标而采取的即时步骤。

通过使用时间抽象,HRL 代理可以管理既需要长期规划又需要即时行动的任务,有效地弥合了高级目标和低级执行之间的差距。

3. 选项框架

选项框架是 HRL 中的一个基本概念。它将选项定义为时间扩展的行动或规则,包括三个基本组成部分:

  • 启动集:可以启动选项的状态集。这决定了何时可以使用某个选项。
  • 策略:当选项处于活动状态时要执行的行动序列。此策略指导代理在执行选项时的行为。
  • 终止条件:指定何时应终止选项的条件。这可能是特定状态、一组状态或基于时间或特定因素的条件。

选项允许代理在扩展的时间段内操作,使其能够规划和执行复杂的行动序列。

4. 子目标发现

识别有益的子目标对于 HRL 的成功至关重要。子目标充当中间里程碑,有助于构建学习过程。有效的子目标发现涉及:

  • 定义里程碑:识别代表整体任务重大进展的关键状态或结果。
  • 指导学习:提供中间目标,使学习过程更易于管理并提供更多奖励。
  • 增强探索:通过设置多样化和信息丰富的子目标,鼓励代理探索国家空间的不同方面。

子目标有助于将复杂任务分解为更小、可行的步骤,从而促进更快、更高效的学习。

5. 学习算法

HRL 中使用各种算法来学习策略层次。一些常见的 HRL 算法包括:

  • 分层 Q 学习:Q 学习的扩展,包括分层决策。它涉及为层次的特定级别学习单独的 Q 值。
  • 分层 Actor-Critic 方法:这些策略将 Actor-Critic 算法扩展到分层设置,具有针对层次不同级别的独立 Actor 和 Critic。
  • 选项-Critic 架构:一个框架,同时学习选项策略(高级)和选项内策略(低级),从而端到端地优化整个层次。

这些算法旨在解决分层结构中学习的复杂性,确保高级和低级策略都得到有效训练。

示例算法:分层 DQN (HDQN)

分层深度 Q 网络 (HDQN) 是传统深度 Q 网络 (DQN) 算法在分层强化学习 (HRL) 框架中的扩展。HDQN 旨在通过将分层结构纳入决策过程来提高学习效率和整体性能。这种结构包括高级和低级策略,每个策略都设计为在不同的抽象级别和时间尺度上执行。

HDQN 的关键组成部分

高级 DQN

  • 目标:为低级 DQN 选择子目标或子任务以实现。
  • 操作:在更长的时间范围内操作,做出战略决策。
  • 状态和行动空间:使用更抽象的国家和行动空间表示,专注于子目标选择而不是即时行动。

低级 DQN

  • 目标:执行特定行动以实现高级 DQN 设定的子目标。
  • 操作:在更短的时间范围内操作,处理战术决策和即时行动。
  • 状态和行动空间:使用国家和行动空间的详细表示,专注于在当前子目标的上下文中执行行动。

HDQN 如何工作

高级策略选择

高级 DQN 观察当前状态并选择一个子目标。此决定基于高级 Q 值,它根据当前状态估计每个可能的子目标的预期未来奖励。

低级策略执行

一旦选择了子目标,低级 DQN 将接管并确定实现子目标所需的特定行动。低级 DQN 持续操作,直到子目标完成或满足终止条件。

学习与更新

高级和低级 DQN 都使用 Q 学习更新进行训练。

  • 高级 DQN:根据实现或终止子目标时获得的奖励更新其 Q 值。
  • 低级 DQN:根据在执行行动以实现子目标时从环境中获得的即时奖励更新其 Q 值。

HDQN 的训练过程

经验回放

高级和低级策略都利用经验回放缓冲区来存储和采样过去的经验,这有助于稳定训练并提高样本效率。

Q 学习更新

高级 Q 学习更新

Hierarchical Reinforcement Learning

其中 s 是当前状态,g 是选定的子目标,α 是学习率,r 是奖励,s' 是下一个状态,g' 是下一个子目标。

低级 Q 学习更新

Hierarchical Reinforcement Learning

HDQN 的应用示例

机器人导航

  • 高级策略:设置子目标,例如到达建筑物内的特定航路点或房间。
  • 低级策略:执行诸如前进、转弯和避开障碍物等行动,以到达高级策略设定的航路点。

训练

高级 DQN 学习哪些航路点或子目标能成功导航。低级 DQN 学习将机器人高效导航到每个航路点所需的特定行动。

HDQN 的优点

  • 提高样本效率:通过将任务分解为子任务,HDQN 可以通过与环境更少的交互来更有效地学习。
  • 增强探索:子目标提供中间目标,指导探索并防止代理陷入次优行为。
  • 可扩展性:HDQN 可以通过管理决策层次来处理更复杂的任务,使其适用于具有大量状态和行动空间的环境。
  • 处理稀疏奖励:分层结构允许更频繁的中间奖励,使在稀疏奖励环境中学习更可行。

HRL 的优点

分层强化学习 (HRL) 提供了许多显著的优势,可提高其解决复杂任务的有效性和效率。这些优势使 HRL 成为机器人、游戏和自动驾驶等各种应用程序中的强大方法。以下是 HRL 的主要优势:

1. 提高样本效率

HRL 的主要优势之一是其提高样本效率的能力。通过将复杂任务分解为更简单的子任务,HRL 减少了与环境交互的次数,从而学习到有效的规则。这是通过以下方式实现的:

  • 子策略重用:子任务通常在不同的上下文中重复出现,允许在多种情况下重用学习到的子策略。
  • 专注学习:单独学习更简单的子任务可能比直接学习整个任务更有效,从而实现更快的收敛。

2. 更好的探索

HRL 通过提供一种通过子目标探索状态空间的结构化方式来增强探索:

  • 内在动机:子目标提供中间目标,保持代理的积极性并指导探索。
  • 分层指导:高级规则可以通过设置多样化和信息丰富的子目标来指导探索,鼓励代理探索状态空间的新区域。

3. 可扩展性

HRL 对于将强化学习扩展到更复杂的环境特别有用

  • 管理复杂性:通过将任务分解为更简单的子任务层次,HRL 可以管理和减轻大型状态和行动空间的复杂性。
  • 分层结构:分层结构允许代理更有效地处理具有长期依赖关系的任务,从而解决使用平面 RL 策略可能无法解决的问题。

4. 处理稀疏奖励

HRL 可以通过子目标提供更频繁的反馈来更好地处理奖励稀疏的环境

  • 中间奖励:实现子目标可以提供中间奖励,即使最终目标遥远,也有助于代理保持正轨并衡量进度。
  • 结构化学习:任务的分层分解确保代理获得更规律的强化,这有助于保持积极性并指导学习。

5. 改进的长期规划

HRL 通过将战略决策与战术决策分开来促进长期规划

  • 战略重点:高级规则可以专注于长期战略,而不会陷入即时行动的细节。
  • 战术执行:低级规则负责执行实现高级目标所需的特定行动,确保两个级别都针对各自的任务进行优化。

6. 模块化和可转移学习

HRL 促进学习技能的模块化和可转移性

  • 模块化策略:为特定子任务学习的子策略可以是模块化的,并在不同的任务或环境中重用。
  • 迁移学习:在一个上下文中开发的技能或规则可以迁移到新的但相关的任务中,减少从头开始学习的需要,并加快对新环境的适应。

7. 增强鲁棒性

HRL 中的分层方法增强了学习和决策的鲁棒性

  • 错误分解:通过分解任务,决策中的错误可以在特定子任务中隔离和纠正,从而减少对整体任务的影响。
  • 容错性:如果一个子任务失败,高级规则可以通过选择替代子目标或子任务进行调整,从而提高系统的整体容错性。

HRL 的应用

  • 机器人技术:用于导航、操作和多步规划等任务,其中将任务分解为子任务非常有用。
  • 游戏:有助于管理复杂游戏中的长期战略和战术行动。
  • 自动驾驶:有助于处理高级路径规划和低级控制行动,提高安全性和效率。

HRL 中的挑战

  • 子目标识别:自动发现有益的子目标是一项艰巨的任务。
  • 信用分配:将成功结果的功劳正确地归因于层次的正确级别可能很复杂。
  • 分层结构设计:设计层次结构,包括层数和高级策略的性质,通常需要大量的领域知识和实验。