分层强化学习

2025年03月17日 | 阅读 9 分钟

随着人工智能的不断发展，分层强化学习（HRL）领域是最有前途的趋势之一。这种现代方法解决了传统强化学习（RL）面临的一些关键挑战，包括漫长的训练时间和难以处理奖励稀疏的复杂任务。通过将复杂任务分解为更简单的子任务，HRL 提高了学习效率和可扩展性，使其成为当今人工智能研究和应用的关键领域。

什么是分层强化学习？

分层强化学习（HRL）是强化学习（RL）更广泛领域中的一个专业领域，专注于将复杂任务分解为不那么复杂、更易于管理的子任务。这种方法涉及将学习过程构建为多个层次，其中较高层次为较低层次设定目标或子目标以实现。HRL 旨在提高学习效率，管理长期依赖关系，并更有效地处理奖励稀疏的任务。

HRL 的核心是将学习系统构建成多个抽象层次。这种分层结构包含协同解决复杂任务的高级和低级策略。

高级策略：这些策略在抽象层面上操作，为低级策略设定子目标或子任务以实现。它们通常做出跨越更长时间范围的决策。
低级策略：这些策略负责执行为实现高级策略设定的子目标所需的特定行动。它们在更细粒度的层面上操作，管理即时、逐步的行动。

分层强化学习（HRL）以其将复杂任务分解为更简单子任务的能力而著称，从而实现更高效、更有效的学习。以下是构成 HRL 的关键组成部分：

1. 策略层次

高级策略
1. 在抽象层面上操作。
2. 就应追求哪些子目标或子任务做出战略决策。
3. 在更长的时间范围内工作，为较低层次设定更广泛的目标。
低级策略
1. 执行为实现高级规则设定的子目标所需的特定行动。
2. 在更细粒度的层面上操作，处理即时、战术决策。
3. 专注于有助于完成子任务的短期行动。

2. 时间抽象

时间抽象允许 HRL 处理不同时间尺度上的决策。这包括：

高级行动：这些可能涉及设置一个跨越多个时间步长的目标。
低级行动：这些是为实现高级规则设定的子目标而采取的即时步骤。

通过使用时间抽象，HRL 代理可以管理既需要长期规划又需要即时行动的任务，有效地弥合了高级目标和低级执行之间的差距。

3. 选项框架

选项框架是 HRL 中的一个基本概念。它将选项定义为时间扩展的行动或规则，包括三个基本组成部分：

启动集：可以启动选项的状态集。这决定了何时可以使用某个选项。
策略：当选项处于活动状态时要执行的行动序列。此策略指导代理在执行选项时的行为。
终止条件：指定何时应终止选项的条件。这可能是特定状态、一组状态或基于时间或特定因素的条件。

选项允许代理在扩展的时间段内操作，使其能够规划和执行复杂的行动序列。

4. 子目标发现

识别有益的子目标对于 HRL 的成功至关重要。子目标充当中间里程碑，有助于构建学习过程。有效的子目标发现涉及：

定义里程碑：识别代表整体任务重大进展的关键状态或结果。
指导学习：提供中间目标，使学习过程更易于管理并提供更多奖励。
增强探索：通过设置多样化和信息丰富的子目标，鼓励代理探索国家空间的不同方面。

子目标有助于将复杂任务分解为更小、可行的步骤，从而促进更快、更高效的学习。

5. 学习算法

HRL 中使用各种算法来学习策略层次。一些常见的 HRL 算法包括：

分层 Q 学习：Q 学习的扩展，包括分层决策。它涉及为层次的特定级别学习单独的 Q 值。
分层 Actor-Critic 方法：这些策略将 Actor-Critic 算法扩展到分层设置，具有针对层次不同级别的独立 Actor 和 Critic。
选项-Critic 架构：一个框架，同时学习选项策略（高级）和选项内策略（低级），从而端到端地优化整个层次。

这些算法旨在解决分层结构中学习的复杂性，确保高级和低级策略都得到有效训练。

示例算法：分层 DQN (HDQN)

分层深度 Q 网络 (HDQN) 是传统深度 Q 网络 (DQN) 算法在分层强化学习 (HRL) 框架中的扩展。HDQN 旨在通过将分层结构纳入决策过程来提高学习效率和整体性能。这种结构包括高级和低级策略，每个策略都设计为在不同的抽象级别和时间尺度上执行。

HDQN 的关键组成部分

高级 DQN

目标：为低级 DQN 选择子目标或子任务以实现。
操作：在更长的时间范围内操作，做出战略决策。
状态和行动空间：使用更抽象的国家和行动空间表示，专注于子目标选择而不是即时行动。

低级 DQN

目标：执行特定行动以实现高级 DQN 设定的子目标。
操作：在更短的时间范围内操作，处理战术决策和即时行动。
状态和行动空间：使用国家和行动空间的详细表示，专注于在当前子目标的上下文中执行行动。

HDQN 如何工作

高级策略选择

高级 DQN 观察当前状态并选择一个子目标。此决定基于高级 Q 值，它根据当前状态估计每个可能的子目标的预期未来奖励。

低级策略执行

一旦选择了子目标，低级 DQN 将接管并确定实现子目标所需的特定行动。低级 DQN 持续操作，直到子目标完成或满足终止条件。

学习与更新

高级和低级 DQN 都使用 Q 学习更新进行训练。

高级 DQN：根据实现或终止子目标时获得的奖励更新其 Q 值。
低级 DQN：根据在执行行动以实现子目标时从环境中获得的即时奖励更新其 Q 值。

HDQN 的训练过程

经验回放

高级和低级策略都利用经验回放缓冲区来存储和采样过去的经验，这有助于稳定训练并提高样本效率。

Q 学习更新

高级 Q 学习更新

其中 s 是当前状态，g 是选定的子目标，α 是学习率，r 是奖励，s' 是下一个状态，g' 是下一个子目标。

低级 Q 学习更新

HDQN 的应用示例

机器人导航

高级策略：设置子目标，例如到达建筑物内的特定航路点或房间。
低级策略：执行诸如前进、转弯和避开障碍物等行动，以到达高级策略设定的航路点。

训练

高级 DQN 学习哪些航路点或子目标能成功导航。低级 DQN 学习将机器人高效导航到每个航路点所需的特定行动。

HDQN 的优点

提高样本效率：通过将任务分解为子任务，HDQN 可以通过与环境更少的交互来更有效地学习。
增强探索：子目标提供中间目标，指导探索并防止代理陷入次优行为。
可扩展性：HDQN 可以通过管理决策层次来处理更复杂的任务，使其适用于具有大量状态和行动空间的环境。
处理稀疏奖励：分层结构允许更频繁的中间奖励，使在稀疏奖励环境中学习更可行。

HRL 的优点

分层强化学习 (HRL) 提供了许多显著的优势，可提高其解决复杂任务的有效性和效率。这些优势使 HRL 成为机器人、游戏和自动驾驶等各种应用程序中的强大方法。以下是 HRL 的主要优势：

1. 提高样本效率

HRL 的主要优势之一是其提高样本效率的能力。通过将复杂任务分解为更简单的子任务，HRL 减少了与环境交互的次数，从而学习到有效的规则。这是通过以下方式实现的：

子策略重用：子任务通常在不同的上下文中重复出现，允许在多种情况下重用学习到的子策略。
专注学习：单独学习更简单的子任务可能比直接学习整个任务更有效，从而实现更快的收敛。

2. 更好的探索

HRL 通过提供一种通过子目标探索状态空间的结构化方式来增强探索：

内在动机：子目标提供中间目标，保持代理的积极性并指导探索。
分层指导：高级规则可以通过设置多样化和信息丰富的子目标来指导探索，鼓励代理探索状态空间的新区域。

3. 可扩展性

HRL 对于将强化学习扩展到更复杂的环境特别有用

管理复杂性：通过将任务分解为更简单的子任务层次，HRL 可以管理和减轻大型状态和行动空间的复杂性。
分层结构：分层结构允许代理更有效地处理具有长期依赖关系的任务，从而解决使用平面 RL 策略可能无法解决的问题。

4. 处理稀疏奖励

HRL 可以通过子目标提供更频繁的反馈来更好地处理奖励稀疏的环境

中间奖励：实现子目标可以提供中间奖励，即使最终目标遥远，也有助于代理保持正轨并衡量进度。
结构化学习：任务的分层分解确保代理获得更规律的强化，这有助于保持积极性并指导学习。

5. 改进的长期规划

HRL 通过将战略决策与战术决策分开来促进长期规划

战略重点：高级规则可以专注于长期战略，而不会陷入即时行动的细节。
战术执行：低级规则负责执行实现高级目标所需的特定行动，确保两个级别都针对各自的任务进行优化。

6. 模块化和可转移学习

HRL 促进学习技能的模块化和可转移性

模块化策略：为特定子任务学习的子策略可以是模块化的，并在不同的任务或环境中重用。
迁移学习：在一个上下文中开发的技能或规则可以迁移到新的但相关的任务中，减少从头开始学习的需要，并加快对新环境的适应。

7. 增强鲁棒性

HRL 中的分层方法增强了学习和决策的鲁棒性

错误分解：通过分解任务，决策中的错误可以在特定子任务中隔离和纠正，从而减少对整体任务的影响。
容错性：如果一个子任务失败，高级规则可以通过选择替代子目标或子任务进行调整，从而提高系统的整体容错性。

HRL 的应用

机器人技术：用于导航、操作和多步规划等任务，其中将任务分解为子任务非常有用。
游戏：有助于管理复杂游戏中的长期战略和战术行动。
自动驾驶：有助于处理高级路径规划和低级控制行动，提高安全性和效率。

HRL 中的挑战

子目标识别：自动发现有益的子目标是一项艰巨的任务。
信用分配：将成功结果的功劳正确地归因于层次的正确级别可能很复杂。
分层结构设计：设计层次结构，包括层数和高级策略的性质，通常需要大量的领域知识和实验。

下一主题什么是特征缩放以及它在机器学习中为何重要？

分层强化学习

什么是分层强化学习？

1. 策略层次

2. 时间抽象

3. 选项框架

4. 子目标发现

5. 学习算法

示例算法：分层 DQN (HDQN)

HDQN 的关键组成部分

HDQN 如何工作

HDQN 的训练过程

Q 学习更新

HDQN 的应用示例

HDQN 的优点

HRL 的优点

HRL 的应用

HRL 中的挑战

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

分层强化学习

什么是分层强化学习？

1. 策略层次

2. 时间抽象

3. 选项框架

4. 子目标发现

5. 学习算法

示例算法：分层 DQN (HDQN)

HDQN 的关键组成部分

HDQN 如何工作

HDQN 的训练过程

Q 学习更新

HDQN 的应用示例

HDQN 的优点

HRL 的优点

HRL 的应用

HRL 中的挑战

相关帖子

如何通过类权重在 ML 中改善类别不平衡

Softmax 激活函数如何工作

机器学习数学课程

马尔可夫模型应用：精确高效地预测用户需求

多项逻辑回归

线性模型

Mini Batch K-means 聚类算法

使用 PyCaret 构建机器学习分类模型

StandardScaler、MinMaxScaler 和 RobustScaler 技术

支持向量机中的主要核函数

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器