强化学习教程2025年9月1日 | 阅读15分钟 ![]() 我们的强化学习教程将为您提供强化学习的全面概述,包括MDP和Q学习。在RL教程中,您将学习以下主题
什么是强化学习?
![]() 强化学习中的术语
强化学习的关键特征
实现强化学习的方法在机器学习中实现强化学习主要有三种方法,它们是
强化学习的组成要素强化学习主要有四个组成要素,它们如下
1) 策略:策略可以定义为智能体在给定时间下的行为方式。它将环境的可感知状态映射到对这些状态采取的动作。策略是RL的核心要素,因为它本身可以定义智能体的行为。在某些情况下,它可能是一个简单的函数或查找表,而在其他情况下,它可能涉及像搜索过程这样的通用计算。它可以是确定性策略或随机性策略。 对于确定性策略:a = π(s) 2) 奖励信号:强化学习的目标由奖励信号定义。在每个状态下,环境会向学习智能体发送一个即时信号,这个信号称为奖励信号。这些奖励是根据智能体采取的良好和不良动作而给予的。智能体的主要目标是最大化良好动作的总奖励。奖励信号可以改变策略,例如,如果智能体选择的动作导致低奖励,那么策略可能会在未来改变以选择其他动作。 3) 价值函数:价值函数提供了有关情况和动作有多好以及智能体能期望获得多少奖励的信息。奖励指示每个良好和不良动作的即时信号,而价值函数指定未来的良好状态和动作。价值函数依赖于奖励,因为没有奖励就没有价值。估计价值的目标是获得更多奖励。 4) 模型:强化学习的最后一个要素是模型,它模仿环境的行为。借助模型,可以推断出环境将如何运行。例如,如果给定状态和动作,模型可以预测下一个状态和奖励。 模型用于规划,这意味着它提供了一种在实际体验到所有未来情况之前通过考虑所有未来情况来采取行动方案的方法。借助模型解决RL问题的方法称为基于模型的方法。相比之下,不使用模型的方法称为无模型方法。 强化学习如何工作?要理解RL的工作过程,我们需要考虑两个主要方面
让我们以迷宫环境为例,智能体需要探索。请看下图 ![]() 在上图中,智能体位于迷宫的第一个方块。迷宫由一个S6方块(墙)、S8方块(火坑)和S4方块(钻石方块)组成。 智能体不能穿过S6方块,因为它是一堵实墙。如果智能体到达S4方块,则获得+1奖励;如果到达火坑,则获得-1奖励点。它可以采取四个动作:向上、向下、向左和向右移动。 智能体可以采取任何路径到达最终点,但它需要以最少的步骤完成。假设智能体考虑路径S9-S5-S1-S2-S3,那么它将获得+1奖励点。 智能体将尝试记住它为到达最后一步所采取的先前步骤。为了记忆步骤,它为每个先前步骤分配1的值。考虑以下步骤 ![]() 现在,智能体已成功存储了先前步骤,并为每个先前方块分配了1的值。但是,如果智能体开始从一个方块移动,该方块两侧都有1值方块,它将怎么做?考虑下图 ![]() 对于智能体来说,这将是一个困难的条件,无论它应该向上还是向下移动,因为每个方块的值都相同。所以,上述方法不适合智能体到达目的地。因此,为了解决这个问题,我们将使用贝尔曼方程,这是强化学习背后的主要概念。 贝尔曼方程贝尔曼方程由数学家理查德·欧内斯特·贝尔曼于1953年引入,因此称为贝尔曼方程。它与动态规划相关,并用于通过包含先前状态的值来计算决策问题在特定点的价值。 它是一种在动态规划或导致现代强化学习的环境中计算价值函数的方法。 贝尔曼方程中使用的关键要素是
贝尔曼方程可以写成 其中, V(s)= 在特定点计算的值。 R(s,a) = 在特定状态s通过执行动作获得的奖励。 γ = 折现因子 V(s') = 前一个状态的值。 在上面的方程中,我们取所有值的最大值,因为智能体总是试图找到最优解。 因此,现在,使用贝尔曼方程,我们将找到给定环境中每个状态的值。我们将从目标方块旁边的方块开始。 对于第一个方块 V(s3) = max [R(s,a) + γV(s')],这里 V(s')= 0,因为没有进一步的状态可以移动。 V(s3)= max[R(s,a)]=> V(s3)= max[1]=> V(s3)= 1. 对于第二个方块 V(s2) = max [R(s,a) + γV(s')],这里 γ= 0.9(假设),V(s')= 1,R(s, a)= 0,因为该状态没有奖励。 V(s2)= max[0.9(1)]=> V(s)= max[0.9]=> V(s2) =0.9 对于第三个方块 V(s1) = max [R(s,a) + γV(s')],这里 γ= 0.9(假设),V(s')= 0.9,R(s, a)= 0,因为此状态也没有奖励。 V(s1)= max[0.9(0.9)]=> V(s3)= max[0.81]=> V(s1) =0.81 对于第四个方块 V(s5) = max [R(s,a) + γV(s')],这里 γ= 0.9(假设),V(s')= 0.81,R(s, a)= 0,因为此状态也没有奖励。 V(s5)= max[0.9(0.81)]=> V(s5)= max[0.81]=> V(s5) =0.73 对于第五个方块 V(s9) = max [R(s,a) + γV(s')],这里 γ= 0.9(假设),V(s')= 0.73,R(s, a)= 0,因为此状态也没有奖励。 V(s9)= max[0.9(0.73)]=> V(s4)= max[0.81]=> V(s4) =0.66 考虑下图 ![]() 现在,我们将继续前进到第六个方块,在这里智能体可能会改变路线,因为它总是试图找到最优路径。因此,现在,让我们从火坑旁边的方块开始考虑。 ![]() 现在,智能体有三个移动选项;如果它移动到蓝框,它会感到碰撞;如果它移动到火坑,它将获得-1奖励。但这里我们只考虑积极奖励,因此它只会向上移动。将使用此公式计算完整的方块值。请看下图 ![]() 强化学习的类型强化学习主要有两种类型,它们是
积极强化 积极强化学习意味着添加某些东西以增加预期的行为会再次发生的可能性。它对智能体的行为产生积极影响,并增强行为的强度。 这种类型的强化可以长期维持变化,但过度的积极强化可能导致状态过载,从而降低结果。 消极强化 消极强化学习与积极强化相反,因为它通过避免消极条件来增加特定行为会再次发生的可能性。 根据情况和行为,它可能比积极强化更有效,但它只提供强化以满足最低行为。 如何表示智能体状态?我们可以使用马尔可夫状态来表示智能体状态,它包含来自历史的所有必需信息。状态St是马尔可夫状态,如果它遵循以下条件 P[St+1 | St ] = P[St +1 | S1,......, St] 马尔可夫状态遵循马尔可夫性质,该性质说明未来独立于过去,只能由现在定义。RL在完全可观察的环境中工作,智能体可以观察环境并为新状态采取行动。整个过程称为马尔可夫决策过程,下面将进行解释。 马尔可夫决策过程马尔可夫决策过程(MDP)用于形式化强化学习问题。如果环境完全可观察,那么它的动态可以建模为马尔可夫过程。在MDP中,智能体不断与环境互动并执行动作;在每个动作中,环境会响应并生成新状态。 ![]() MDP用于描述RL的环境,几乎所有RL问题都可以使用MDP进行形式化。 MDP包含一个四元组(S、A、Pa、Ra)
MDP使用马尔可夫性质,为了更好地理解MDP,我们需要了解它。 马尔可夫性质它说明“如果智能体处于当前状态S1,执行动作a1并移动到状态s2,那么从s1到s2的状态转换仅取决于当前状态,而未来的动作和状态不取决于过去的动作、奖励或状态。” 或者,换句话说,根据马尔可夫性质,当前状态转换不依赖于任何过去的动作或状态。因此,MDP是满足马尔可夫性质的RL问题。例如,在国际象棋游戏中,玩家只关注当前状态,无需记住过去的动作或状态。 有限MDP 当状态、奖励和动作都有限时,就是有限MDP。在RL中,我们只考虑有限MDP。 马尔可夫过程马尔可夫过程是一个无记忆过程,具有一系列随机状态S1、S2、.....、St,它使用马尔可夫性质。马尔可夫过程也称为马尔可夫链,它是一个在状态S和转换函数P上的元组(S,P)。这两个组件(S和P)可以定义系统的动态。 强化学习算法强化学习算法主要用于AI应用和游戏应用。主要使用的算法有
![]()
现在,我们将扩展Q学习。 Q学习解释
![]() 在方程中,我们有各种组成部分,包括奖励、折现因子(γ)、概率和结束状态s'。但没有给出任何Q值,所以首先考虑下图 ![]() 在上图中,我们可以看到一个智能体有三个值选项,V(s1)、V(s2)、V(s3)。因为这是MDP,所以智能体只关心当前状态和未来状态。智能体可以朝任何方向(上、左或右)移动,所以它需要决定去哪里才能获得最优路径。这里智能体将根据概率进行移动并改变状态。但是,如果我们想要一些精确的移动,那么为此,我们需要对Q值进行一些更改。请看下图 ![]() Q-代表每个状态下动作的质量。因此,我们不使用每个状态的值,而是使用状态和动作的对,即Q(s, a)。Q值指定了哪个动作比其他动作更有利可图,根据最佳Q值,智能体采取下一步行动。贝尔曼方程可用于推导Q值。 要执行任何动作,智能体将获得奖励R(s, a),并且它还将最终进入某个状态,因此Q值方程将是 ![]() 因此,我们可以说,V(s) = max [Q(s, a)] ![]() 上述公式用于估计Q学习中的Q值。 Q学习中的“Q”是什么意思? Q在Q学习中代表质量,这意味着它指定了智能体所采取动作的质量。 Q表在执行Q学习时会创建一个Q表或矩阵。该表遵循状态和动作对,即[s, a],并将值初始化为零。每次动作后,都会更新表格,并将q值存储在表格中。 RL智能体使用此Q表作为参考表,根据q值选择最佳动作。 强化学习与监督学习的区别强化学习和监督学习都是机器学习的一部分,但这两种学习方式截然不同。RL智能体与环境互动,探索它,采取行动并获得奖励。而监督学习算法则从标记数据集中学习,并根据训练预测输出。 RL与监督学习的区别表如下
强化学习应用![]()
结论通过以上讨论,我们可以说强化学习是机器学习中最有趣和最有用的部分之一。在RL中,智能体在没有任何人为干预的情况下通过探索环境来探索环境。它是人工智能中使用的主要学习算法。但有些情况下不应使用它,例如,如果您有足够的数据来解决问题,那么其他ML算法可以更有效地使用。RL算法的主要问题是某些参数可能会影响学习速度,例如延迟反馈。 |
我们请求您订阅我们的新闻通讯以获取最新更新。