AI 中的被动强化学习2025年3月31日 | 阅读 4 分钟 人工智能中的一个基本思想是,被动强化学习(Passive RL)是指在不进行探索性动作的情况下,达到特定目标的学习过程,这与其他强化学习技术不同。当探索成本过高或存在一定风险时,这种形式的强化学习可能适用,在医疗保健、金融和运营的某些领域尤为如此。 被动强化学习是什么意思?在传统的强化学习中,智能体(agent)会主动搜索可能的“状态-动作”对,以期获得预期的最大累积奖励。然而,在被动 强化学习 中,智能体的任务被简化了:它接收一个固定的策略(预先确定的动作列表),但它学习如何为状态分配一个值,以判断是否要遵循该策略。重点从学习最优动作转移到估计遵循给定策略的奖励。这通常用于策略是外部生成,并且探索替代动作可能过于复杂、危险或不必要的情况。 被动强化学习的关键特征以下是被动强化学习的关键特征 - 侧重策略评估:它评估一个固定的策略,而不是探索新动作。
- 状态值估计:使用状态值来估计在遵循预定策略的情况下随时间推移的奖励。
- 贝尔曼方程:迭代应用贝尔曼方程来完善奖励估计。
- 基于模型和无模型:支持这两种方法;基于模型的方法使用环境动力学,而无模型的方法则从实际经验中学习。
- 时间差学习:根据奖励差异实时更新状态值。
- 低风险应用:适用于探索成本高或风险高的场景,如金融和医疗保健。
被动强化学习的关键概念- 策略评估:由于策略是固定的,主要目标是评估该策略的有效性。策略评估确定智能体在任何给定状态下通过遵循特定策略所能期望获得的长期奖励。智能体通过计算状态值(即在遵循策略的情况下从每个状态获得的总体奖励的估计值)来学习预测未来奖励。
- 用于评估的贝尔曼方程:被动强化学习使用贝尔曼方程来估计状态值。这个递归公式根据即时奖励和未来状态的值来计算一个状态的值。智能体迭代地应用这个方程来完善它对不同状态相关奖励的理解,直到达到每个状态的最优估计。
- 基于模型和无模型的方法
- 基于模型:这种方法假定可以访问环境的模型,该模型包括状态转移和奖励接收的概率。在被动强化学习中,这允许使用策略迭代或值迭代等动态规划技术。
- 无模型:无模型的被动强化学习不需要了解环境的动力学。相反,它利用实际经验进行学习,例如使用 蒙特卡洛方法(平均化情节的奖励)或时间差(TD)学习(根据连续步骤之间的差异更新估计)。
被动强化学习中的学习方法- 时间差(TD)学习:TD学习是在被动强化学习中一种流行的方法,特别是在无模型场景下。它根据预测奖励和实际奖励之间的差异(时间差误差)在每次交互后更新估计的状态值。TD学习特别高效,因为它可以在不等待整个情节结束的情况下实时更新值。
- 蒙特卡洛方法:蒙特卡洛方法是情节性的,意味着它们会等待情节结束,然后根据累积的奖励来更新状态值。这种方法不太适用于需要即时反馈的应用,但在确定性或完全可观察的环境中非常有效。
被动强化学习的一些应用被动强化学习广泛应用于智能体必须通过观察或模拟经验进行学习的场景。例如: - 医疗保健:在预测性诊断或医疗决策支持等领域,被动强化学习可以分析历史数据,学习固定治疗策略的结果,并帮助改进未来的预测。
- 金融:被动强化学习可以通过在波动性环境中不直接干预的情况下,从历史市场数据中学习来模拟交易策略或风险管理策略。
- 机器人和自动化:通过评估预先确定的路径,被动强化学习有助于在探索成本高昂的制造业中进行质量控制和提高精度。
被动强化学习与主动强化学习的比较与主动强化学习(智能体寻求最佳动作)不同,被动强化学习依赖于预定义的动作,并侧重于理解这些动作的价值。虽然主动强化学习适用于发现和优化,但被动强化学习非常适合受控环境或灵活性有限的环境。 结论被动强化学习通过专注于预定义策略的评估,为智能体在稳定、非探索性环境中学习提供了一种实用、安全且资源高效的方式。这种学习方法有望应用于医疗保健、金融和自动化制造等行业,这些行业中的探索成本高昂或风险较大。通过利用被动强化学习,人工智能系统可以在最小化不确定性的同时提供见解和优化的决策。
|