3 个月前

Munchausen强化学习

Munchausen强化学习

摘要

自举(Bootstrapping)是强化学习(Reinforcement Learning, RL)中的核心机制。大多数基于时序差分(temporal differences)的算法,会用当前对转移状态价值的估计值替代其真实价值。然而,除了状态价值估计之外,还存在另一种可用于自举的估计量:当前策略本身。本文的核心贡献在于一个极为简洁而有力的思想:将缩放后的策略对数(scaled log-policy)加入即时奖励中。我们证明,仅通过对此类修改,对深度Q网络(Deep Q-Network, DQN)进行轻微调整,即可使智能体在Atari游戏上的表现与分布式方法(distributional methods)相媲美,且无需依赖分布式强化学习、n步回报(n-step returns)或优先回放(prioritized replay)等技术。为验证该思想的通用性,我们进一步将其与隐式分位数网络(Implicit Quantile Network, IQN)结合。所得到的智能体在Atari基准测试中超越了Rainbow算法,仅通过极小的改动便实现了新的性能上限(State of the Art)。此外,为支持这一实证研究,本文还提供了强有力的理论分析,揭示了该方法背后的内在机制:隐式Kullback-Leibler(KL)正则化效应,以及动作价值差距(action-gap)的增强。

基准测试

基准方法指标
atari-games-on-atari-57M-IQN
Mean Human Normalized Score: 504%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Munchausen强化学习 | 论文 | HyperAI超神经