4 个月前

RUDDER:延迟奖励的回报分解方法

RUDDER:延迟奖励的回报分解方法

摘要

我们提出了一种新的强化学习方法——RUDDER,用于解决有限马尔可夫决策过程(MDPs)中的延迟奖励问题。在MDPs中,Q值等于预期即时奖励加上预期未来奖励。后者与时间差分(TD)学习中的偏差问题以及蒙特卡洛(MC)学习中的高方差问题有关。当奖励被延迟时,这些问题变得更加严重。RUDDER的目标是使预期未来奖励为零,从而简化Q值估计为计算即时奖励的均值。为了推动预期未来奖励趋近于零,我们提出了以下两个新概念:(i) 奖励重新分配,这会导致回报等价的决策过程,这些过程具有相同的最优策略,并且在最优情况下,未来的预期奖励为零。(ii) 通过贡献分析进行回报分解,这将强化学习任务转化为深度学习擅长的回归任务。在具有延迟奖励的人工任务中,RUDDER比MC显著更快,并且比蒙特卡洛树搜索(MCTS)、TD(λ)和奖励塑形方法快出指数级。在Atari游戏中,基于近端策略优化(PPO)基线的RUDDER提高了游戏得分,在延迟奖励的游戏中最明显。源代码可在https://github.com/ml-jku/rudder获取,演示视频可在https://goo.gl/EQerZV观看。

代码仓库

ml-jku/rudder
官方
pytorch
GitHub 中提及
ml-jku/baselines-rudder
官方
tf
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RUDDER:延迟奖励的回报分解方法 | 论文 | HyperAI超神经