4 个月前

反应器:一种快速且样本高效的强化学习行动-评价智能体

反应器:一种快速且样本高效的强化学习行动-评价智能体

摘要

在这项工作中,我们提出了一种新的智能体架构,称为Reactor,该架构结合了多种算法和架构上的贡献,生成了一个比优先级决斗DQN(Wang等人,2016年)和分类DQN(Bellemare等人,2017年)具有更高样本效率的智能体,并且在运行时性能上优于A3C(Mnih等人,2016年)。我们的第一个贡献是一种新的策略评估算法,称为分布重溯(Distributional Retrace),该算法将多步离策略更新引入到分布强化学习环境中。同样的方法可以用于将几类设计用于期望值评估的多步策略评估算法转换为分布式的算法。接下来,我们介绍了\eta-留一法策略梯度算法(\b{eta}-leave-one-out policy gradient algorithm),该算法通过使用动作值作为基线来改善方差与偏差之间的权衡。我们的最后一个算法贡献是一种新的序列优先回放算法,该算法利用相邻观察的时间局部性实现更高效的回放优先级排序。通过Atari 2600基准测试,我们展示了这些创新对样本效率和最终智能体性能的提升作用。最后,我们证明了Reactor在训练2亿帧和不到一天的时间内达到了最先进的性能水平。

基准测试

基准方法指标
atari-games-on-atari-2600-alienReactor 500M
Score: 12689.1
atari-games-on-atari-2600-amidarReactor 500M
Score: 1015.8
atari-games-on-atari-2600-assaultReactor 500M
Score: 8323.3
atari-games-on-atari-2600-asterixReactor 500M
Score: 205914.0
atari-games-on-atari-2600-asteroidsReactor 500M
Score: 3726.1
atari-games-on-atari-2600-atlantisReactor 500M
Score: 302831.0
atari-games-on-atari-2600-bank-heistReactor 500M
Score: 1259.7
atari-games-on-atari-2600-battle-zoneReactor 500M
Score: 64070.0
atari-games-on-atari-2600-beam-riderReactor 500M
Score: 11033.4
atari-games-on-atari-2600-berzerkReactor 500M
Score: 2303.1
atari-games-on-atari-2600-bowlingReactor 500M
Score: 81.0
atari-games-on-atari-2600-boxingReactor 500M
Score: 99.4
atari-games-on-atari-2600-breakoutReactor 500M
Score: 514.8
atari-games-on-atari-2600-centipedeReactor 500M
Score: 3422.0
atari-games-on-atari-2600-chopper-commandReactor 500M
Score: 107779.0
atari-games-on-atari-2600-crazy-climberReactor 500M
Score: 236422.0
atari-games-on-atari-2600-defenderReactor 500M
Score: 223025.0
atari-games-on-atari-2600-demon-attackReactor 500M
Score: 115154.0
atari-games-on-atari-2600-double-dunkReactor 500M
Score: 23.0
atari-games-on-atari-2600-enduroReactor 500M
Score: 2224.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
反应器:一种快速且样本高效的强化学习行动-评价智能体 | 论文 | HyperAI超神经