7 个月前

Audrunas Gruslys; Will Dabney; Mohammad Gheshlaghi Azar; Bilal Piot; Marc Bellemare; Remi Munos

摘要

在这项工作中，我们提出了一种新的智能体架构，称为Reactor，该架构结合了多种算法和架构上的贡献，生成了一个比优先级决斗DQN（Wang等人，2016年）和分类DQN（Bellemare等人，2017年）具有更高样本效率的智能体，并且在运行时性能上优于A3C（Mnih等人，2016年）。我们的第一个贡献是一种新的策略评估算法，称为分布重溯（Distributional Retrace），该算法将多步离策略更新引入到分布强化学习环境中。同样的方法可以用于将几类设计用于期望值评估的多步策略评估算法转换为分布式的算法。接下来，我们介绍了\eta-留一法策略梯度算法（\b{eta}-leave-one-out policy gradient algorithm），该算法通过使用动作值作为基线来改善方差与偏差之间的权衡。我们的最后一个算法贡献是一种新的序列优先回放算法，该算法利用相邻观察的时间局部性实现更高效的回放优先级排序。通过Atari 2600基准测试，我们展示了这些创新对样本效率和最终智能体性能的提升作用。最后，我们证明了Reactor在训练2亿帧和不到一天的时间内达到了最先进的性能水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Audrunas Gruslys; Will Dabney; Mohammad Gheshlaghi Azar; Bilal Piot; Marc Bellemare; Remi Munos

摘要

在这项工作中，我们提出了一种新的智能体架构，称为Reactor，该架构结合了多种算法和架构上的贡献，生成了一个比优先级决斗DQN（Wang等人，2016年）和分类DQN（Bellemare等人，2017年）具有更高样本效率的智能体，并且在运行时性能上优于A3C（Mnih等人，2016年）。我们的第一个贡献是一种新的策略评估算法，称为分布重溯（Distributional Retrace），该算法将多步离策略更新引入到分布强化学习环境中。同样的方法可以用于将几类设计用于期望值评估的多步策略评估算法转换为分布式的算法。接下来，我们介绍了\eta-留一法策略梯度算法（\b{eta}-leave-one-out policy gradient algorithm），该算法通过使用动作值作为基线来改善方差与偏差之间的权衡。我们的最后一个算法贡献是一种新的序列优先回放算法，该算法利用相邻观察的时间局部性实现更高效的回放优先级排序。通过Atari 2600基准测试，我们展示了这些创新对样本效率和最终智能体性能的提升作用。最后，我们证明了Reactor在训练2亿帧和不到一天的时间内达到了最先进的性能水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供