3 个月前

基于共享经验回放的离策略Actor-Critic方法

基于共享经验回放的离策略Actor-Critic方法

摘要

我们研究了将演员-评论家强化学习算法与均匀的大规模经验回放相结合的方法,并针对两个关键挑战提出了相应的解决方案:(a)在使用经验回放时实现高效的演员-评论家学习;(b)在离策略学习场景下提升稳定性,即智能体从其他智能体的行为中进行学习。基于这些洞察,我们设计了一种加速超参数搜索的框架,其中所有参与的智能体可并行运行,并通过一个共享的经验回放模块实现经验共享。为此,我们深入分析了V-trace——一种用于演员-评论家方法的重要性采样技术——中的偏差-方差权衡问题。基于该分析,我们提出将来自回放池的经验与在线策略经验进行混合,并进一步提出一种新的信任区域更新机制,该机制在V-trace出现不稳定的数据分布下仍能实现有效扩展。我们对所提出的方案进行了全面的实证验证。此外,通过在训练至20000万环境帧的智能体上实现Atari游戏上的最先进数据效率,进一步证明了该方法的优越性。

基准测试

基准方法指标
atari-games-on-atari-57LASER
Human World Record Breakthrough: 7
Mean Human Normalized Score: 1741.36%
atari-games-on-atari-gamesLASER
Mean Human Normalized Score: 1741.36%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于共享经验回放的离策略Actor-Critic方法 | 论文 | HyperAI超神经