6 个月前

Simon Schmitt Matteo Hessel Karen Simonyan

摘要

我们研究了将演员-评论家强化学习算法与均匀的大规模经验回放相结合的方法，并针对两个关键挑战提出了相应的解决方案：（a）在使用经验回放时实现高效的演员-评论家学习；（b）在离策略学习场景下提升稳定性，即智能体从其他智能体的行为中进行学习。基于这些洞察，我们设计了一种加速超参数搜索的框架，其中所有参与的智能体可并行运行，并通过一个共享的经验回放模块实现经验共享。为此，我们深入分析了V-trace——一种用于演员-评论家方法的重要性采样技术——中的偏差-方差权衡问题。基于该分析，我们提出将来自回放池的经验与在线策略经验进行混合，并进一步提出一种新的信任区域更新机制，该机制在V-trace出现不稳定的数据分布下仍能实现有效扩展。我们对所提出的方案进行了全面的实证验证。此外，通过在训练至20000万环境帧的智能体上实现Atari游戏上的最先进数据效率，进一步证明了该方法的优越性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Simon Schmitt Matteo Hessel Karen Simonyan

摘要

我们研究了将演员-评论家强化学习算法与均匀的大规模经验回放相结合的方法，并针对两个关键挑战提出了相应的解决方案：（a）在使用经验回放时实现高效的演员-评论家学习；（b）在离策略学习场景下提升稳定性，即智能体从其他智能体的行为中进行学习。基于这些洞察，我们设计了一种加速超参数搜索的框架，其中所有参与的智能体可并行运行，并通过一个共享的经验回放模块实现经验共享。为此，我们深入分析了V-trace——一种用于演员-评论家方法的重要性采样技术——中的偏差-方差权衡问题。基于该分析，我们提出将来自回放池的经验与在线策略经验进行混合，并进一步提出一种新的信任区域更新机制，该机制在V-trace出现不稳定的数据分布下仍能实现有效扩展。我们对所提出的方案进行了全面的实证验证。此外，通过在训练至20000万环境帧的智能体上实现Atari游戏上的最先进数据效率，进一步证明了该方法的优越性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供