HyperAIHyperAI

Command Palette

Search for a command to run...

IMPALA:基于重要性加权行为者-学习者架构的可扩展分布式深度强化学习

Oriol Poursabzi-Sangdeh Lukasz Kaiser Tom Erez Owen Gathers Daan Wierstra

摘要

在本研究中,我们的目标是使用单一的强化学习代理及其单一参数集来解决大量任务。一个关键挑战是如何处理增加的数据量和延长的训练时间。我们开发了一种新的分布式代理IMPALA(重要性加权行为者-学习者架构),该代理不仅在单机训练中更高效地利用资源,而且可以扩展到数千台机器,同时不会牺牲数据效率或资源利用率。通过结合解耦的行为与学习以及一种称为V-trace的新颖离策略校正方法,我们实现了高吞吐量下的稳定学习。我们在DMLab-30(DeepMind Lab环境中的30个任务集合(Beattie等人,2016))和Atari-57(Arcade Learning Environment中的所有可用Atari游戏(Bellemare等人,2013a))上展示了IMPALA在多任务强化学习中的有效性。实验结果表明,IMPALA能够在使用较少数据的情况下实现比以往代理更好的性能,并且由于其多任务方法的关键作用,表现出任务之间的正向迁移。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供