
摘要
在本研究中,我们的目标是使用单一的强化学习代理及其单一参数集来解决大量任务。一个关键挑战是如何处理增加的数据量和延长的训练时间。我们开发了一种新的分布式代理IMPALA(重要性加权行为者-学习者架构),该代理不仅在单机训练中更高效地利用资源,而且可以扩展到数千台机器,同时不会牺牲数据效率或资源利用率。通过结合解耦的行为与学习以及一种称为V-trace的新颖离策略校正方法,我们实现了高吞吐量下的稳定学习。我们在DMLab-30(DeepMind Lab环境中的30个任务集合(Beattie等人,2016))和Atari-57(Arcade Learning Environment中的所有可用Atari游戏(Bellemare等人,2013a))上展示了IMPALA在多任务强化学习中的有效性。实验结果表明,IMPALA能够在使用较少数据的情况下实现比以往代理更好的性能,并且由于其多任务方法的关键作用,表现出任务之间的正向迁移。
代码仓库
google-deepmind/streetlearn
tf
GitHub 中提及
crazydonkey200/neural-symbolic-machines
tf
GitHub 中提及
deepmind/streetlearn
tf
GitHub 中提及
jerrodparker20/adaptive-transformers-in-rl
pytorch
GitHub 中提及
facebookresearch/torchbeast
pytorch
GitHub 中提及
deepmind/scalable_agent
官方
tf
GitHub 中提及
villinvic/Georges
GitHub 中提及
windstrip/DeepMind-StreetLearn
tf
GitHub 中提及
Sheepsody/Batched-Impala-PyTorch
pytorch
GitHub 中提及
heiner/scalable_agent
tf
GitHub 中提及
google-research/valan
tf
GitHub 中提及
facebookresearch/gala
pytorch
GitHub 中提及
theSparta/neural-symbolic-machines
tf
GitHub 中提及
michaelnny/deep_rl_zoo
pytorch
GitHub 中提及
google-deepmind/scalable_agent
tf
GitHub 中提及
haje01/impala
pytorch
GitHub 中提及
threewisemonkeys-as/torched_impala
pytorch
GitHub 中提及
urw7rs/spiralpp
pytorch
GitHub 中提及