4 个月前

多任务深度强化学习中的PopArt方法

多任务深度强化学习中的PopArt方法

摘要

强化学习社区在设计能够超越人类在特定任务上表现的算法方面取得了显著进展。这些算法大多是一次训练一个任务,每个新任务都需要训练一个新的代理实例。这意味着学习算法本身是通用的,但每个解决方案却不是;每个代理只能解决其被训练的任务。在这项研究中,我们探讨了同时掌握多个顺序决策任务的问题。多任务学习中的一个普遍问题是必须在多个竞争有限资源的任务之间找到平衡。许多学习算法可能会因某些任务而分心,这些任务在要解决的任务集中显得更为突出,例如由于任务内奖励的密度或幅度较高。这导致算法过度关注那些突出的任务,而牺牲了通用性。我们提出自动调整每个任务对代理更新的贡献度,以确保所有任务对学习动态的影响相似。这一方法在57款多样化的Atari游戏中实现了最先进的性能,令人兴奋的是,我们的方法学会了单一策略——使用单一权重集——超过了中位数的人类表现。据我们所知,这是首次有单个代理在这个多任务领域超越了人类水平的表现。同样的方法还在DeepMind Lab(3D强化学习平台)的一组30个任务中展示了最先进的性能。

代码仓库

aluscher/torchbeastpopart
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-navigation-on-dmlab-30PopArt-IMPALA
Medium Human-Normalized Score: 72.8%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多任务深度强化学习中的PopArt方法 | 论文 | HyperAI超神经