3 个月前

深度多智能体强化学习中的单调价值函数分解

深度多智能体强化学习中的单调价值函数分解

摘要

在许多现实场景中,一组智能体必须在去中心化的方式下协同行动,同时保持行为协调。与此同时,通常可以在中心化模式下训练这些智能体,即在训练过程中可获取全局状态信息,并且无需考虑通信约束。基于额外状态信息学习联合动作值(joint action-values)是一种有效利用中心化训练优势的策略,但如何从中提取出去中心化策略仍不明确。为此,我们提出了QMIX——一种新颖的基于价值函数的多智能体强化学习方法,能够以端到端的方式实现去中心化策略的中心化训练。QMIX采用一个混合网络(mixing network),将联合动作值表示为各智能体动作值的单调组合。通过在混合网络中引入非负权重,我们从结构上保证联合动作值随各智能体动作值的变化呈单调性,从而确保中心化训练与去中心化执行之间的一致性。为评估QMIX的性能,我们提出了“星际争霸多智能体挑战赛”(StarCraft Multi-Agent Challenge, SMAC),作为深度多智能体强化学习领域的新基准。我们在一系列具有挑战性的SMAC场景中对QMIX进行了评估,结果表明,该方法显著优于现有的多智能体强化学习算法。

代码仓库

oxwhirl/pymarl
官方
pytorch

基准测试

基准方法指标
smac-on-smac-27m-vs-30mQMIX
Median Win Rate: 49
smac-on-smac-3s5z-vs-3s6z-1QMIX
Median Win Rate: 2
smac-on-smac-6h-vs-8z-1QMIX
Median Win Rate: 3
smac-on-smac-corridorQMIX
Median Win Rate: 1
smac-on-smac-mmm2-1QMIX
Median Win Rate: 69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
深度多智能体强化学习中的单调价值函数分解 | 论文 | HyperAI超神经