Tabish RashidMikayel SamvelyanChristian Schroeder de WittGregory FarquharJakob FoersterShimon Whiteson

摘要
在许多现实场景中,一组智能体必须在去中心化的方式下协同行动,同时保持行为协调。与此同时,通常可以在中心化模式下训练这些智能体,即在训练过程中可获取全局状态信息,并且无需考虑通信约束。基于额外状态信息学习联合动作值(joint action-values)是一种有效利用中心化训练优势的策略,但如何从中提取出去中心化策略仍不明确。为此,我们提出了QMIX——一种新颖的基于价值函数的多智能体强化学习方法,能够以端到端的方式实现去中心化策略的中心化训练。QMIX采用一个混合网络(mixing network),将联合动作值表示为各智能体动作值的单调组合。通过在混合网络中引入非负权重,我们从结构上保证联合动作值随各智能体动作值的变化呈单调性,从而确保中心化训练与去中心化执行之间的一致性。为评估QMIX的性能,我们提出了“星际争霸多智能体挑战赛”(StarCraft Multi-Agent Challenge, SMAC),作为深度多智能体强化学习领域的新基准。我们在一系列具有挑战性的SMAC场景中对QMIX进行了评估,结果表明,该方法显著优于现有的多智能体强化学习算法。
代码仓库
oxwhirl/pymarl
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| smac-on-smac-27m-vs-30m | QMIX | Median Win Rate: 49 |
| smac-on-smac-3s5z-vs-3s6z-1 | QMIX | Median Win Rate: 2 |
| smac-on-smac-6h-vs-8z-1 | QMIX | Median Win Rate: 3 |
| smac-on-smac-corridor | QMIX | Median Win Rate: 1 |
| smac-on-smac-mmm2-1 | QMIX | Median Win Rate: 69 |