Command Palette
Search for a command to run...
深度多智能体强化学习中的单调价值函数分解
深度多智能体强化学习中的单调价值函数分解
Tabish Rashid Mikayel Samvelyan Christian Schroeder de Witt Gregory Farquhar Jakob Foerster Shimon Whiteson
摘要
在许多现实场景中,一组智能体必须在去中心化的方式下协同行动,同时保持行为协调。与此同时,通常可以在中心化模式下训练这些智能体,即在训练过程中可获取全局状态信息,并且无需考虑通信约束。基于额外状态信息学习联合动作值(joint action-values)是一种有效利用中心化训练优势的策略,但如何从中提取出去中心化策略仍不明确。为此,我们提出了QMIX——一种新颖的基于价值函数的多智能体强化学习方法,能够以端到端的方式实现去中心化策略的中心化训练。QMIX采用一个混合网络(mixing network),将联合动作值表示为各智能体动作值的单调组合。通过在混合网络中引入非负权重,我们从结构上保证联合动作值随各智能体动作值的变化呈单调性,从而确保中心化训练与去中心化执行之间的一致性。为评估QMIX的性能,我们提出了“星际争霸多智能体挑战赛”(StarCraft Multi-Agent Challenge, SMAC),作为深度多智能体强化学习领域的新基准。我们在一系列具有挑战性的SMAC场景中对QMIX进行了评估,结果表明,该方法显著优于现有的多智能体强化学习算法。