6 个月前

摘要

多智能体强化学习（Multi-agent Reinforcement Learning, MARL）面临非平稳性（non-stationarity）问题，即当多个智能体同时更新策略时，每个智能体的学习目标在每一轮迭代中持续变化。本文从基本原理出发，提出了一种双向动作依赖Q学习（Bidirectional Action-Dependent Q-learning, ACE），以有效解决该问题。ACE的核心在于引入顺序决策机制——在任一时刻仅允许一个智能体采取行动。在该机制下，推理阶段每个智能体基于先前智能体已采取的动作，最大化自身的价值函数；而在学习阶段，每个智能体则最小化依赖于后续智能体对其所选动作反应的时序差分（TD）误差。由于引入了双向依赖结构，ACE能够将多智能体马尔可夫决策过程（MDP）有效转化为单智能体MDP。为实现ACE框架，我们通过识别合适的网络表示形式，精确建模动作之间的依赖关系，使得整个顺序决策过程能够在一次前向传播中隐式完成计算。为验证ACE的有效性，我们在两个主流MARL基准测试上与多个强基线方法进行了对比。实验结果表明，ACE在Google Research Football和StarCraft Multi-Agent Challenge（SMAC）任务中均显著优于当前最先进算法。尤其在SMAC任务中，ACE在几乎所有困难及超困难地图上均实现了接近100%的成功率。此外，本文还深入探讨了ACE框架在扩展性、泛化能力及实际应用方面的诸多研究问题。相关代码已公开发布，以促进后续研究的开展。

源 PDF