3 个月前

ACE:基于双向动作依赖的协作式多智能体Q学习

ACE:基于双向动作依赖的协作式多智能体Q学习

摘要

多智能体强化学习(Multi-agent Reinforcement Learning, MARL)面临非平稳性(non-stationarity)问题,即当多个智能体同时更新策略时,每个智能体的学习目标在每一轮迭代中持续变化。本文从基本原理出发,提出了一种双向动作依赖Q学习(Bidirectional Action-Dependent Q-learning, ACE),以有效解决该问题。ACE的核心在于引入顺序决策机制——在任一时刻仅允许一个智能体采取行动。在该机制下,推理阶段每个智能体基于先前智能体已采取的动作,最大化自身的价值函数;而在学习阶段,每个智能体则最小化依赖于后续智能体对其所选动作反应的时序差分(TD)误差。由于引入了双向依赖结构,ACE能够将多智能体马尔可夫决策过程(MDP)有效转化为单智能体MDP。为实现ACE框架,我们通过识别合适的网络表示形式,精确建模动作之间的依赖关系,使得整个顺序决策过程能够在一次前向传播中隐式完成计算。为验证ACE的有效性,我们在两个主流MARL基准测试上与多个强基线方法进行了对比。实验结果表明,ACE在Google Research Football和StarCraft Multi-Agent Challenge(SMAC)任务中均显著优于当前最先进算法。尤其在SMAC任务中,ACE在几乎所有困难及超困难地图上均实现了接近100%的成功率。此外,本文还深入探讨了ACE框架在扩展性、泛化能力及实际应用方面的诸多研究问题。相关代码已公开发布,以促进后续研究的开展。

代码仓库

opendilab/ace
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
smac-on-smac-3s5z-vs-3s6z-1ACE
Median Win Rate: 100
smac-on-smac-6h-vs-8z-1ACE
Median Win Rate: 93.75
smac-on-smac-corridorACE
Median Win Rate: 100
smac-on-smac-mmm2-1ACE
Median Win Rate: 100

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ACE:基于双向动作依赖的协作式多智能体Q学习 | 论文 | HyperAI超神经