4 个月前

QMIX:深度多智能体强化学习中的单调价值函数分解

QMIX:深度多智能体强化学习中的单调价值函数分解

摘要

在许多现实场景中,一组智能体必须在分散的方式下协调其行为。同时,在模拟或实验室环境中,通常可以以集中方式训练这些智能体,此时可以获得全局状态信息并且通信限制被解除。基于额外状态信息学习联合行动价值是一种利用集中学习的有效方法,但如何从中提取分散策略仍不清楚。我们的解决方案是QMIX,这是一种新颖的价值基础方法,能够以集中端到端的方式训练分散策略。QMIX采用了一个网络,该网络将联合行动价值估计为每个智能体仅基于局部观察值的复杂非线性组合。我们从结构上确保了联合行动价值对每个智能体的价值是单调的,这使得在离策略学习中可以有效地最大化联合行动价值,并保证集中策略与分散策略之间的一致性。我们在一系列具有挑战性的《星际争霸II》微观管理任务上评估了QMIX,并证明QMIX显著优于现有的基于价值的多智能体强化学习方法。

代码仓库

nju-rl/acorm
pytorch
GitHub 中提及
puyuan1996/MARL
pytorch
GitHub 中提及
starry-sky6688/marl-algorithms
pytorch
GitHub 中提及
oxwhirl/smac
pytorch
GitHub 中提及
TonghanWang/DOP
pytorch
GitHub 中提及
TonghanWang/NDQ
pytorch
GitHub 中提及
gingkg/smac
pytorch
GitHub 中提及
hhhusiyi-monash/UPDeT
pytorch
GitHub 中提及
ifpen/wfcrl-benchmark
pytorch
GitHub 中提及
jugg1er/air
pytorch
GitHub 中提及
oxwhirl/pymarl
官方
pytorch
GitHub 中提及
cathyhxh/ctds
pytorch
GitHub 中提及
facebookresearch/benchmarl
pytorch
GitHub 中提及

基准测试

基准方法指标
smac-on-smac-def-armored-parallelQMIX
Median Win Rate: 75.0
smac-on-smac-def-armored-sequentialQMIX
Median Win Rate: 0.0
smac-on-smac-def-infantry-parallelQMIX
Median Win Rate: 95.0
smac-on-smac-def-infantry-sequentialQMIX
Median Win Rate: 96.9
smac-on-smac-def-outnumbered-parallelQMIX
Median Win Rate: 30.0
smac-on-smac-def-outnumbered-sequentialQMIX
Median Win Rate: 0.0
smac-on-smac-off-complicated-parallelQMIX
Median Win Rate: 0.0
smac-on-smac-off-complicated-sequentialQMIX
Median Win Rate: 87.5
smac-on-smac-off-distant-parallelQMIX
Median Win Rate: 0.0
smac-on-smac-off-distant-sequentialQMIX
Median Win Rate: 93.8
smac-on-smac-off-hard-parallelQMIX
Median Win Rate: 0.0
smac-on-smac-off-hard-sequentialQMIX
Median Win Rate: 96.9
smac-on-smac-off-near-parallelQMIX
Median Win Rate: 95.0
smac-on-smac-off-near-sequentialQMIX
Median Win Rate: 90.6
smac-on-smac-off-superhard-parallelQMIX
Median Win Rate: 0.0
smac-on-smac-off-superhard-sequentialQMIX
Median Win Rate: 0.0
starcraft-ii-on-smacQMIX
Median Win Rate: %

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
QMIX:深度多智能体强化学习中的单调价值函数分解 | 论文 | HyperAI超神经