
摘要
近年来,深度多智能体强化学习(RL)已成为一个高度活跃的研究领域。在这个领域中,一类特别具有挑战性的问题是部分可观测的协作式多智能体学习,即智能体团队必须在仅基于各自私有观测的情况下学会协调行为。这一研究方向极具吸引力,因为这类问题与许多现实世界系统相关,并且比一般和博弈问题更容易进行评估。标准化环境如ALE(Arcade Learning Environment)和MuJoCo已经使单智能体强化学习超越了诸如网格世界的玩具域。然而,对于协作式多智能体强化学习而言,尚缺乏类似的基准测试。因此,该领域的大多数论文都使用一次性玩具问题,这使得衡量实际进展变得困难。本文提出将《星际争霸II》多智能体挑战(StarCraft Multi-Agent Challenge, SMAC)作为填补这一空白的基准问题。SMAC基于广受欢迎的即时战略游戏《星际争霸II》,专注于微观管理挑战,每个单位由一个独立的智能体控制,并且必须根据局部观测采取行动。我们提供了一系列多样化的挑战地图,并提出了基准测试和评估的最佳实践建议。此外,我们还开源了一个包含最先进算法的深度多智能体强化学习框架。我们认为,SMAC可以为未来的多年研究提供一个标准的基准环境。我们最佳智能体在多个SMAC场景中的表现视频可在此链接查看:https://youtu.be/VZ7zmQ_obZ0。
代码仓库
uoe-agents/epymarl
pytorch
GitHub 中提及
mahi97/XQMIX
pytorch
GitHub 中提及
simsimiSION/pymarl-algorithm-extension-via-starcraft
pytorch
GitHub 中提及
oxwhirl/smac
官方
pytorch
GitHub 中提及
dtabas/epymarl
pytorch
GitHub 中提及
osilab-kaist/smac_exp
pytorch
GitHub 中提及
kinalmehta/epymarl
pytorch
GitHub 中提及
Denys88/rl_games
tf
GitHub 中提及
hahayonghuming/VDACs
pytorch
GitHub 中提及
gingkg/smac
pytorch
GitHub 中提及
jk96491/SMAC
pytorch
GitHub 中提及
jk96491/C-COMA
pytorch
GitHub 中提及
ling-pan/res
pytorch
GitHub 中提及
kcorder/qmix_variants
pytorch
GitHub 中提及
jugg1er/air
pytorch
GitHub 中提及
wendelinboehmer/dcg
pytorch
GitHub 中提及
ailabdsunipi/pymarlzooplus
pytorch
GitHub 中提及
oxwhirl/facmac
pytorch
GitHub 中提及
oxwhirl/smacv2
GitHub 中提及
osilab-kaist/smac_plus
pytorch
GitHub 中提及
oxwhirl/pymarl
官方
pytorch
GitHub 中提及
Lamperougeyxy/GHQ
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| smac-on-smac-27m-vs-30m | Heuristic | Median Win Rate: 0 |
| smac-on-smac-27m-vs-30m | QMIX | Median Win Rate: 49 |
| smac-on-smac-3s5z-vs-3s6z-1 | Heuristic | Median Win Rate: 0 |
| smac-on-smac-3s5z-vs-3s6z-1 | VDN | Median Win Rate: 2 |
| smac-on-smac-3s5z-vs-3s6z-1 | IQL | Median Win Rate: 0 |
| smac-on-smac-6h-vs-8z-1 | IQL | Median Win Rate: 0 |
| smac-on-smac-6h-vs-8z-1 | Heuristic | Median Win Rate: 0 |
| smac-on-smac-6h-vs-8z-1 | VDN | Median Win Rate: 0 |
| smac-on-smac-6h-vs-8z-1 | QMIX | Median Win Rate: 3 |
| smac-on-smac-corridor | IQL | Median Win Rate: 0 |
| smac-on-smac-corridor | Heuristic | Median Win Rate: 0 |
| smac-on-smac-corridor | QMIX | Median Win Rate: 1 |
| smac-on-smac-mmm2-1 | QMIX | Median Win Rate: 69 |
| smac-on-smac-mmm2-1 | IQL | Median Win Rate: 0 |
| smac-on-smac-mmm2-1 | VDN | Median Win Rate: 1 |
| smac-on-smac-mmm2-1 | Heuristic | Median Win Rate: 0 |