4 个月前

《星际争霸多智能体挑战》

《星际争霸多智能体挑战》

摘要

近年来,深度多智能体强化学习(RL)已成为一个高度活跃的研究领域。在这个领域中,一类特别具有挑战性的问题是部分可观测的协作式多智能体学习,即智能体团队必须在仅基于各自私有观测的情况下学会协调行为。这一研究方向极具吸引力,因为这类问题与许多现实世界系统相关,并且比一般和博弈问题更容易进行评估。标准化环境如ALE(Arcade Learning Environment)和MuJoCo已经使单智能体强化学习超越了诸如网格世界的玩具域。然而,对于协作式多智能体强化学习而言,尚缺乏类似的基准测试。因此,该领域的大多数论文都使用一次性玩具问题,这使得衡量实际进展变得困难。本文提出将《星际争霸II》多智能体挑战(StarCraft Multi-Agent Challenge, SMAC)作为填补这一空白的基准问题。SMAC基于广受欢迎的即时战略游戏《星际争霸II》,专注于微观管理挑战,每个单位由一个独立的智能体控制,并且必须根据局部观测采取行动。我们提供了一系列多样化的挑战地图,并提出了基准测试和评估的最佳实践建议。此外,我们还开源了一个包含最先进算法的深度多智能体强化学习框架。我们认为,SMAC可以为未来的多年研究提供一个标准的基准环境。我们最佳智能体在多个SMAC场景中的表现视频可在此链接查看:https://youtu.be/VZ7zmQ_obZ0。

代码仓库

uoe-agents/epymarl
pytorch
GitHub 中提及
mahi97/XQMIX
pytorch
GitHub 中提及
oxwhirl/smac
官方
pytorch
GitHub 中提及
dtabas/epymarl
pytorch
GitHub 中提及
osilab-kaist/smac_exp
pytorch
GitHub 中提及
kinalmehta/epymarl
pytorch
GitHub 中提及
Denys88/rl_games
tf
GitHub 中提及
hahayonghuming/VDACs
pytorch
GitHub 中提及
gingkg/smac
pytorch
GitHub 中提及
jk96491/SMAC
pytorch
GitHub 中提及
jk96491/C-COMA
pytorch
GitHub 中提及
ling-pan/res
pytorch
GitHub 中提及
kcorder/qmix_variants
pytorch
GitHub 中提及
jugg1er/air
pytorch
GitHub 中提及
wendelinboehmer/dcg
pytorch
GitHub 中提及
ailabdsunipi/pymarlzooplus
pytorch
GitHub 中提及
oxwhirl/facmac
pytorch
GitHub 中提及
oxwhirl/smacv2
GitHub 中提及
osilab-kaist/smac_plus
pytorch
GitHub 中提及
oxwhirl/pymarl
官方
pytorch
GitHub 中提及
Lamperougeyxy/GHQ
pytorch
GitHub 中提及

基准测试

基准方法指标
smac-on-smac-27m-vs-30mHeuristic
Median Win Rate: 0
smac-on-smac-27m-vs-30mQMIX
Median Win Rate: 49
smac-on-smac-3s5z-vs-3s6z-1Heuristic
Median Win Rate: 0
smac-on-smac-3s5z-vs-3s6z-1VDN
Median Win Rate: 2
smac-on-smac-3s5z-vs-3s6z-1IQL
Median Win Rate: 0
smac-on-smac-6h-vs-8z-1IQL
Median Win Rate: 0
smac-on-smac-6h-vs-8z-1Heuristic
Median Win Rate: 0
smac-on-smac-6h-vs-8z-1VDN
Median Win Rate: 0
smac-on-smac-6h-vs-8z-1QMIX
Median Win Rate: 3
smac-on-smac-corridorIQL
Median Win Rate: 0
smac-on-smac-corridorHeuristic
Median Win Rate: 0
smac-on-smac-corridorQMIX
Median Win Rate: 1
smac-on-smac-mmm2-1QMIX
Median Win Rate: 69
smac-on-smac-mmm2-1IQL
Median Win Rate: 0
smac-on-smac-mmm2-1VDN
Median Win Rate: 1
smac-on-smac-mmm2-1Heuristic
Median Win Rate: 0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
《星际争霸多智能体挑战》 | 论文 | HyperAI超神经