3 个月前

《星际争霸多智能体挑战+》:在缺乏精确奖励函数的情况下学习多阶段任务与环境因素

《星际争霸多智能体挑战+》:在缺乏精确奖励函数的情况下学习多阶段任务与环境因素

摘要

本文提出了一种新型基准测试——《星际争霸多智能体挑战+》(StarCraft Multi-Agent Challenges+,简称SMAC+),该基准要求智能体在缺乏精确奖励函数的情况下,学习执行多阶段任务并有效利用环境因素。此前被广泛认可为多智能体强化学习(MARL)标准基准的SMAC,主要关注所有智能体通过精细调控和显式奖励函数,协同消灭逼近的敌方单位。而本挑战则更侧重于评估MARL算法在探索能力上的表现,即高效学习隐式多阶段任务、环境因素以及微观控制策略的能力。本研究涵盖了进攻与防御两类场景:在进攻场景中,智能体需首先探测敌方目标,随后实施消灭;在防御场景中,智能体则需利用地形特征,例如通过占据掩体后方位置,以增加敌方攻击的难度。我们在SMAC+基准上对多种MARL算法进行了评估,发现近期主流方法在与以往挑战相似的设置下表现良好,但在进攻场景中出现行为异常。此外,我们观察到增强探索机制对性能提升具有积极影响,但尚不足以解决所有场景中的问题。本研究为未来MARL算法的研究指明了新的方向。

代码仓库

osilab-kaist/smac_exp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
smac-on-smac-def-armored-parallelIQL
Median Win Rate: 0.0
smac-on-smac-def-armored-sequentialIQL
Median Win Rate: 9.4
smac-on-smac-def-infantry-parallelIQL
Median Win Rate: 40.0
smac-on-smac-def-infantry-sequentialIQL
Median Win Rate: 93.8
smac-on-smac-def-outnumbered-parallelIQL
Median Win Rate: 0.0
smac-on-smac-def-outnumbered-sequentialIQL
Median Win Rate: 0.0
smac-on-smac-off-hard-parallelIQL
Median Win Rate: 0.0
smac-on-smac-off-superhard-parallelIQL
Median Win Rate: 0.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
《星际争霸多智能体挑战+》:在缺乏精确奖励函数的情况下学习多阶段任务与环境因素 | 论文 | HyperAI超神经