4 个月前

反事实多智能体策略梯度

反事实多智能体策略梯度

摘要

合作多智能体系统可以自然地用于建模许多现实世界的问题,例如网络数据包路由和自主车辆的协调。对于此类系统,迫切需要新的强化学习方法来高效地学习去中心化的策略。为此,我们提出了一种新的多智能体行为-评论方法,称为反事实多智能体(COMA)策略梯度。COMA 使用一个集中式的评论器来估计 Q 函数,并使用去中心化的行动者来优化各智能体的策略。此外,为了解决多智能体信用分配的挑战,它采用了一个反事实基线,该基线在固定其他智能体动作的同时,排除单个智能体的动作的影响。COMA 还使用了一种评论器表示形式,使得反事实基线能够在一次前向传递中高效计算。我们在《星际争霸》单位微观管理测试环境中评估了 COMA 的性能,该环境采用了具有显著部分可观测性的去中心化变体。在这一设置下,COMA 显著提高了与其他多智能体行为-评论方法相比的平均性能,并且表现最佳的智能体与能够访问完整状态的最先进集中式控制器具有竞争力。

代码仓库

hanhanAnderson/LSF-SAC
pytorch
GitHub 中提及
puyuan1996/MARL
pytorch
GitHub 中提及
TonghanWang/NDQ
pytorch
GitHub 中提及
gingkg/smac
pytorch
GitHub 中提及
nice-hku/cl2marl-smac
pytorch
GitHub 中提及

基准测试

基准方法指标
smac-on-smac-def-armored-parallelCOMA
Median Win Rate: 0.0
smac-on-smac-def-armored-sequentialCOMA
Median Win Rate: 0.0
smac-on-smac-def-infantry-parallelCOMA
Median Win Rate: 50.0
smac-on-smac-def-infantry-sequentialCOMA
Median Win Rate: 28.1
smac-on-smac-def-outnumbered-parallelCOMA
Median Win Rate: 0.0
smac-on-smac-def-outnumbered-sequentialCOMA
Median Win Rate: 0.0
smac-on-smac-off-complicated-parallelCOMA
Median Win Rate: 0.0
smac-on-smac-off-complicated-sequentialCOMA
Median Win Rate: 0.0
smac-on-smac-off-distant-parallelCOMA
Median Win Rate: 0.0
smac-on-smac-off-distant-sequentialCOMA
Median Win Rate: 0.0
smac-on-smac-off-hard-parallelCOMA
Median Win Rate: 0.0
smac-on-smac-off-hard-sequentialCOMA
Median Win Rate: 0.0
smac-on-smac-off-near-parallelCOMA
Median Win Rate: 20.0
smac-on-smac-off-near-sequentialCOMA
Median Win Rate: 0.0
smac-on-smac-off-superhard-parallelCOMA
Median Win Rate: 0.0
smac-on-smac-off-superhard-sequentialCOMA
Median Win Rate: 0.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
反事实多智能体策略梯度 | 论文 | HyperAI超神经