
摘要
我们探讨了在最近流行的集中训练分散执行(CTDE)框架下,多智能体强化学习(MARL)任务的价值基础解决方案。然而,VDN和QMIX是典型的例子,它们通过将联合动作价值函数分解为个体动作价值函数来实现分散执行。由于其分解结构中的加性和单调性等约束,VDN和QMIX仅能解决部分可分解的MARL任务。在本文中,我们提出了一种新的MARL分解方法——QTRAN,该方法摆脱了这些结构约束,并采用了一种新的策略,将原始的联合动作价值函数转换为易于分解的形式,同时保持最优动作不变。QTRAN保证了比VDN或QMIX更为广泛的分解能力,因此能够涵盖比以往方法更广泛的一类MARL任务。我们在多域高斯挤压和改进的捕食者-猎物任务中的实验表明,QTRAN在那些对非合作行为惩罚更为严厉的游戏中的表现尤为出色,优势尤为明显。
代码仓库
hhhusiyi-monash/UPDeT
pytorch
GitHub 中提及
jugg1er/air
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| smac-on-smac-def-armored-parallel | QTRAN | Median Win Rate: 5.0 |
| smac-on-smac-def-armored-sequential | QTRAN | Median Win Rate: 93.8 |
| smac-on-smac-def-infantry-parallel | QTRAN | Median Win Rate: 100.0 |
| smac-on-smac-def-infantry-sequential | QTRAN | Median Win Rate: 100 |
| smac-on-smac-def-outnumbered-parallel | QTRAN | Median Win Rate: 0.0 |
| smac-on-smac-def-outnumbered-sequential | QTRAN | Median Win Rate: 81.3 |
| smac-on-smac-off-complicated-parallel | QTRAN | Median Win Rate: 0.0 |
| smac-on-smac-off-distant-parallel | QTRAN | Median Win Rate: 0.0 |
| smac-on-smac-off-hard-parallel | QTRAN | Median Win Rate: 0.0 |
| smac-on-smac-off-near-parallel | QTRAN | Median Win Rate: 0.0 |
| smac-on-smac-off-superhard-parallel | QTRAN | Median Win Rate: 0.0 |