
摘要
我们研究了在单一联合奖励信号下合作多智能体强化学习的问题。这类学习问题之所以困难,主要是因为通常具有较大的组合动作空间和观察空间。在完全集中式和分布式方法中,我们发现了虚假奖励问题以及我们称之为“懒惰智能体”现象,这些问题的出现是由于部分可观测性导致的。为了解决这些问题,我们提出了一种新的价值分解网络架构来训练单个智能体,该架构能够学习将团队价值函数分解为个体智能体的价值函数。我们在一系列部分可观测的多智能体领域进行了实验评估,结果表明,学习这种价值分解可以带来更优的结果,尤其是在结合权重共享、角色信息和信息通道时。
代码仓库
tjuhaoxiaotian/pymarl3
pytorch
GitHub 中提及
puyuan1996/MARL
pytorch
GitHub 中提及
TonghanWang/DOP
pytorch
GitHub 中提及
TonghanWang/NDQ
pytorch
GitHub 中提及
hhhusiyi-monash/UPDeT
pytorch
GitHub 中提及
jugg1er/air
pytorch
GitHub 中提及
jjbong/strangeness_exploration
pytorch
GitHub 中提及
Louiii/ValueDecomposition
GitHub 中提及
facebookresearch/benchmarl
pytorch
GitHub 中提及
cathyhxh/ctds
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| smac-on-smac-def-armored-parallel | VDN | Median Win Rate: 5.0 |
| smac-on-smac-def-armored-sequential | VDN | Median Win Rate: 96.9 |
| smac-on-smac-def-infantry-parallel | VDN | Median Win Rate: 95.0 |
| smac-on-smac-def-infantry-sequential | VDN | Median Win Rate: 96.9 |
| smac-on-smac-def-outnumbered-parallel | VDN | Median Win Rate: 0.0 |
| smac-on-smac-def-outnumbered-sequential | VDN | Median Win Rate: 15.6 |
| smac-on-smac-off-complicated-parallel | VDN | Median Win Rate: 70.0 |
| smac-on-smac-off-distant-parallel | VDN | Median Win Rate: 85.0 |
| smac-on-smac-off-hard-parallel | VDN | Median Win Rate: 15.0 |
| smac-on-smac-off-near-parallel | VDN | Median Win Rate: 90.0 |
| smac-on-smac-off-superhard-parallel | VDN | Median Win Rate: 0.0 |