3 个月前

分布式多智能体强化学习中的风险源解耦

分布式多智能体强化学习中的风险源解耦

摘要

在协作式多智能体强化学习中,状态转移、奖励信号以及智能体动作均可能引发观测到的长期回报中的随机性(或不确定性)。这种不确定性主要来源于两个风险源:(a) 智能体层面的风险(即对某一智能体而言,其协作伙伴的行为是否可靠);(b) 环境层面的风险(即状态转移的随机性)。尽管这两个风险源均是学习鲁棒智能体策略的关键因素,但现有方法通常未对二者进行区分,或仅考虑单一风险源,这可能导致学习到次优的均衡策略。本文提出一种新型框架——解耦风险敏感的多智能体强化学习(Disentangled RIsk-sensitive Multi-Agent reinforcement learning, DRIMA),能够有效解耦上述两类风险源。其核心思想是在集中式训练与分布式执行过程中,通过分层分位数结构(hierarchical quantile structure)与分位数回归(quantile regression),将风险水平的调控机制(即分位数)进行分离。实验结果表明,在《星际争霸多智能体挑战赛》(StarCraft Multi-agent Challenge)的多种场景下,DRIMA显著优于现有方法。尤为突出的是,DRIMA在不同奖励塑造方式与探索调度策略下均表现出稳健的性能,而此前的方法往往仅能学习到次优策略。

基准测试

基准方法指标
smac-on-smac-def-armored-parallelDRIMA
Median Win Rate: 60.0
smac-on-smac-def-armored-sequentialDRIMA
Median Win Rate: 100
smac-on-smac-def-infantry-parallelDRIMA
Median Win Rate: 100.0
smac-on-smac-def-infantry-sequentialDRIMA
Median Win Rate: 100
smac-on-smac-def-outnumbered-parallelDRIMA
Median Win Rate: 70.0
smac-on-smac-def-outnumbered-sequentialDRIMA
Median Win Rate: 100
smac-on-smac-off-complicated-parallelDRIMA
Median Win Rate: 100
smac-on-smac-off-complicated-sequentialDRIMA
Median Win Rate: 96.9
smac-on-smac-off-distant-parallelDRIMA
Median Win Rate: 95.0
smac-on-smac-off-distant-sequentialDRIMA
Median Win Rate: 100
smac-on-smac-off-hard-parallelDRIMA
Median Win Rate: 80.0
smac-on-smac-off-hard-sequentialDRIMA
Median Win Rate: 93.8
smac-on-smac-off-near-parallelDRIMA
Median Win Rate: 95.0
smac-on-smac-off-near-sequentialDRIMA
Median Win Rate: 93.8
smac-on-smac-off-superhard-parallelDRIMA
Median Win Rate: 0.0
smac-on-smac-off-superhard-sequentialDRIMA
Median Win Rate: 15.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分布式多智能体强化学习中的风险源解耦 | 论文 | HyperAI超神经