7 个月前

摘要

在协作式多智能体强化学习中，状态转移、奖励信号以及智能体动作均可能引发观测到的长期回报中的随机性（或不确定性）。这种不确定性主要来源于两个风险源：(a) 智能体层面的风险（即对某一智能体而言，其协作伙伴的行为是否可靠）；(b) 环境层面的风险（即状态转移的随机性）。尽管这两个风险源均是学习鲁棒智能体策略的关键因素，但现有方法通常未对二者进行区分，或仅考虑单一风险源，这可能导致学习到次优的均衡策略。本文提出一种新型框架——解耦风险敏感的多智能体强化学习（Disentangled RIsk-sensitive Multi-Agent reinforcement learning, DRIMA），能够有效解耦上述两类风险源。其核心思想是在集中式训练与分布式执行过程中，通过分层分位数结构（hierarchical quantile structure）与分位数回归（quantile regression），将风险水平的调控机制（即分位数）进行分离。实验结果表明，在《星际争霸多智能体挑战赛》（StarCraft Multi-agent Challenge）的多种场景下，DRIMA显著优于现有方法。尤为突出的是，DRIMA在不同奖励塑造方式与探索调度策略下均表现出稳健的性能，而此前的方法往往仅能学习到次优策略。

源 PDF