3 个月前

基于双中心化评论家的多智能体领域过估计偏差降低方法

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

摘要

许多现实世界任务需要多个智能体协同完成。近年来，多智能体强化学习（Multi-agent Reinforcement Learning, RL）方法被提出以应对这类任务，但现有方法在高效学习策略方面仍存在明显不足。为此，我们研究了单智能体强化学习中普遍存在的一种缺陷——价值函数高估偏差（value function overestimation bias）在多智能体环境中的表现。基于研究发现，我们提出一种新方法，通过采用双中心化评论家（double centralized critics）来有效降低该偏差。我们在六个混合合作-竞争任务上对该方法进行了评估，结果表明其显著优于现有主流方法。最后，我们进一步探讨了多智能体方法在高维机器人任务中的应用，并证明所提方法能够有效用于学习该领域中的去中心化策略。