6 个月前

Wei-Fang Sun Cheng-Kuang Lee Simon See Chun-Yi Lee

摘要

在完全协作的多智能体强化学习（MARL）环境中，由于每个智能体的观测具有部分可观测性，且其他智能体的策略持续动态变化，环境表现出高度的随机性。为应对上述挑战，我们提出了一种统一框架——DFAC（Distributional Factorization of Action Values），该框架将分布式强化学习（Distributional RL）与价值函数分解方法相结合。该框架将传统的期望值函数分解方法推广至回报分布层面，实现了对回报分布的分解。为验证DFAC的有效性，我们首先在具有随机奖励的简单矩阵博弈中展示了其对价值函数的分解能力；随后，在星际争霸多智能体挑战赛（StarCraft Multi-Agent Challenge）的所有“超难”（Super Hard）地图以及六张自定义设计的“极难”（Ultra Hard）地图上进行了实验，结果表明，DFAC在多数情况下显著优于多个基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Wei-Fang Sun Cheng-Kuang Lee Simon See Chun-Yi Lee

摘要

在完全协作的多智能体强化学习（MARL）环境中，由于每个智能体的观测具有部分可观测性，且其他智能体的策略持续动态变化，环境表现出高度的随机性。为应对上述挑战，我们提出了一种统一框架——DFAC（Distributional Factorization of Action Values），该框架将分布式强化学习（Distributional RL）与价值函数分解方法相结合。该框架将传统的期望值函数分解方法推广至回报分布层面，实现了对回报分布的分解。为验证DFAC的有效性，我们首先在具有随机奖励的简单矩阵博弈中展示了其对价值函数的分解能力；随后，在星际争霸多智能体挑战赛（StarCraft Multi-Agent Challenge）的所有“超难”（Super Hard）地图以及六张自定义设计的“极难”（Ultra Hard）地图上进行了实验，结果表明，DFAC在多数情况下显著优于多个基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供