6 个月前

Wei-Fang Sun Cheng-Kuang Lee Chun-Yi Lee

摘要

在完全协作的多智能体强化学习（MARL）环境中，由于每个智能体的观测具有部分可观测性，且其他智能体的策略持续动态变化，环境呈现出高度的随机性。为应对上述挑战，本文提出一种分布式价值函数分解框架——分布式价值函数分解（Distributional Value Function Factorization, DFAC），将分布式强化学习与价值函数分解方法相结合，实现了对传统期望值函数分解方法的推广，构建其分布式变体。DFAC 将个体效用函数从确定性变量扩展为随机变量，并将总回报的分位数函数建模为分位数混合形式。为验证 DFAC 的有效性，本文首先展示了其在具有随机奖励的简单两步矩阵博弈中的分解能力，随后在 StarCraft 多智能体挑战赛（StarCraft Multi-Agent Challenge）的所有“超难”（Super Hard）任务上进行了实验。实验结果表明，DFAC 在性能上显著优于基于期望值函数分解的基线方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Wei-Fang Sun Cheng-Kuang Lee Chun-Yi Lee

摘要

在完全协作的多智能体强化学习（MARL）环境中，由于每个智能体的观测具有部分可观测性，且其他智能体的策略持续动态变化，环境呈现出高度的随机性。为应对上述挑战，本文提出一种分布式价值函数分解框架——分布式价值函数分解（Distributional Value Function Factorization, DFAC），将分布式强化学习与价值函数分解方法相结合，实现了对传统期望值函数分解方法的推广，构建其分布式变体。DFAC 将个体效用函数从确定性变量扩展为随机变量，并将总回报的分位数函数建模为分位数混合形式。为验证 DFAC 的有效性，本文首先展示了其在具有随机奖励的简单两步矩阵博弈中的分解能力，随后在 StarCraft 多智能体挑战赛（StarCraft Multi-Agent Challenge）的所有“超难”（Super Hard）任务上进行了实验。实验结果表明，DFAC 在性能上显著优于基于期望值函数分解的基线方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

DFAC框架：通过分位数混合对价值函数进行因子分解，实现多智能体分布强化学习Q学习 | 论文 | HyperAI超神经