7 个月前

Kyunghwan Son Daewoo Kim Wan Ju Kang David Hostallero Yung Yi

摘要

我们探讨了在最近流行的集中训练分散执行（CTDE）框架下，多智能体强化学习（MARL）任务的价值基础解决方案。然而，VDN和QMIX是典型的例子，它们通过将联合动作价值函数分解为个体动作价值函数来实现分散执行。由于其分解结构中的加性和单调性等约束，VDN和QMIX仅能解决部分可分解的MARL任务。在本文中，我们提出了一种新的MARL分解方法——QTRAN，该方法摆脱了这些结构约束，并采用了一种新的策略，将原始的联合动作价值函数转换为易于分解的形式，同时保持最优动作不变。QTRAN保证了比VDN或QMIX更为广泛的分解能力，因此能够涵盖比以往方法更广泛的一类MARL任务。我们在多域高斯挤压和改进的捕食者-猎物任务中的实验表明，QTRAN在那些对非合作行为惩罚更为严厉的游戏中的表现尤为出色，优势尤为明显。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Kyunghwan Son Daewoo Kim Wan Ju Kang David Hostallero Yung Yi

摘要

我们探讨了在最近流行的集中训练分散执行（CTDE）框架下，多智能体强化学习（MARL）任务的价值基础解决方案。然而，VDN和QMIX是典型的例子，它们通过将联合动作价值函数分解为个体动作价值函数来实现分散执行。由于其分解结构中的加性和单调性等约束，VDN和QMIX仅能解决部分可分解的MARL任务。在本文中，我们提出了一种新的MARL分解方法——QTRAN，该方法摆脱了这些结构约束，并采用了一种新的策略，将原始的联合动作价值函数转换为易于分解的形式，同时保持最优动作不变。QTRAN保证了比VDN或QMIX更为广泛的分解能力，因此能够涵盖比以往方法更广泛的一类MARL任务。我们在多域高斯挤压和改进的捕食者-猎物任务中的实验表明，QTRAN在那些对非合作行为惩罚更为严厉的游戏中的表现尤为出色，优势尤为明显。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供