7 个月前

Tabish Rashid 1 Mikayel Samvelyan 2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

摘要

在许多现实场景中，一组智能体必须在分散的方式下协调其行为。同时，在模拟或实验室环境中，通常可以以集中方式训练这些智能体，此时可以获得全局状态信息并且通信限制被解除。基于额外状态信息学习联合行动价值是一种利用集中学习的有效方法，但如何从中提取分散策略仍不清楚。我们的解决方案是QMIX，这是一种新颖的价值基础方法，能够以集中端到端的方式训练分散策略。QMIX采用了一个网络，该网络将联合行动价值估计为每个智能体仅基于局部观察值的复杂非线性组合。我们从结构上确保了联合行动价值对每个智能体的价值是单调的，这使得在离策略学习中可以有效地最大化联合行动价值，并保证集中策略与分散策略之间的一致性。我们在一系列具有挑战性的《星际争霸II》微观管理任务上评估了QMIX，并证明QMIX显著优于现有的基于价值的多智能体强化学习方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Tabish Rashid 1 Mikayel Samvelyan 2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

摘要

在许多现实场景中，一组智能体必须在分散的方式下协调其行为。同时，在模拟或实验室环境中，通常可以以集中方式训练这些智能体，此时可以获得全局状态信息并且通信限制被解除。基于额外状态信息学习联合行动价值是一种利用集中学习的有效方法，但如何从中提取分散策略仍不清楚。我们的解决方案是QMIX，这是一种新颖的价值基础方法，能够以集中端到端的方式训练分散策略。QMIX采用了一个网络，该网络将联合行动价值估计为每个智能体仅基于局部观察值的复杂非线性组合。我们从结构上确保了联合行动价值对每个智能体的价值是单调的，这使得在离策略学习中可以有效地最大化联合行动价值，并保证集中策略与分散策略之间的一致性。我们在一系列具有挑战性的《星际争霸II》微观管理任务上评估了QMIX，并证明QMIX显著优于现有的基于价值的多智能体强化学习方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供