8 个月前

Mikayel Samvelyan∗1 Tabish Rashid∗2 Christian Schroeder de Witt2 Gregory Farquhar2 Nantas Nardelli2 Tim G. J. Rudner2 Chia-Man Hung2 Philip H. S. Torr2 Jakob Foerster3 Shimon Whiteson2

摘要

近年来，深度多智能体强化学习（RL）已成为一个高度活跃的研究领域。在这个领域中，一类特别具有挑战性的问题是部分可观测的协作式多智能体学习，即智能体团队必须在仅基于各自私有观测的情况下学会协调行为。这一研究方向极具吸引力，因为这类问题与许多现实世界系统相关，并且比一般和博弈问题更容易进行评估。标准化环境如ALE（Arcade Learning Environment）和MuJoCo已经使单智能体强化学习超越了诸如网格世界的玩具域。然而，对于协作式多智能体强化学习而言，尚缺乏类似的基准测试。因此，该领域的大多数论文都使用一次性玩具问题，这使得衡量实际进展变得困难。本文提出将《星际争霸II》多智能体挑战（StarCraft Multi-Agent Challenge, SMAC）作为填补这一空白的基准问题。SMAC基于广受欢迎的即时战略游戏《星际争霸II》，专注于微观管理挑战，每个单位由一个独立的智能体控制，并且必须根据局部观测采取行动。我们提供了一系列多样化的挑战地图，并提出了基准测试和评估的最佳实践建议。此外，我们还开源了一个包含最先进算法的深度多智能体强化学习框架。我们认为，SMAC可以为未来的多年研究提供一个标准的基准环境。我们最佳智能体在多个SMAC场景中的表现视频可在此链接查看：https://youtu.be/VZ7zmQ_obZ0。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Mikayel Samvelyan∗1 Tabish Rashid∗2 Christian Schroeder de Witt2 Gregory Farquhar2 Nantas Nardelli2 Tim G. J. Rudner2 Chia-Man Hung2 Philip H. S. Torr2 Jakob Foerster3 Shimon Whiteson2

摘要

近年来，深度多智能体强化学习（RL）已成为一个高度活跃的研究领域。在这个领域中，一类特别具有挑战性的问题是部分可观测的协作式多智能体学习，即智能体团队必须在仅基于各自私有观测的情况下学会协调行为。这一研究方向极具吸引力，因为这类问题与许多现实世界系统相关，并且比一般和博弈问题更容易进行评估。标准化环境如ALE（Arcade Learning Environment）和MuJoCo已经使单智能体强化学习超越了诸如网格世界的玩具域。然而，对于协作式多智能体强化学习而言，尚缺乏类似的基准测试。因此，该领域的大多数论文都使用一次性玩具问题，这使得衡量实际进展变得困难。本文提出将《星际争霸II》多智能体挑战（StarCraft Multi-Agent Challenge, SMAC）作为填补这一空白的基准问题。SMAC基于广受欢迎的即时战略游戏《星际争霸II》，专注于微观管理挑战，每个单位由一个独立的智能体控制，并且必须根据局部观测采取行动。我们提供了一系列多样化的挑战地图，并提出了基准测试和评估的最佳实践建议。此外，我们还开源了一个包含最先进算法的深度多智能体强化学习框架。我们认为，SMAC可以为未来的多年研究提供一个标准的基准环境。我们最佳智能体在多个SMAC场景中的表现视频可在此链接查看：https://youtu.be/VZ7zmQ_obZ0。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

《星际争霸多智能体挑战》 | 论文 | HyperAI超神经