
摘要
本文介绍了SC2LE(StarCraft II Learning Environment,星际争霸II学习环境),这是一个基于《星际争霸II》游戏的强化学习环境。该领域为强化学习提出了一个新的重大挑战,代表了一类比以往大多数研究中考虑的问题更为复杂的难题。它是一个多智能体问题,涉及多名玩家之间的互动;由于地图部分不可见,存在不完全信息;其动作空间庞大,包括选择和控制数百个单位;状态空间也很大,必须从原始输入特征平面进行观察;并且需要在数千步内实施长期策略,因此奖励分配具有延迟性。我们描述了《星际争霸II》领域的观察、动作和奖励规范,并提供了一个用于与游戏引擎通信的开源Python接口。除了主要游戏地图外,我们还提供了一系列迷你游戏,专注于《星际争霸II》游戏的不同元素。对于主要游戏地图,我们还提供了一套来自人类专家玩家的游戏回放数据集。我们给出了基于这些数据训练神经网络以预测游戏结果和玩家行为的初步基准结果。最后,我们展示了将经典深度强化学习代理应用于《星际争霸II》领域的初步基准结果。在迷你游戏中,这些代理学会了达到与新手玩家相当的水平。然而,在主要游戏中训练时,这些代理无法取得显著进展。因此,SC2LE为探索深度强化学习算法和架构提供了新的且富有挑战性的环境。
代码仓库
nicoladainese96/SC2-RL
pytorch
GitHub 中提及
deepmind/pysc2
官方
GitHub 中提及
Teslatic/SC2-Freiburg
GitHub 中提及
ericborn/binarybot
tf
GitHub 中提及
google-deepmind/pysc2
GitHub 中提及
tuomaso/SC2LE-implementation
tf
GitHub 中提及
raccoon831012/StartCraft2-RL
tf
GitHub 中提及
4rChon/NL-FuN
tf
GitHub 中提及
inoryy/reaver
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| starcraft-ii-on-collectmineralshards | FullyConv LSTM | Max Score: 137 |
| starcraft-ii-on-movetobeacon | FullyConv LSTM | Max Score: 35 |