
摘要
掌握一款视频游戏需要技能、战术和策略。虽然这些属性可能被人类玩家自然地习得,但将其教授给计算机程序则是一项更为艰巨的任务。近年来,强化学习领域进行了大量研究,并引入了多种算法,旨在学习如何执行人类任务,例如玩视频游戏。因此,街机学习环境(Arcade Learning Environment, ALE)(Bellemare等人,2013年)已成为一个常用的基准环境,允许算法在各种Atari 2600游戏中进行训练。在许多游戏中,最先进的算法已经超过了人类的表现。本文介绍了一种新的学习环境——复古学习环境(Retro Learning Environment, RLE),该环境可以在超级任天堂娱乐系统(Super Nintendo Entertainment System, SNES)、世嘉创世纪(Sega Genesis)和其他几款游戏机上运行游戏。该环境具有可扩展性,可以轻松添加更多的视频游戏和游戏机,同时保持与ALE相同的接口。此外,RLE兼容Python和Torch。由于SNES游戏的复杂性和多样性更高,它们对当前的算法构成了显著的挑战。
代码仓库
nadavbh12/Retro-Learning-Environment
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| snes-games-on-f-zero | D-DQN | Score: 3636 |
| snes-games-on-f-zero | Dueling D-DQN | Score: 5161 |
| snes-games-on-f-zero | DQN | Score: 3116 |
| snes-games-on-gradius-iii | D-DQN | Score: 12343 |
| snes-games-on-gradius-iii | Dueling D-DQN | Score: 16929 |
| snes-games-on-gradius-iii | DQN | Score: 7583 |
| snes-games-on-mortal-kombat | DQN | Score: 83733 |
| snes-games-on-mortal-kombat | D-DQN | Score: 56200 |
| snes-games-on-mortal-kombat | Dueling D-DQN | Score: 169300 |
| snes-games-on-super-mario | D-DQN | Score: 16946 |
| snes-games-on-super-mario | Dueling D-DQN | Score: 20030 |
| snes-games-on-super-mario | DQN | Score: 11765 |
| snes-games-on-wolfenstein | Dueling D-DQN | Score: 40 |
| snes-games-on-wolfenstein | DQN | Score: 100 |
| snes-games-on-wolfenstein | D-DQN | Score: 83 |