
摘要
强化学习算法依赖于精心设计的环境奖励,这些奖励对于智能体而言是外部的。然而,为每个环境手动设计密集的奖励并不具备可扩展性,这促使了开发出对智能体而言是内部的奖励函数的需求。好奇心是一种利用预测误差作为奖励信号的内部奖励函数。在本文中:(a) 我们首次进行了大规模研究,探讨了仅由好奇心驱动的学习(即没有任何外部奖励)在54个标准基准环境中的表现,包括Atari游戏套件。我们的结果显示了令人惊讶的良好性能,并且在许多游戏环境中,内部好奇心目标与手动设计的外部奖励之间表现出高度的一致性。(b) 我们研究了使用不同特征空间计算预测误差的影响,并表明随机特征对于许多流行的强化学习游戏基准已经足够,但学习到的特征似乎具有更好的泛化能力(例如,在《超级马里奥兄弟》的新关卡中)。(c) 我们展示了基于预测的奖励在随机设置中的局限性。游戏视频和代码可在https://pathak22.github.io/large-scale-curiosity/ 获取。
代码仓库
SPark9625/Large-Scale-Study-of-Curiosity-Driven-Learning
pytorch
GitHub 中提及
vdean/audio-curiosity
tf
GitHub 中提及
jcwleo/curiosity-driven-exploration-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-freeway | Intrinsic Reward Agent | Score: 32.8 |
| atari-games-on-atari-2600-gravitar | Intrinsic Reward Agent | Score: 1165.1 |
| atari-games-on-atari-2600-montezumas-revenge | Intrinsic Reward Agent | Score: 2504.6 |
| atari-games-on-atari-2600-private-eye | Intrinsic Reward Agent | Score: 3036.5 |
| atari-games-on-atari-2600-venture | Intrinsic Reward Agent | Score: 416 |