
摘要
我们考虑智能体对其环境的不确定性以及如何在观测中泛化这种不确定性的问题。具体而言,我们关注非表格强化学习中的探索问题。借鉴内在动机领域的研究成果,我们使用密度模型来衡量不确定性,并提出了一种从任意密度模型中推导出伪计数的新算法。该技术使我们能够将基于计数的探索算法推广到非表格情况。我们将这些想法应用于Atari 2600游戏,从原始像素中生成合理的伪计数。通过将这些伪计数转换为内在奖励,我们在多个难度较高的游戏中显著提高了探索效果,包括著名的高难度游戏《蒙特祖玛的复仇》(Montezuma's Revenge)。
代码仓库
RLAgent/state-marginal-matching
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-freeway | A3C-CTS | Score: 30.48 |
| atari-games-on-atari-2600-gravitar | A3C-CTS | Score: 238.68 |
| atari-games-on-atari-2600-montezumas-revenge | DDQN-PC | Score: 3459 |
| atari-games-on-atari-2600-montezumas-revenge | A3C-CTS | Score: 273.7 |
| atari-games-on-atari-2600-private-eye | A3C-CTS | Score: 99.32 |
| atari-games-on-atari-2600-venture | A3C-CTS | Score: 0.0 |