
摘要
在本文中,我们介绍了一种简单的强化学习(RL)探索方法,该方法不仅允许我们在表格情况下开发理论上有根据的算法,还可以扩展到需要函数逼近的场景。我们的方法基于继任者表示(Successor Representation, SR),该表示最初被引入用于通过后续状态的相似性定义状态泛化。在这里,我们展示了在学习过程中,SR 的范数可以作为奖励奖金来激励探索行为。为了更好地理解 SR 范数的这种瞬态行为,我们引入了次随机继任者表示(Substochastic Successor Representation, SSR),并证明它隐式地统计了每个状态(或特征)被观察到的次数。利用这一结果,我们提出了一种算法,其性能与某些理论上样本高效的算法相当。最后,我们将这些思想扩展到深度强化学习算法中,并展示了在低样本复杂度的情况下,该算法在 Atari 2600 游戏中的表现达到了当前最佳水平。
代码仓库
mcmachado/count_based_exploration_sr
官方
GitHub 中提及
bonniesjli/DQN_SR
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-freeway | DQNMMCe | Score: 29.5 |
| atari-games-on-atari-2600-gravitar | DQNMMCe | Score: 1078.3 |
| atari-games-on-atari-2600-montezumas-revenge | DQN+SR | Score: 1778.8 |
| atari-games-on-atari-2600-montezumas-revenge | DQNMMCe+SR | Score: 1778.6 |
| atari-games-on-atari-2600-private-eye | DQNMMCe+SR | Score: 99.1 |
| atari-games-on-atari-2600-solaris | DQNMMCe | Score: 2244.6 |
| atari-games-on-atari-2600-venture | DQNMMCe+SR | Score: 1241.8 |