
摘要
我们介绍了一种新的基于计数的乐观探索算法,适用于高维状态-动作空间的强化学习(Reinforcement Learning, RL)。在这些领域中,RL算法的成功在很大程度上取决于从有限的训练经验中进行泛化的能力。函数逼近技术使RL代理能够泛化以估计未访问状态的价值,但目前很少有方法能够实现关于不确定性的泛化。这阻碍了可扩展的RL算法与高效的探索策略相结合,而后者旨在驱使代理减少其不确定性。我们提出了一种新的计算广义状态访问次数的方法,该方法允许代理估计与任何状态相关的不确定性。我们的ϕ-伪计数通过利用用于价值函数逼近的状态空间特征表示来实现泛化。具有较少观察到特征的状态被认为更加不确定。ϕ-探索奖励算法通过对特征空间中的探索给予奖励,而不是对未转换的状态空间进行探索。该方法比一些先前的提议更为简单且计算成本更低,并在高维RL基准测试中取得了接近最先进水平的结果。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| atari-games-on-atari-2600-freeway | Sarsa-φ-EB | Score: 0.0 |
| atari-games-on-atari-2600-freeway | Sarsa-ε | Score: 29.9 |
| atari-games-on-atari-2600-frostbite | Sarsa-φ-EB | Score: 2770.1 |
| atari-games-on-atari-2600-frostbite | Sarsa-ε | Score: 1394.3 |
| atari-games-on-atari-2600-montezumas-revenge | Sarsa-φ-EB | Score: 2745.4 |
| atari-games-on-atari-2600-montezumas-revenge | Sarsa-ε | Score: 399.5 |
| atari-games-on-atari-2600-qbert | Sarsa-ε | Score: 3895.3 |
| atari-games-on-atari-2600-qbert | Sarsa-φ-EB | Score: 4111.8 |
| atari-games-on-atari-2600-venture | Sarsa-φ-EB | Score: 1169.2 |
| atari-games-on-atari-2600-venture | Sarsa-ε | Score: 0.0 |