4 个月前

探索:基于计数的深度强化学习探索研究

探索:基于计数的深度强化学习探索研究

摘要

基于计数的探索算法在与表格强化学习(RL)方法结合用于解决小型离散马尔可夫决策过程(MDPs)时,已知其性能接近最优。通常认为,由于大多数状态只会出现一次,基于计数的方法无法应用于高维状态空间。最近的深度强化学习探索策略通过复杂的启发式方法能够处理高维连续状态空间,这些方法通常依赖于面对不确定性时的乐观主义或内在动机。在这项工作中,我们描述了一个令人惊讶的发现:经典基于计数方法的一个简单泛化能够在各种高维和/或连续的深度强化学习基准测试中达到接近最先进水平的性能。状态被映射到哈希码,这使得可以通过哈希表来统计它们的发生次数。然后根据经典的基于计数的探索理论计算奖励奖金。我们发现简单的哈希函数在许多具有挑战性的任务上能够取得出乎意料的好结果。此外,我们还展示了领域相关的学习型哈希码可以进一步提高这些结果。详细分析揭示了良好哈希函数的重要方面:1) 具有适当的粒度;2) 编码与解决MDP相关的信息。这种探索策略在连续控制任务和Atari 2600游戏中均达到了接近最先进水平的性能,因此为需要大量探索的MDP问题提供了一个简单而强大的基线解决方案。

代码仓库

nhynes/abc
pytorch
GitHub 中提及
uoe-agents/derl
pytorch
GitHub 中提及

基准测试

基准方法指标
atari-games-on-atari-2600-freewayTRPO-hash
Score: 34.0
atari-games-on-atari-2600-frostbiteTRPO-hash
Score: 5214.0
atari-games-on-atari-2600-montezumas-revengeTRPO-hash
Score: 75
atari-games-on-atari-2600-ventureTRPO-hash
Score: 445.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索:基于计数的深度强化学习探索研究 | 论文 | HyperAI超神经