4 个月前

基于计数的探索与神经密度模型

基于计数的探索与神经密度模型

摘要

贝尔马尔等人(2016)引入了从密度模型中派生的伪计数概念,以将基于计数的探索方法推广到非表格强化学习中。该伪计数被用于为DQN代理生成探索奖励,并结合混合蒙特卡洛更新,足以在Atari 2600游戏《蒙特祖玛的复仇》中达到当时最先进的水平。他们的工作留下了两个未解决的问题:首先,密度模型的质量对探索有多重要?其次,蒙特卡洛更新在探索中扮演什么角色?我们通过展示如何使用PixelCNN(一种先进的图像神经密度模型)来提供伪计数,回答了第一个问题。特别是,我们探讨了当模型假设被违反时,适应贝尔马尔等人方法所面临的内在困难。结果是一种更加实用和通用的算法,无需特殊设备。我们将PixelCNN伪计数与不同的代理架构相结合,在多个难度较大的Atari游戏中显著提升了当前的最先进水平。一个令人惊讶的发现是,在最稀疏的环境中,包括《蒙特祖玛的复仇》,混合蒙特卡洛更新是促进探索的强大工具。

代码仓库

nolisten/erl
tf
GitHub 中提及

基准测试

基准方法指标
atari-games-on-atari-2600-freewayDQN-PixelCNN
Score: 31.7
atari-games-on-atari-2600-freewayDQN-CTS
Score: 33.0
atari-games-on-atari-2600-gravitarDQN-CTS
Score: 238.0
atari-games-on-atari-2600-gravitarDQN-PixelCNN
Score: 498.3
atari-games-on-atari-2600-montezumas-revengeDQN-PixelCNN
Score: 3705.5
atari-games-on-atari-2600-private-eyeDQN-PixelCNN
Score: 8358.7
atari-games-on-atari-2600-private-eyeDQN-CTS
Score: 206.0
atari-games-on-atari-2600-ventureDQN-PixelCNN
Score: 82.2
atari-games-on-atari-2600-ventureDQN-CTS
Score: 48.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于计数的探索与神经密度模型 | 论文 | HyperAI超神经