4 个月前

统一基于计数的探索和内在动机

统一基于计数的探索和内在动机

摘要

我们考虑智能体对其环境的不确定性以及如何在观测中泛化这种不确定性的问题。具体而言,我们关注非表格强化学习中的探索问题。借鉴内在动机领域的研究成果,我们使用密度模型来衡量不确定性,并提出了一种从任意密度模型中推导出伪计数的新算法。该技术使我们能够将基于计数的探索算法推广到非表格情况。我们将这些想法应用于Atari 2600游戏,从原始像素中生成合理的伪计数。通过将这些伪计数转换为内在奖励,我们在多个难度较高的游戏中显著提高了探索效果,包括著名的高难度游戏《蒙特祖玛的复仇》(Montezuma's Revenge)。

代码仓库

RLAgent/state-marginal-matching
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
统一基于计数的探索和内在动机 | 论文 | HyperAI超神经