4 个月前

基于情景的强化学习探索

基于情景的强化学习探索

摘要

本文研究了学习环境中的偶然性意识和可控方面是否可以促进强化学习中的更好探索。为了探讨这一问题,我们考虑了一个在Arcade Learning Environment(ALE)上评估该假设的具体实例。在这项研究中,我们开发了一种注意力动力学模型(Attentive Dynamics Model, ADM),该模型能够发现观察数据中的可控元素,这些元素通常与Atari游戏中角色的位置相关联。ADM以自监督的方式训练,用于预测代理采取的动作。所学到的偶然性信息被用作状态表示的一部分,以服务于探索目的。我们展示了将行为者-评论家算法与基于计数的探索方法结合使用我们的表示,在一系列由于稀疏奖励而极具挑战性的Atari游戏中取得了令人印象深刻的结果。例如,在不使用专家演示、显式的高层次信息(如RAM状态)或监督数据的情况下,我们在《蒙特祖玛的复仇》中报告了超过11,000分的最新成绩。我们的实验结果证实,偶然性意识确实是解决强化学习中探索问题的一个极其强大的概念,并为未来的研究提出了有趣的问题。

基准测试

基准方法指标
atari-games-on-atari-2600-montezumas-revengeA2C+CoEX
Score: 6635

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于情景的强化学习探索 | 论文 | HyperAI超神经