7 个月前

计算机视觉

Jongwook Choi Yijie Guo Marcin Moczulski Junhyuk Oh Neal Wu Mohammad Norouzi Honglak Lee

摘要

本文研究了学习环境中的偶然性意识和可控方面是否可以促进强化学习中的更好探索。为了探讨这一问题，我们考虑了一个在Arcade Learning Environment（ALE）上评估该假设的具体实例。在这项研究中，我们开发了一种注意力动力学模型（Attentive Dynamics Model, ADM），该模型能够发现观察数据中的可控元素，这些元素通常与Atari游戏中角色的位置相关联。ADM以自监督的方式训练，用于预测代理采取的动作。所学到的偶然性信息被用作状态表示的一部分，以服务于探索目的。我们展示了将行为者-评论家算法与基于计数的探索方法结合使用我们的表示，在一系列由于稀疏奖励而极具挑战性的Atari游戏中取得了令人印象深刻的结果。例如，在不使用专家演示、显式的高层次信息（如RAM状态）或监督数据的情况下，我们在《蒙特祖玛的复仇》中报告了超过11,000分的最新成绩。我们的实验结果证实，偶然性意识确实是解决强化学习中探索问题的一个极其强大的概念，并为未来的研究提出了有趣的问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Jongwook Choi Yijie Guo Marcin Moczulski Junhyuk Oh Neal Wu Mohammad Norouzi Honglak Lee

摘要

本文研究了学习环境中的偶然性意识和可控方面是否可以促进强化学习中的更好探索。为了探讨这一问题，我们考虑了一个在Arcade Learning Environment（ALE）上评估该假设的具体实例。在这项研究中，我们开发了一种注意力动力学模型（Attentive Dynamics Model, ADM），该模型能够发现观察数据中的可控元素，这些元素通常与Atari游戏中角色的位置相关联。ADM以自监督的方式训练，用于预测代理采取的动作。所学到的偶然性信息被用作状态表示的一部分，以服务于探索目的。我们展示了将行为者-评论家算法与基于计数的探索方法结合使用我们的表示，在一系列由于稀疏奖励而极具挑战性的Atari游戏中取得了令人印象深刻的结果。例如，在不使用专家演示、显式的高层次信息（如RAM状态）或监督数据的情况下，我们在《蒙特祖玛的复仇》中报告了超过11,000分的最新成绩。我们的实验结果证实，偶然性意识确实是解决强化学习中探索问题的一个极其强大的概念，并为未来的研究提出了有趣的问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于情景的强化学习探索 | 论文 | HyperAI超神经