4 个月前

大规模好奇心驱动学习研究

大规模好奇心驱动学习研究

摘要

强化学习算法依赖于精心设计的环境奖励,这些奖励对于智能体而言是外部的。然而,为每个环境手动设计密集的奖励并不具备可扩展性,这促使了开发出对智能体而言是内部的奖励函数的需求。好奇心是一种利用预测误差作为奖励信号的内部奖励函数。在本文中:(a) 我们首次进行了大规模研究,探讨了仅由好奇心驱动的学习(即没有任何外部奖励)在54个标准基准环境中的表现,包括Atari游戏套件。我们的结果显示了令人惊讶的良好性能,并且在许多游戏环境中,内部好奇心目标与手动设计的外部奖励之间表现出高度的一致性。(b) 我们研究了使用不同特征空间计算预测误差的影响,并表明随机特征对于许多流行的强化学习游戏基准已经足够,但学习到的特征似乎具有更好的泛化能力(例如,在《超级马里奥兄弟》的新关卡中)。(c) 我们展示了基于预测的奖励在随机设置中的局限性。游戏视频和代码可在https://pathak22.github.io/large-scale-curiosity/ 获取。

基准测试

基准方法指标
atari-games-on-atari-2600-freewayIntrinsic Reward Agent
Score: 32.8
atari-games-on-atari-2600-gravitarIntrinsic Reward Agent
Score: 1165.1
atari-games-on-atari-2600-montezumas-revengeIntrinsic Reward Agent
Score: 2504.6
atari-games-on-atari-2600-private-eyeIntrinsic Reward Agent
Score: 3036.5
atari-games-on-atari-2600-ventureIntrinsic Reward Agent
Score: 416

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模好奇心驱动学习研究 | 论文 | HyperAI超神经