3 个月前

永不放弃:学习定向探索策略

永不放弃:学习定向探索策略

摘要

我们提出了一种强化学习智能体,通过学习一系列具有方向性的探索策略来解决高难度探索类游戏。该方法基于智能体近期经验,利用k近邻(k-nearest neighbors)构建一种基于回合记忆的内在奖励机制,用于训练这些方向性探索策略,从而促使智能体反复访问其环境中的所有状态。为进一步提升探索效率,我们采用自监督的逆动力学模型来训练最近邻查找的嵌入表示,使新颖性信号偏向于智能体能够控制的动态变化。通过采用通用价值函数近似器(Universal Value Function Approximators, UVFA)框架,我们仅使用单一神经网络即可同时学习多种具有不同探索与利用权衡的定向探索策略。利用同一神经网络实现不同程度的探索/利用行为,我们验证了从以探索为主导的策略向高效利用策略的迁移能力。该方法可无缝集成至现代分布式强化学习架构中,支持多个智能体在独立环境实例上并行运行并收集大量经验。在Atari-57基准套件中的所有高难度探索任务上,该方法使基线智能体的性能提升一倍,同时在其余游戏中仍保持极高的得分水平,获得中位数人类归一化得分为1344.0%。值得注意的是,该方法是首个在未使用示范数据或人工设计特征的情况下,成功在《Pitfall!》游戏中获得非零奖励(平均得分达8,400)的算法。

代码仓库

rle-foundation/rlexplore
jax
GitHub 中提及
balloch/rl-exploration-transfer
pytorch
GitHub 中提及
Coac/never-give-up
pytorch
GitHub 中提及
michaelnny/deep_rl_zoo
pytorch
GitHub 中提及
YHL04/agent57
pytorch
GitHub 中提及

基准测试

基准方法指标
atari-games-on-atari-gameNGU
Human World Record Breakthrough: 8
atari-games-on-atari-gamesNGU
Mean Human Normalized Score: 3169.90%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
永不放弃:学习定向探索策略 | 论文 | HyperAI超神经