HyperAIHyperAI

Command Palette

Search for a command to run...

CURL:用于强化学习的对比无监督表示

Aravind Srinivas Michael Laskin Pieter Abbeel

摘要

我们提出CURL:用于强化学习的对比无监督表征方法。CURL利用对比学习从原始像素中提取高层次特征,并在所提取的特征基础上实现离策略控制。在DeepMind Control Suite和Atari游戏的复杂任务上,CURL的表现优于以往所有基于像素的方法,无论是基于模型还是无模型的方法,在10万次环境交互步骤的基准测试中,分别实现了1.9倍和1.2倍的性能提升。在DeepMind Control Suite上,CURL是首个基于图像的算法,其样本效率几乎达到了使用状态空间特征方法的水平。相关代码已开源,可通过 https://github.com/MishaLaskin/curl 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CURL:用于强化学习的对比无监督表示 | 论文 | HyperAI超神经