HyperAIHyperAI

Command Palette

Search for a command to run...

用于自监督强化学习的1000层网络:增加深度可实现新的目标达成能力

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

自监督学习的规模化已推动语言与视觉领域取得突破性进展,但在强化学习(RL)领域,类似进展却一直难以实现。本文研究了自监督强化学习的关键构建模块,这些模块显著提升了模型的可扩展性,其中网络深度成为关键因素。近年来,大多数强化学习论文采用浅层网络结构(约2至5层),而我们证明,将网络深度扩展至1024层可显著提升性能。实验在无监督的目标条件设置下进行,即不提供任何示范或奖励信号,因此智能体必须从零开始自主探索,并学习如何最大化达成指定目标的概率。在模拟的运动与操作任务上评估表明,我们的方法使自监督对比强化学习算法的性能提升了2倍至50倍,显著优于其他目标条件基线方法。增加模型深度不仅提升了任务成功率,还从根本上改变了智能体所学习到的行为模式。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供