在 Discord 上讨论

7 个月前

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

摘要

自监督学习的规模化已推动语言与视觉领域取得突破性进展，但在强化学习（RL）领域，类似进展却一直难以实现。本文研究了自监督强化学习的关键构建模块，这些模块显著提升了模型的可扩展性，其中网络深度成为关键因素。近年来，大多数强化学习论文采用浅层网络结构（约2至5层），而我们证明，将网络深度扩展至1024层可显著提升性能。实验在无监督的目标条件设置下进行，即不提供任何示范或奖励信号，因此智能体必须从零开始自主探索，并学习如何最大化达成指定目标的概率。在模拟的运动与操作任务上评估表明，我们的方法使自监督对比强化学习算法的性能提升了2倍至50倍，显著优于其他目标条件基线方法。增加模型深度不仅提升了任务成功率，还从根本上改变了智能体所学习到的行为模式。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

在 Discord 上讨论

7 个月前

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

摘要

自监督学习的规模化已推动语言与视觉领域取得突破性进展，但在强化学习（RL）领域，类似进展却一直难以实现。本文研究了自监督强化学习的关键构建模块，这些模块显著提升了模型的可扩展性，其中网络深度成为关键因素。近年来，大多数强化学习论文采用浅层网络结构（约2至5层），而我们证明，将网络深度扩展至1024层可显著提升性能。实验在无监督的目标条件设置下进行，即不提供任何示范或奖励信号，因此智能体必须从零开始自主探索，并学习如何最大化达成指定目标的概率。在模拟的运动与操作任务上评估表明，我们的方法使自监督对比强化学习算法的性能提升了2倍至50倍，显著优于其他目标条件基线方法。增加模型深度不仅提升了任务成功率，还从根本上改变了智能体所学习到的行为模式。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供