HyperAIHyperAI

Command Palette

Search for a command to run...

深度强化学习的异步方法

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

摘要

我们提出了一种概念上简单且轻量级的深度强化学习框架,该框架利用异步梯度下降来优化深度神经网络控制器。我们介绍了四种标准强化学习算法的异步变体,并展示了并行的行为者-学习者对训练具有稳定作用,使得所有四种方法都能成功地训练神经网络控制器。表现最佳的方法是一种异步变体的演员-评论家(actor-critic)算法,它在Atari游戏领域超越了当前的最先进水平,同时仅使用单个多核CPU而非GPU进行训练,时间缩短了一半。此外,我们还证明了异步演员-评论家算法在广泛的连续运动控制问题以及一项新的任务——使用视觉输入导航随机3D迷宫中也取得了成功。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供