HyperAI

摘要

我们提出了一种概念上简单且轻量级的深度强化学习框架，该框架利用异步梯度下降来优化深度神经网络控制器。我们介绍了四种标准强化学习算法的异步变体，并展示了并行的行为者-学习者对训练具有稳定作用，使得所有四种方法都能成功地训练神经网络控制器。表现最佳的方法是一种异步变体的演员-评论家（actor-critic）算法，它在Atari游戏领域超越了当前的最先进水平，同时仅使用单个多核CPU而非GPU进行训练，时间缩短了一半。此外，我们还证明了异步演员-评论家算法在广泛的连续运动控制问题以及一项新的任务——使用视觉输入导航随机3D迷宫中也取得了成功。

摘要

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

深度强化学习的异步方法

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

深度强化学习的异步方法

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

深度强化学习的异步方法

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters