HyperAI超神经

摘要

大多数学习算法对所逼近函数的尺度并不具有不变性。我们提出了一种自适应归一化目标值的方法，这在基于价值的强化学习中尤为有用。在基于价值的强化学习中，随着行为策略的更新，合适的值逼近的量级可能会随时间发生变化。我们的主要动机来自于之前关于学习玩Atari游戏的研究，其中所有奖励都被裁剪到一个预设范围内。这种裁剪有助于使用单一学习算法跨多个不同游戏进行学习，但被裁剪的奖励函数可能导致定性不同的行为表现。通过使用自适应归一化方法，我们可以移除这一特定领域的启发式方法而不降低整体性能。

摘要

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

摘要

用 AI 构建 AI

HyperAI Newsletters

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

摘要

用 AI 构建 AI

HyperAI Newsletters

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

在多个数量级上学习值

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

在多个数量级上学习值

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

在多个数量级上学习值

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

摘要

用 AI 构建 AI

HyperAI Newsletters