HyperAIHyperAI

Command Palette

Search for a command to run...

在多个数量级上学习值

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

摘要

大多数学习算法对所逼近函数的尺度并不具有不变性。我们提出了一种自适应归一化目标值的方法,这在基于价值的强化学习中尤为有用。在基于价值的强化学习中,随着行为策略的更新,合适的值逼近的量级可能会随时间发生变化。我们的主要动机来自于之前关于学习玩Atari游戏的研究,其中所有奖励都被裁剪到一个预设范围内。这种裁剪有助于使用单一学习算法跨多个不同游戏进行学习,但被裁剪的奖励函数可能导致定性不同的行为表现。通过使用自适应归一化方法,我们可以移除这一特定领域的启发式方法而不降低整体性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在多个数量级上学习值 | 论文 | HyperAI超神经