3 个月前

自适应优化中未调优预热策略的充分性

自适应优化中未调优预热策略的充分性

摘要

自适应优化算法(如 Adam)在深度学习中被广泛使用。通常,通过为学习率设置预热(warmup)策略,可以提升这类算法的稳定性。然而,由于预热策略的选择与调参过程复杂且耗时,近期研究提出了一种自动方差校正机制,用于修正 Adam 算法的自适应学习率,声称该改进方法(“RAdam”)优于原始 Adam 算法,并显著降低了对结合预热策略的 Adam 进行昂贵调参的需求。本文对上述分析提出质疑,并基于更新项的大小(magnitude of the update term)提出了一个更具相关性的替代解释,说明预热机制在保障训练稳定性中的必要性。在此基础上,我们给出若干“经验法则”式的预热策略建议,并通过实验证明:在典型的实际应用场景中,对 Adam 进行简单、无需调参的预热处理,其性能与 RAdam 几乎相当。综上所述,我们建议实践者在使用 Adam 时,采用线性预热策略,其合理默认设置为在 $2 / (1 - β_2)$ 个训练迭代内完成线性预热。

代码仓库

Tony-Y/pytorch_warmup
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetResNet-50
Top 1 Accuracy: 72.1%
language-modelling-on-wikitext-103Transformer (Adaptive inputs)
Validation perplexity: 19.5
machine-translation-on-wmt2016-english-germanTransformer
BLEU score: 26.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自适应优化中未调优预热策略的充分性 | 论文 | HyperAI超神经