
摘要
已有若干论文指出,宽的极小值(wide minima)相较于窄的极小值具有更好的泛化性能。本文通过一系列详尽的实验,在验证宽极小值泛化能力的同时,进一步提供了支持一项新假设的实证证据:宽极小值的密度可能低于窄极小值的密度。基于这一假设,我们设计了一种新颖的“探索-利用”(explore-exploit)学习率调度策略。在多种图像与自然语言处理数据集上,相较于原始的手动调优学习率基线,我们的探索-利用调度策略能够在保持原有训练预算的前提下,将模型绝对准确率提升最高达0.84%;或在达到原始报告准确率的前提下,将训练时间减少最多达57%。例如,仅通过调整一个高性能模型的学习率调度策略,我们在IWSLT'14(DE-EN)数据集上即实现了当前最优(SOTA)的性能表现。
代码仓库
nikhil-iyer-97/wide-minima-density-hypothesis
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-iwslt2014-german | Cutoff+Knee | BLEU score: 37.78 |
| machine-translation-on-wmt2014-german-english | MAT+Knee | BLEU score: 31.9 |