HyperAI

摘要

在大规模数据集上训练大型深度神经网络计算难度非常高。近期，使用大批次随机优化方法解决这一问题的兴趣激增。该领域的最著名算法是LARS，通过采用逐层自适应学习率，LARS能够在几分钟内完成ResNet在ImageNet上的训练。然而，LARS在处理类似BERT的注意力模型时表现不佳，这表明其性能提升在不同任务之间并不一致。本文中，我们首先研究了一种基于原理的逐层自适应策略，以加速使用大迷你批次训练深度神经网络的过程。利用这一策略，我们开发了一种新的逐层自适应大批次优化技术，称为LAMB；随后，我们对LAMB以及LARS进行了收敛性分析，在一般非凸设置下证明了它们能够收敛到一个稳定点。我们的实证结果展示了LAMB在各种任务中的优越性能，例如BERT和ResNet-50的训练，并且几乎不需要超参数调整。特别是对于BERT的训练，我们的优化器能够在不降低性能的情况下使用高达32868的大批次大小。通过将批次大小增加到TPUv3 Pod的内存极限，BERT的训练时间可以从3天缩短至仅76分钟（表1）。LAMB的实现代码可在以下链接获取：https://github.com/tensorflow/addons/blob/master/tensorflow_addons/optimizers/lamb.py

摘要

Yang You Jing Li Sashank Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song James Demmel Kurt Keutzer Cho-Jui Hsieh

摘要

用 AI 构建 AI

HyperAI Newsletters

Yang You Jing Li Sashank Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song James Demmel Kurt Keutzer Cho-Jui Hsieh

摘要

用 AI 构建 AI

HyperAI Newsletters

Yang You Jing Li Sashank Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song James Demmel Kurt Keutzer Cho-Jui Hsieh

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大规模批优化在深度学习中的应用：76分钟内训练BERT

Yang You Jing Li Sashank Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song James Demmel Kurt Keutzer Cho-Jui Hsieh

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大规模批优化在深度学习中的应用：76分钟内训练BERT

Yang You Jing Li Sashank Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song James Demmel Kurt Keutzer Cho-Jui Hsieh

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大规模批优化在深度学习中的应用：76分钟内训练BERT

Yang You Jing Li Sashank Reddi Jonathan Hseu Sanjiv Kumar Srinadh Bhojanapalli Xiaodan Song James Demmel Kurt Keutzer Cho-Jui Hsieh

摘要

用 AI 构建 AI

HyperAI Newsletters