
摘要
全量化训练(Fully Quantized Training, FQT)通过将神经网络模型的激活值、权重和梯度均进行低比特量化,利用低比特硬件加速深度神经网络的训练,是一种极具前景的技术路径。然而,FQT面临的一个主要挑战是缺乏系统的理论理解,尤其是关于梯度量化对收敛性影响的机制尚不明确。本文通过构建一个统计分析框架,系统地研究FQT算法的性质。我们将FQT中的量化梯度视为其高精度对应项的随机估计器,这一过程即所谓的量化感知训练(Quantization-Aware Training, QAT)。我们证明了FQT梯度是QAT梯度的无偏估计,并进一步分析了梯度量化对估计方差的影响。基于上述理论发现,我们设计了两种新型梯度量化器,实验表明其方差显著低于现有的逐张量(per-tensor)量化方法。在ImageNet数据集上训练ResNet-50模型时,我们提出的5比特块Householder量化器仅带来0.5%的验证精度损失,性能与现有的INT8基准相当,展现出优异的量化效率与模型精度平衡能力。
代码仓库
cjf00000/StatQuant
官方
pytorch
GitHub 中提及
gaochang-bjtu/1-bit-fqt
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| linguistic-acceptability-on-cola | PSQ (Chen et al., 2020) | Accuracy: 67.5 |
| natural-language-inference-on-multinli | PSQ (Chen et al., 2020) | Matched: 89.9 |
| natural-language-inference-on-qnli | PSQ (Chen et al., 2020) | Accuracy: 94.5 |
| natural-language-inference-on-rte | PSQ (Chen et al., 2020) | Accuracy: 86.8 |
| semantic-textual-similarity-on-mrpc | PSQ (Chen et al., 2020) | Accuracy: 90.4 |
| semantic-textual-similarity-on-sts-benchmark | PSQ (Chen et al., 2020) | Pearson Correlation: 0.919 |
| sentiment-analysis-on-sst-2-binary | PSQ (Chen et al., 2020) | Accuracy: 96.2 |