
摘要
模型量化被认为是一种有前景的方法,用于压缩深度神经网络,特别是在轻量级移动设备或边缘设备上进行推理。然而,模型量化通常需要访问原始训练数据以保持全精度模型的准确性,这在实际场景中由于安全和隐私问题往往难以实现。一种流行的无需访问原始数据即可进行量化的做法是使用基于批归一化统计或对抗学习生成的合成样本。然而,这种方法的主要缺点在于其主要依赖于输入生成器的随机噪声来获得合成样本的多样性。我们发现,这通常不足以捕捉原始数据的分布,尤其是在决策边界附近。为此,我们提出了一种名为Qimera的方法,该方法利用叠加的潜在嵌入生成支持决策边界的合成样本。为了使叠加的嵌入更好地反映原始分布,我们还提出了使用额外的解耦映射层并从全精度模型中提取信息。实验结果表明,Qimera在无数据量化的各种设置下均达到了最先进的性能。代码可在https://github.com/iamkanghyunchoi/qimera 获取。
代码仓库
iamkanghyunchoi/ait
pytorch
GitHub 中提及
iamkanghyunchoi/qimera
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-free-quantization-on-cifar-100 | ResNet-20 CIFAR-100 | CIFAR-100 W4A4 Top-1 Accuracy: 65.10 CIFAR-100 W5A5 Top-1 Accuracy: 69.02 |
| data-free-quantization-on-cifar10 | ResNet-20 CIFAR-10 | CIFAR-10 W4A4 Top-1 Accuracy: 91.26 CIFAR-10 W5A5 Top-1 Accuracy: 93.46 |