3 个月前

全在头脑中:通过分类器共享实现的表示知识蒸馏

全在头脑中:通过分类器共享实现的表示知识蒸馏

摘要

表示知识蒸馏旨在将一个模型中的丰富信息有效迁移至另一个模型。当前主流的表示蒸馏方法主要聚焦于直接最小化模型嵌入向量之间的距离度量。然而,这类直接方法在捕捉表示向量中蕴含的高阶依赖关系方面存在局限,同时也难以有效应对教师模型与学生模型之间的容量差异问题。此外,在标准的知识蒸馏框架中,教师模型在训练过程中并未考虑学生模型的特性与容量限制。本文提出两种通过教师与学生模型共享分类器机制来增强表示蒸馏的新方法。首先,我们研究了一种简单方案:将教师模型的分类器连接至学生模型的主干网络,作为额外的分类头使用。随后,我们提出一种面向学生的增强机制——通过引入一个临时的学生分类头来训练教师模型,从而使其适应容量受限的学生模型。我们对这两种机制进行了深入分析与对比,并在多个数据集和任务上验证了其有效性,涵盖图像分类、细粒度分类以及人脸识别等任务。特别地,在IJB-C数据集上,针对MobileFaceNet模型,我们实现了当前最优的人脸验证性能:在假阳性率(FAR)为1e-5时,真阳性率(TAR)达到93.7%。相关代码已开源,地址为:https://github.com/Alibaba-MIIL/HeadSharingKD。

代码仓库

alibaba-miil/headsharingkd
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
face-verification-on-ijb-cHeadSharing: TH-KD
TAR @ FAR=1e-4: 95.48%
TAR @ FAR=1e-5: 93.50%
TAR @ FAR=1e-6: 89.82%
model: MobileFaceNet
training dataset: MS1M V3
face-verification-on-ijb-cHeadSharing: SH-KD
TAR @ FAR=1e-4: 95.64%
TAR @ FAR=1e-5: 93.73%
TAR @ FAR=1e-6: 90.24%
model: MobileFaceNet
training dataset: MS1M V3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
全在头脑中:通过分类器共享实现的表示知识蒸馏 | 论文 | HyperAI超神经