3 个月前

D3Former:面向增量学习的去偏双蒸馏Transformer

D3Former:面向增量学习的去偏双蒸馏Transformer

摘要

在类增量学习(Class-Incremental Learning, CIL)设置中,模型在每个学习阶段逐步接收一组新的类别,其目标是构建一个统一的模型,能够对迄今为止所观察到的所有类别均保持良好的性能。随着视觉Transformer(Vision Transformers, ViTs)在传统分类任务中的广泛应用,一个值得关注的问题是:这些模型在持续学习场景下的表现如何?为此,本文提出了一种面向CIL的去偏双蒸馏Transformer模型,命名为$\textrm{D}^3\textrm{Former}$。所提出的$\textrm{D}^3\textrm{Former}$采用混合嵌套式ViT架构设计,兼顾数据效率,并具备在小规模与大规模数据集上良好扩展的能力。与近期基于ViT的CIL方法不同,$\textrm{D}^3\textrm{Former}$在学习新任务时无需动态扩展网络结构,因而能够适应大量增量任务,具有更强的实用性与可扩展性。$\textrm{D}^3\textrm{Former}$在CIL性能上的显著提升,源于对ViT架构的两项根本性改进。其一,我们将增量学习建模为长尾分类问题:新类别中的样本数量远超旧类别所拥有的有限样本(即记忆样本)。为避免模型对样本较少的旧类别产生偏差,我们提出一种动态调整输出logits的方法,以强化对旧任务相关特征表示的保留能力。其二,我们提出在跨任务学习过程中保持空间注意力图的配置结构不变。这一机制有助于通过约束模型对最具判别性的空间区域保持注意力,从而有效缓解灾难性遗忘问题。在CIFAR-100、MNIST、SVHN以及ImageNet等数据集的增量学习版本上,$\textrm{D}^3\textrm{Former}$均取得了优异的性能表现。相关代码已公开,获取地址为:https://tinyurl.com/d3former。

代码仓库

abdohelmy/D-3Former
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
incremental-learning-on-cifar-100-50-classes-1D3Former
Average Incremental Accuracy: 68.68
incremental-learning-on-cifar-100-50-classes-2D3Former
Average Incremental Accuracy: 70.94
incremental-learning-on-cifar-100-50-classes-3D3Former
Average Incremental Accuracy: 72.23

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
D3Former:面向增量学习的去偏双蒸馏Transformer | 论文 | HyperAI超神经