3 个月前

DyTox:基于动态Token扩展的持续学习Transformer模型

DyTox:基于动态Token扩展的持续学习Transformer模型

摘要

深度网络架构在持续学习新任务时往往难以避免遗忘先前任务的知识。近期研究趋势表明,基于参数动态扩展的动态架构能够在持续学习中有效缓解灾难性遗忘问题。然而,现有方法通常需要在测试阶段提供任务标识符,需复杂的超参数调优以平衡不断增长的参数量,且在不同任务间几乎无法实现知识共享。因此,这些方法在面对大量任务时难以有效扩展,往往伴随显著的计算与存储开销。本文提出一种基于专用编码器-解码器框架的Transformer架构。关键在于,编码器与解码器在所有任务间共享使用。通过动态扩展特殊标记(special tokens),我们使解码器的每一次前向传播能够针对特定任务的分布进行自适应调整。该策略在支持大规模任务场景的同时,由于对参数扩展进行了严格控制,因而仅带来可忽略的内存与时间开销。此外,该高效方法无需任何超参数调优即可自动控制网络的扩展过程。实验结果表明,该模型在CIFAR100数据集上取得了优异性能,在大规模ImageNet100与ImageNet1000数据集上更是达到了当前最优水平,且模型参数量显著低于同类动态架构,展现出卓越的可扩展性与效率。

代码仓库

arthurdouillard/dytox
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
incremental-learning-on-imagenet-10-stepsDyTox
# M Params: 11.36
Average Incremental Accuracy: 71.29
Average Incremental Accuracy Top-5: 88.59
Final Accuracy: 63.34
Final Accuracy Top-5: 84.49
incremental-learning-on-imagenet100-10-stepsDyTox
# M Params: 11.01
Average Incremental Accuracy: 77.15
Average Incremental Accuracy Top-5: 92.04
Final Accuracy: 69.10
Final Accuracy Top-5: 87.98

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DyTox:基于动态Token扩展的持续学习Transformer模型 | 论文 | HyperAI超神经