3 个月前

迈向可持续的自监督学习

迈向可持续的自监督学习

摘要

尽管自监督学习(Self-Supervised Learning, SSL)模型的训练成本日益增加,但大多数SSL模型仍反复从零开始训练,未能得到充分使用,原因在于仅有少数当前最优(SOTA)模型被应用于下游任务。在本工作中,我们探索了一种可持续的SSL框架,面临两大核心挑战:其一,如何以低成本的方式,基于已有的预训练SSL模型(称为“基础模型”)学习到一个性能更强的新SSL模型;其二,使新模型的训练过程能够兼容多种不同的基础模型。为此,我们提出了一种目标增强型条件(Target-Enhanced Conditional, TEC)机制,该机制在现有的基于掩码重建的SSL框架基础上引入了两个关键组件。首先,我们提出了补丁关系增强型目标(patch-relation enhanced targets),通过增强基础模型所提供的目标信号,并利用不完整输入引导新模型学习来自基础模型的语义关系知识。这种目标强化与结构硬化机制,促使新模型在处理不完整输入时引入额外的补丁间关系建模能力,从而实现对基础模型的超越。其次,我们引入了一个条件适配器(conditional adapter),能够自适应地调整新模型的预测输出,使其与不同基础模型的目标保持对齐。大量实验结果表明,所提出的TEC机制不仅显著提升了模型的学习效率,还能有效改进现有的SOTA SSL基础模型(如MAE和iBOT),为实现可持续的自监督学习迈出了探索性的一步。

代码仓库

sail-sg/tec
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-coco-minivalTEC(VIT-B, Mask-RCNN)
box AP: 54.6
self-supervised-image-classification-on-1TEC_MAE (ViT-L/16, 224)
Top 1 Accuracy: 86.5%
semantic-segmentation-on-ade20kTEC (Vit-B, Upernet)
Validation mIoU: 51.0
semantic-segmentation-on-imagenet-sTEC (ViT-B/16, 224x224, SSL+FT)
mIoU (val): 62.0
semantic-segmentation-on-imagenet-sTEC (ViT-B/16, 224x224, SSL, mmseg)
mIoU (test): 46.0
mIoU (val): 46.1
semantic-segmentation-on-imagenet-sTEC (ViT-B/16, 224x224, SSL)
mIoU (val): 42.9
semantic-segmentation-on-imagenet-sTEC (ViT-B/16, 224x224, SSL+FT, mmseg)
mIoU (test): 62.5
mIoU (val): 63.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
迈向可持续的自监督学习 | 论文 | HyperAI超神经