3 个月前

SERE:面向自监督Transformer的特征自相关性探索

SERE:面向自监督Transformer的特征自相关性探索

摘要

基于自监督学习的卷积神经网络(CNN)表示学习已被证实对视觉任务具有显著有效性。作为CNN的替代方案,视觉Transformer(ViT)凭借其空间自注意力机制与通道级前馈网络,展现出强大的特征表示能力。近期研究表明,自监督学习有助于充分挖掘ViT的潜在性能。然而,大多数现有方法仍沿用为CNN设计的自监督策略,例如样本级别的判别任务,而忽视了ViT自身的独特性质。我们观察到,对空间维度与通道维度进行关系建模,是ViT区别于其他网络的关键特征。为此,我们提出一种面向自监督ViT训练的特征自关系(Self-RElation, SERE)机制。具体而言,我们不再仅依赖多视图特征嵌入进行自监督学习,而是引入特征自关系——即空间自关系与通道自关系——作为自监督学习的核心依据。基于自关系的训练进一步增强了ViT的关系建模能力,从而生成更具表达力的特征表示,并在多个下游任务中稳定提升性能。我们的开源代码已公开,地址为:https://github.com/MCG-NKU/SERE。

代码仓库

MCG-NKU/SERE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-imagenet-sSERE (ViT-B/16, 100ep, 224x224, SSL)
mIoU (test): 48.2
mIoU (val): 48.6
semantic-segmentation-on-imagenet-sSERE (ViT-S/16, 100ep, 224x224, SSL)
mIoU (test): 40.2
mIoU (val): 41.0
semantic-segmentation-on-imagenet-sSERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
mIoU (test): 59.0
mIoU (val): 59.4
semantic-segmentation-on-imagenet-sSERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
mIoU (test): 40.5
mIoU (val): 41.0
semantic-segmentation-on-imagenet-sSERE (ViT-B/16, 100ep, 224x224, SSL+FT)
mIoU (test): 63.3
mIoU (val): 63.0
semantic-segmentation-on-imagenet-sSERE (ViT-S/16, 100ep, 224x224, SSL+FT)
mIoU (test): 57.8
mIoU (val): 58.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SERE:面向自监督Transformer的特征自相关性探索 | 论文 | HyperAI超神经