3 个月前

Jigsaw-ViT:在视觉Transformer中学习拼图任务

Jigsaw-ViT:在视觉Transformer中学习拼图任务

摘要

视觉Transformer(Vision Transformer, ViT)在各类计算机视觉任务中取得的成功,推动了这种无卷积网络的广泛应用。由于ViT基于图像块(image patches)进行处理,使其在拼图谜题(jigsaw puzzle)求解问题上具有天然的适用性。拼图谜题是一类经典的自监督学习任务,旨在将被打乱顺序的图像块重新排列回其原始自然状态。尽管形式简单,但已有研究表明,解决拼图问题对多种基于卷积神经网络(CNNs)的任务具有显著帮助,例如自监督特征表示学习、领域泛化以及细粒度分类。本文提出将拼图谜题作为视觉Transformer的自监督辅助损失任务,构建名为Jigsaw-ViT的模型。我们发现,通过两个简单但有效的修改,可使Jigsaw-ViT在性能上超越标准ViT:一是移除位置编码(positional embeddings),二是对图像块进行随机掩码(random masking)。尽管方法简洁,实验结果表明,Jigsaw-ViT在提升模型泛化能力的同时,也显著增强了对噪声标签和对抗样本的鲁棒性,而这两者在标准ViT中通常存在权衡关系。在大规模图像分类任务上,我们在ImageNet数据集上的实验验证了,引入拼图谜题分支的Jigsaw-ViT相较于标准ViT具有更优的泛化性能。此外,该辅助任务在Animal-10N、Food-101N和Clothing1M等包含噪声标签的数据集上,均有效提升了模型对噪声标签的鲁棒性,同时在对抗样本攻击下也表现出更强的稳定性。相关代码已开源,可通过以下链接访问:https://yingyichen-cyy.github.io/Jigsaw-ViT/

代码仓库

yingyichen-cyy/JigsawViT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-clothing1mJigsaw-ViT+NCT
Accuracy: 75.4%
learning-with-noisy-labels-on-animalJigsaw-ViT
Accuracy: 89.0
ImageNet Pretrained: NO
Network: DeiT-S

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Jigsaw-ViT:在视觉Transformer中学习拼图任务 | 论文 | HyperAI超神经