3 个月前

PeCo:用于视觉Transformer的BERT预训练的感知码本

PeCo:用于视觉Transformer的BERT预训练的感知码本

摘要

本文探讨了视觉Transformer模型BERT预训练中更优的预测目标。我们观察到,当前的预测目标与人类感知判断存在矛盾。这一矛盾促使我们探索一种基于感知的预测目标。我们认为,在预测目标空间中,感知上相似的图像应保持彼此接近。令人意外的是,我们发现一个简单而有效的方法:在变分自编码器(dVAE)训练过程中引入感知相似性约束。此外,我们采用自监督的Transformer模型进行深层特征提取,并证明其在计算感知相似性方面表现优异。实验表明,所学习得到的视觉token确实具备更丰富的语义含义,能够显著提升预训练模型在各类下游任务中的迁移性能。例如,在使用ViT-B作为主干网络的情况下,我们在ImageNet-1K数据集上取得了84.5%的Top-1准确率,相较于具有竞争力的BEiT方法,在相同预训练轮次下提升了+1.3%。我们的方法在COCO数据集上的目标检测与分割任务,以及ADE20K数据集上的语义分割任务中均取得了显著提升。当采用更大规模的主干网络ViT-H时,我们在仅使用ImageNet-1K数据的条件下,达到了88.3%的ImageNet准确率,刷新了当前仅依赖ImageNet-1K数据的最优性能记录。

代码仓库

xyzforever/bevt
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetPeCo (ViT-H, 224)
Top 1 Accuracy: 87.5%
self-supervised-image-classification-on-1PeCo(ViT-H/14, 448)
Number of Params: 632M
Top 1 Accuracy: 88.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PeCo:用于视觉Transformer的BERT预训练的感知码本 | 论文 | HyperAI超神经