3 个月前

VOLO:面向视觉识别的视觉展望器

VOLO:面向视觉识别的视觉展望器

摘要

多年来,视觉识别领域一直由卷积神经网络(CNNs)主导。尽管近期主流的视觉Transformer(ViTs)在ImageNet分类任务中展现出基于自注意力机制模型的巨大潜力,但在未使用额外数据的情况下,其性能仍不及最新的SOTA CNN模型。在本工作中,我们致力于缩小这一性能差距,并证明基于注意力机制的模型确实具备超越CNN的能力。我们发现,制约ViTs在ImageNet分类任务中表现的关键因素在于其在将细粒度特征有效编码至token表示方面效率较低。为解决该问题,我们提出了一种新颖的“远景注意力”(outlook attention)机制,并设计了一种简洁且通用的网络架构,称为视觉远景器(Vision Outlooker, VOLO)。与侧重于粗粒度全局依赖建模的自注意力机制不同,远景注意力能够高效地将更细粒度的特征与上下文信息融入token表示中,这一特性被证实对识别性能具有关键提升作用,但长期以来被自注意力机制所忽视。实验结果表明,我们的VOLO在ImageNet-1K分类任务上达到了87.1%的Top-1准确率,是首个在该竞争性基准上突破87%准确率的模型,且无需使用任何额外训练数据。此外,预训练的VOLO在下游任务中也表现出良好的迁移能力,例如在Cityscapes验证集上实现了84.3%的mIoU得分,在ADE20K验证集上达到54.3%的mIoU得分。代码已开源,地址为:\url{https://github.com/sail-sg/volo}。

基准测试

基准方法指标
domain-generalization-on-vizwizVOLO-D5
Accuracy - All Images: 57.2
Accuracy - Clean Images: 59.7
Accuracy - Corrupted Images: 51.8
image-classification-on-imagenetVOLO-D5
GFLOPs: 412
Number of params: 296M
Top 1 Accuracy: 87.1%
image-classification-on-imagenetVOLO-D2
Number of params: 59M
Top 1 Accuracy: 86%
image-classification-on-imagenetVOLO-D1
Number of params: 27M
Top 1 Accuracy: 85.2%
image-classification-on-imagenetVOLO-D3
GFLOPs: 67.9
Number of params: 86M
Top 1 Accuracy: 86.3%
image-classification-on-imagenetVOLO-D4
GFLOPs: 197
Number of params: 193M
Top 1 Accuracy: 86.8%
image-classification-on-imagenet-realVOLO-D5
Accuracy: 90.6%
image-classification-on-imagenet-realVOLO-D4
Accuracy: 90.5%
image-classification-on-imagenet-v2VOLO-D4
Top 1 Accuracy: 77.8
image-classification-on-imagenet-v2VOLO-D5
Top 1 Accuracy: 78
image-classification-on-vizwiz-classificationVOLO-D5
Accuracy: 57.2
semantic-segmentation-on-ade20kVOLO-D5
Validation mIoU: 54.3
semantic-segmentation-on-cityscapes-valVOLO-D4 (MS, ImageNet1k pretrain)
mIoU: 84.3
semantic-segmentation-on-graz-02VOLO-D5
Pixel Accuracy: 85

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VOLO:面向视觉识别的视觉展望器 | 论文 | HyperAI超神经