3 个月前

OmniVore:一种适用于多种视觉模态的单一模型

OmniVore:一种适用于多种视觉模态的单一模型

摘要

先前的研究通常将不同的视觉模态(如图像、视频和单视角3D数据)分别独立处理,并为每种模态设计专用的识别架构。与此不同,本文提出了一种统一的模型——Omnivore,该模型仅使用完全相同的模型参数,即可在图像、视频以及单视角3D数据的分类任务中均表现出色。Omnivore模型充分利用了基于Transformer架构的灵活性,并在来自不同模态的分类任务上进行联合训练。该模型训练过程简单,仅需使用现成的标准数据集,且在相同规模下,其性能达到或优于各类特定模态的专用模型。单一的Omnivore模型在ImageNet上达到86.0%的准确率,在Kinetics上达到84.1%,在SUN RGB-D数据集上达到67.1%。经过微调后,我们的模型在多种视觉任务上超越了现有方法,并展现出良好的跨模态泛化能力。Omnivore共享的视觉表征机制使得跨模态识别成为可能,且无需依赖模态之间的对应关系。我们希望本研究的结果能够激励更多研究者探索将多种视觉模态统一建模的新路径。

代码仓库

facebookresearch/omnivore
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400OMNIVORE (Swin-B)
Acc@1: 84.0
Acc@5: 96.2
action-classification-on-kinetics-400OMNIVORE (Swin-L)
Acc@1: 84.1
Acc@5: 96.1
action-recognition-in-videos-on-somethingOMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)
Top-1 Accuracy: 71.4
Top-5 Accuracy: 93.5
action-recognition-on-epic-kitchens-100OMNIVORE (Swin-B, finetuned)
Action@1: 49.9
Noun@1: 61.7
Verb@1: 69.5
image-classification-on-imagenetOmnivore (Swin-L)
Top 1 Accuracy: 86.0%
image-classification-on-imagenetOmnivore (Swin-B)
Top 1 Accuracy: 85.3%
image-classification-on-inaturalist-2018OMNIVORE (Swin-L)
Top-1 Accuracy: 84.1%
scene-recognition-on-sun-rgbdOMNIVORE (Swin-B)
Accuracy (%): 67.2
semantic-segmentation-on-nyu-depth-v2OMNIVORE (Swin-B, finetuned)
Mean IoU: 55.1%
semantic-segmentation-on-nyu-depth-v2OMNIVORE (Swin-L, finetuned)
Mean IoU: 56.8%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OmniVore:一种适用于多种视觉模态的单一模型 | 论文 | HyperAI超神经