
摘要
先前的研究通常将不同的视觉模态(如图像、视频和单视角3D数据)分别独立处理,并为每种模态设计专用的识别架构。与此不同,本文提出了一种统一的模型——Omnivore,该模型仅使用完全相同的模型参数,即可在图像、视频以及单视角3D数据的分类任务中均表现出色。Omnivore模型充分利用了基于Transformer架构的灵活性,并在来自不同模态的分类任务上进行联合训练。该模型训练过程简单,仅需使用现成的标准数据集,且在相同规模下,其性能达到或优于各类特定模态的专用模型。单一的Omnivore模型在ImageNet上达到86.0%的准确率,在Kinetics上达到84.1%,在SUN RGB-D数据集上达到67.1%。经过微调后,我们的模型在多种视觉任务上超越了现有方法,并展现出良好的跨模态泛化能力。Omnivore共享的视觉表征机制使得跨模态识别成为可能,且无需依赖模态之间的对应关系。我们希望本研究的结果能够激励更多研究者探索将多种视觉模态统一建模的新路径。
代码仓库
facebookresearch/omnivore
官方
pytorch
GitHub 中提及
towhee-io/towhee
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | OMNIVORE (Swin-B) | Acc@1: 84.0 Acc@5: 96.2 |
| action-classification-on-kinetics-400 | OMNIVORE (Swin-L) | Acc@1: 84.1 Acc@5: 96.1 |
| action-recognition-in-videos-on-something | OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain) | Top-1 Accuracy: 71.4 Top-5 Accuracy: 93.5 |
| action-recognition-on-epic-kitchens-100 | OMNIVORE (Swin-B, finetuned) | Action@1: 49.9 Noun@1: 61.7 Verb@1: 69.5 |
| image-classification-on-imagenet | Omnivore (Swin-L) | Top 1 Accuracy: 86.0% |
| image-classification-on-imagenet | Omnivore (Swin-B) | Top 1 Accuracy: 85.3% |
| image-classification-on-inaturalist-2018 | OMNIVORE (Swin-L) | Top-1 Accuracy: 84.1% |
| scene-recognition-on-sun-rgbd | OMNIVORE (Swin-B) | Accuracy (%): 67.2 |
| semantic-segmentation-on-nyu-depth-v2 | OMNIVORE (Swin-B, finetuned) | Mean IoU: 55.1% |
| semantic-segmentation-on-nyu-depth-v2 | OMNIVORE (Swin-L, finetuned) | Mean IoU: 56.8% |