
摘要
什么是物体?这一直是计算机视觉领域的一个长期问题。为了评估物体性,已经开发了多种无需学习和基于学习的方法。然而,这些方法通常在新领域和新物体上扩展性不佳。本文中,我们主张现有方法缺乏由人类可理解的语义自上而下的监督信号。首次在文献中,我们证明了使用对齐的图像-文本对训练的多模态视觉变压器(MViT)可以有效弥合这一差距。我们在不同领域和新物体上的广泛实验表明,MViT 在图像中定位通用物体方面表现出最先进的性能。鉴于现有的 MViT 通常不包含多尺度特征处理且通常需要更长的训练时间,我们开发了一种高效的 MViT 架构,该架构采用了多尺度可变形注意力机制和后期视觉-语言融合技术。我们展示了 MViT 提案在包括开放世界物体检测、显著性和伪装物体检测、有监督和无监督检测任务在内的多种应用中的重要性。此外,MViT 可以根据特定的语言查询自适应地生成提案,从而提供增强的交互能力。代码:\url{https://git.io/J1HPY}。
代码仓库
mmaaz60/mvits_for_class_agnostic_od
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-pascal-voc-10 | DETReg (MDef-DETR) | AP: 58.78 AP50: 80.46 AP75: 65.65 |
| object-detection-on-pascal-voc-2007 | DETReg (MDef-DETR) | AP50: 84.16 MAP: 84.16% |
| object-proposal-generation-on-coco | MDef-DETR (Off-the-shelf evaluation) | Average Recall: 0.6503 |
| object-proposal-generation-on-pascal-voc-2012 | MDef-DETR | Average Recall: 0.9126 |
| open-world-object-detection-on-coco-2017 | ORE (MDef-DETR) | A-OSE: 5212 MAP: 46.19 Unknown Recall: 49.54 WI: 0.0251 |
| open-world-object-detection-on-coco-2017-1 | ORE (MDef-DETR) | A-OSE: 4117 MAP: 36.75 Unknown Recall: 50.89 WI: 0.0179 |
| open-world-object-detection-on-coco-2017-2 | ORE (MDef-DETR) | MAP: 31.66 |
| open-world-object-detection-on-pascal-voc | ORE (MDef-DETR) | A-OSE: 7322 MAP: 64.03 Unknown Recall: 50.13 WI: 0.0474 |