4 个月前

类别无关的目标检测与多模态变压器

类别无关的目标检测与多模态变压器

摘要

什么是物体?这一直是计算机视觉领域的一个长期问题。为了评估物体性,已经开发了多种无需学习和基于学习的方法。然而,这些方法通常在新领域和新物体上扩展性不佳。本文中,我们主张现有方法缺乏由人类可理解的语义自上而下的监督信号。首次在文献中,我们证明了使用对齐的图像-文本对训练的多模态视觉变压器(MViT)可以有效弥合这一差距。我们在不同领域和新物体上的广泛实验表明,MViT 在图像中定位通用物体方面表现出最先进的性能。鉴于现有的 MViT 通常不包含多尺度特征处理且通常需要更长的训练时间,我们开发了一种高效的 MViT 架构,该架构采用了多尺度可变形注意力机制和后期视觉-语言融合技术。我们展示了 MViT 提案在包括开放世界物体检测、显著性和伪装物体检测、有监督和无监督检测任务在内的多种应用中的重要性。此外,MViT 可以根据特定的语言查询自适应地生成提案,从而提供增强的交互能力。代码:\url{https://git.io/J1HPY}。

代码仓库

mmaaz60/mvits_for_class_agnostic_od
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-pascal-voc-10DETReg (MDef-DETR)
AP: 58.78
AP50: 80.46
AP75: 65.65
object-detection-on-pascal-voc-2007DETReg (MDef-DETR)
AP50: 84.16
MAP: 84.16%
object-proposal-generation-on-cocoMDef-DETR (Off-the-shelf evaluation)
Average Recall: 0.6503
object-proposal-generation-on-pascal-voc-2012MDef-DETR
Average Recall: 0.9126
open-world-object-detection-on-coco-2017ORE (MDef-DETR)
A-OSE: 5212
MAP: 46.19
Unknown Recall: 49.54
WI: 0.0251
open-world-object-detection-on-coco-2017-1ORE (MDef-DETR)
A-OSE: 4117
MAP: 36.75
Unknown Recall: 50.89
WI: 0.0179
open-world-object-detection-on-coco-2017-2ORE (MDef-DETR)
MAP: 31.66
open-world-object-detection-on-pascal-vocORE (MDef-DETR)
A-OSE: 7322
MAP: 64.03
Unknown Recall: 50.13
WI: 0.0474

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
类别无关的目标检测与多模态变压器 | 论文 | HyperAI超神经