FuYuqian ; WangYu ; PanYixuan ; HuaiLian ; QiuXingyu ; ShangguanZeyu ; LiuTong ; FuYanwei ; Van GoolLuc ; JiangXingqun

摘要
本文研究了具有挑战性的跨域少样本目标检测(CD-FSOD),旨在为新领域开发一种仅需少量标注样本即可实现高精度的目标检测器。尽管基于变压器的开放集检测器(如 DE-ViT)在传统的少样本目标检测中显示出潜力,但它们在跨域少样本目标检测中的泛化能力仍不清楚:1)这些开放集检测方法能否轻松泛化到 CD-FSOD?2)如果不能,当面对巨大的领域差异时,如何增强模型?为了回答第一个问题,我们采用了包括风格、类间方差(Inter-Class Variance, ICV)和不可定义边界(Indefinable Boundaries, IB)在内的多种度量来理解领域差异。基于这些度量,我们建立了一个新的基准测试集,命名为 CD-FSOD,用于评估目标检测方法。结果表明,大多数现有的方法在跨域情况下无法有效泛化。从技术角度观察,性能下降与我们提出的度量——风格、ICV 和 IB 密切相关。因此,我们提出了一系列创新模块来解决这些问题。首先,可学习的实例特征将初始固定的实例与目标类别对齐,增强了特征的区分性。其次,实例重加权模块为具有轻微 IB 的高质量实例分配更高的权重。最后,领域提示器通过合成想象中的领域而不改变语义内容,促使特征对不同风格具有更强的鲁棒性。这些技术共同推动了跨域视觉变压器 CD-ViTO 的开发,在 CD-FSOD 任务上显著提升了基础 DE-ViT 的性能。实验结果验证了我们模型的有效性。
代码仓库
lovelyqian/CDFSOD-benchmark
官方
pytorch
GitHub 中提及
LONGXUANX/CDFormer_code
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-domain-few-shot-object-detection-on | CD-ViTO | mAP: 60.5 |
| cross-domain-few-shot-object-detection-on-1 | CD-ViTO | mAP: 44.3 |
| cross-domain-few-shot-object-detection-on-2 | CD-ViTO | mAP: 30.8 |
| cross-domain-few-shot-object-detection-on-3 | CD-ViTO | mAP: 22.3 |
| cross-domain-few-shot-object-detection-on-4 | CD-ViTO | mAP: 7.0 |
| cross-domain-few-shot-object-detection-on-neu | CD-ViTO | mAP: 12.8 |
| few-shot-object-detection-on-ms-coco-10-shot | CD-ViTO | AP: 35.3 |
| few-shot-object-detection-on-ms-coco-30-shot | CD-ViTO | AP: 35.9 |