
摘要
现代目标检测器充分利用了在大规模数据集上预训练的主干网络。然而,除了主干网络之外,检测头(detector head)和特征金字塔网络(Feature Pyramid Network, FPN)等其他组件仍通常从零开始训练,这限制了表征模型潜力的充分挖掘。在本研究中,我们提出将预训练的Transformer编码器-解码器(imTED)整体迁移至检测器中,构建一条“完全预训练”的特征提取路径,从而最大化检测器的泛化能力。与基线检测器相比,imTED的核心差异体现在两个方面:(1)将预训练的Transformer解码器迁移至检测头,并移除特征提取路径中随机初始化的FPN;(2)引入多尺度特征调制器(Multi-scale Feature Modulator, MFM),以增强模型对不同尺度特征的适应能力。上述设计不仅显著减少了随机初始化参数的数量,还实现了检测训练与表征学习的有意统一。在MS COCO目标检测数据集上的实验表明,imTED在各项指标上始终优于现有方法,平均精度(AP)提升约2.4。在不依赖复杂技巧(bells and whistles)的前提下,imTED将少样本目标检测的性能提升至新的SOTA水平,最高提升达7.6 AP。代码已开源,地址为:https://github.com/LiewFeng/imTED。
代码仓库
yuhongtian17/spatial-transform-decoupling
pytorch
GitHub 中提及
liewfeng/imted
官方
pytorch
GitHub 中提及
bohao-lee/pdc
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-object-detection-on-ms-coco-10-shot | imTED+ViT-S | AP: 15.0 |
| few-shot-object-detection-on-ms-coco-10-shot | imTED+ViT-B | AP: 22.5 |
| few-shot-object-detection-on-ms-coco-30-shot | imTED+ViT-B | AP: 30.2 |
| few-shot-object-detection-on-ms-coco-30-shot | imTED+ViT-S | AP: 21.0 |