
摘要
本文提出了一种增强DETR(DEtection TRansformer)收敛性和性能的通用方案。我们从一个新的角度研究了变压器中的缓慢收敛问题,指出该问题源于自注意力机制对输入没有引入结构偏差。为了解决这一问题,我们探索了将位置关系先验作为注意力偏置来增强目标检测的方法,并通过提出的定量宏观相关性(MC)指标验证了其统计显著性。我们的方法称为Relation-DETR,引入了一个编码器来构建位置关系嵌入,以逐步改进注意力机制,进一步将传统的DETR流水线扩展为对比关系流水线,以解决非重复预测与正监督之间的冲突。在通用数据集和特定任务数据集上的大量实验表明了我们方法的有效性。在相同的配置下,Relation-DETR相比DINO实现了显著的性能提升(+2.0% AP),达到了最先进的性能水平(1x设置下的AP为51.7%,2x设置下的AP为52.1%),并且在COCO val2017上比现有的DETR检测器具有更快的收敛速度(仅需2个训练周期即可达到超过40%的AP)。此外,所提出的关联编码器作为一个通用的即插即用组件,可以为理论上任何类似DETR的方法带来明显的改进。此外,我们还引入了一个类别无关的目标检测数据集SA-Det-100k。在该数据集上的实验结果表明,所提出的显式位置关系实现了1.3% AP的明显提升,突显了其在通用目标检测方面的潜力。代码和数据集可在https://github.com/xiuqhou/Relation-DETR获取。
代码仓库
xiuqhou/Salience-DETR
pytorch
xiuqhou/relation-detr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-coco | Relation-DETR (Focal-L) | AP50: 80.8 AP75: 69.1 APL: 77.0 APM: 66.9 APS: 47.2 Params (M): 214 box mAP: 63.5 |
| object-detection-on-coco-2017-val | Relation-DETR (ResNet50 2x) | AP: 52.1 AP50: 69.7 AP75: 56.6 APL: 66.5 APM: 56.0 APS: 36.1 |
| object-detection-on-coco-2017-val | Relation-DETR (Swin-L 2x) | AP: 58.1 AP50: 76.4 AP75: 63.5 APL: 73.5 APM: 63.0 APS: 41.8 |
| object-detection-on-coco-2017-val | Relation-DETR (ResNet50 1x) | AP: 51.7 AP50: 69.1 AP75: 56.3 APL: 66.1 APM: 55.6 APS: 36.1 |
| object-detection-on-coco-2017-val | Relation-DETR (Swin-L 1x) | AP: 57.8 AP50: 76.1 AP75: 62.9 APL: 74.4 APM: 62.1 APS: 41.2 |
| object-detection-on-sa-det-100k | Relation-DETR (ResNet50 1x) | AP: 45.0 AP50: 53.1 AP75: 48.9 APL: 62.9 APM: 44.4 APS: 6.0 |