
摘要
我们介绍了一种创新且高效的训练框架——DEIM,旨在加速基于Transformer架构(DETR)的实时目标检测模型的收敛速度。为了缓解DETR模型中一对一(O2O)匹配固有的稀疏监督问题,DEIM采用了密集O2O匹配策略。该方法通过引入额外的目标并使用标准的数据增强技术,增加了每张图像中的正样本数量。尽管密集O2O匹配可以加快收敛速度,但它也引入了大量低质量的匹配,可能影响性能。为了解决这一问题,我们提出了一种新的损失函数——Matchability-Aware Loss(MAL),该损失函数在不同质量水平上优化匹配,从而增强了密集O2O的有效性。在COCO数据集上的广泛实验验证了DEIM的有效性。当与RT-DETR和D-FINE结合时,DEIM不仅显著提升了性能,还使训练时间减少了50%。特别值得一提的是,与RT-DETRv2搭配使用时,DEIM仅需在NVIDIA 4090 GPU上训练一天即可达到53.2%的AP值。此外,经过DEIM训练的实时模型在性能上超过了领先的实时目标检测器,其中DEIM-D-FINE-L和DEIM-D-FINE-X分别在NVIDIA T4 GPU上以124 FPS和78 FPS的速度达到了54.7%和56.5%的AP值,而无需额外数据。我们认为DEIM为实时目标检测领域的进步设定了新的基准。我们的代码和预训练模型可在https://github.com/ShihuaHuang95/DEIM获取。
代码仓库
shihuahuang95/deim
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| real-time-object-detection-on-coco | DEIM-D-FINE-X+ | FPS (V100, b=1): 78 (T4) |
| real-time-object-detection-on-coco | DEIM-D-FINE-X+ | FPS (V100, b=1): 78 (T4) box AP: 59.5 |
| real-time-object-detection-on-coco | DEIM-D-FINE-S | FPS (V100, b=1): 287 (T4) box AP: 49.0 |
| real-time-object-detection-on-coco | DEIM-D-FINE-L | FPS (V100, b=1): 124 (T4) box AP: 54.7 |
| real-time-object-detection-on-coco | DEIM-D-FINE-X | FPS (V100, b=1): 78 (T4) box AP: 56.5 |
| real-time-object-detection-on-coco | DEIM-D-FINE-M | FPS (V100, b=1): 178 (T4) box AP: 52.7 |