8 个月前

摘要

我们介绍了一种创新且高效的训练框架——DEIM，旨在加速基于Transformer架构（DETR）的实时目标检测模型的收敛速度。为了缓解DETR模型中一对一（O2O）匹配固有的稀疏监督问题，DEIM采用了密集O2O匹配策略。该方法通过引入额外的目标并使用标准的数据增强技术，增加了每张图像中的正样本数量。尽管密集O2O匹配可以加快收敛速度，但它也引入了大量低质量的匹配，可能影响性能。为了解决这一问题，我们提出了一种新的损失函数——Matchability-Aware Loss（MAL），该损失函数在不同质量水平上优化匹配，从而增强了密集O2O的有效性。在COCO数据集上的广泛实验验证了DEIM的有效性。当与RT-DETR和D-FINE结合时，DEIM不仅显著提升了性能，还使训练时间减少了50%。特别值得一提的是，与RT-DETRv2搭配使用时，DEIM仅需在NVIDIA 4090 GPU上训练一天即可达到53.2%的AP值。此外，经过DEIM训练的实时模型在性能上超过了领先的实时目标检测器，其中DEIM-D-FINE-L和DEIM-D-FINE-X分别在NVIDIA T4 GPU上以124 FPS和78 FPS的速度达到了54.7%和56.5%的AP值，而无需额外数据。我们认为DEIM为实时目标检测领域的进步设定了新的基准。我们的代码和预训练模型可在https://github.com/ShihuaHuang95/DEIM获取。

源 PDF