
摘要
所提出的YOLO-Former方法将Transformer架构与YOLOv4的优势有机结合,构建了一个高精度且高效的物体检测系统。该方法充分利用了YOLOv4的快速推理速度,并通过引入卷积注意力机制与Transformer模块,融合了Transformer架构在特征建模方面的优势。实验结果表明,该方法具有显著的有效性:在Pascal VOC数据集上达到了85.76%的平均精度均值(mAP),同时保持了较高的预测速度,帧率高达10.85帧/秒。本研究的贡献在于验证了这一前沿技术的创新性融合,为物体检测领域带来了进一步性能提升的可能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-pascal-voc-2007 | YOLO-Former | MAP: 86.01% |
| object-detection-on-pascal-voc-2012 | YOLO-Former | MAP: 86.01 |