
摘要
在深度神经网络中实现高效计算对于实时目标检测至关重要。然而,近年来的性能提升主要依赖于高性能硬件的改进,而非模型参数量与浮点运算量(FLOP)效率的优化。这一趋势在最新的YOLO架构中尤为明显,其设计更侧重于检测速度,而非轻量化。因此,针对微控制器等资源受限环境优化的目标检测模型受到了较少关注。在计算能力受限的设备上,现有解决方案主要依赖SSDLite或低参数量分类器的组合,导致基于YOLO的架构与真正高效的轻量级检测器之间存在显著差距。这引发了一个关键问题:能否设计出在参数量和FLOP效率方面高度优化的模型,同时达到主流YOLO模型的检测精度?为回应这一挑战,本文以MSCOCO数据集作为基准验证集,提出两项关键贡献。首先,我们提出了LeNeck——一种通用的目标检测框架,其推理速度与SSDLite相当,同时显著提升了检测精度并大幅减少了模型参数量。其次,我们提出了LeYOLO,一种专为提升基于YOLO架构计算效率而设计的高效目标检测模型。LeYOLO有效弥合了基于SSDLite的检测器与YOLO模型之间的性能鸿沟,在模型规模上可与MobileNets相媲美,同时保持了高精度。两项贡献均特别适用于移动设备、嵌入式系统及超低功耗设备(包括微控制器),在计算资源受限场景下具备显著优势。
代码仓库
LilianHollard/LeYOLO
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-coco | LeYOLO-nano@480 | GFLOPs: 1.47 |
| object-detection-on-coco | LeYOLO-Medium@640 | Params (M): 2.4 |
| object-detection-on-coco | LeYOLO-Nano | GFLOPs: 0.66 Params (M): 1.1 |
| object-detection-on-coco | LeYOLO-Small@480 | GFLOPs: 2.53 Params (M): 1.9 box mAP: 35.2 |
| object-detection-on-coco | LeYOLO-Large | GFLOPs: 8.4 Params (M): 2.4 box mAP: 41 |
| object-detection-on-coco | LeYOLO-Nano@480 | box mAP: 31.3 |
| object-detection-on-coco | LeYOLO-Medium@480 | GFLOPs: 3.27 Params (M): 2.4 box mAP: 36.4 |
| object-detection-on-coco | LeYOLO-Small | GFLOPs: 4.5 Params (M): 1.9 box mAP: 38.2 |
| object-detection-on-coco | LeYOLO-Small@320 | GFLOPs: 1.126 box mAP: 29 |
| object-detection-on-coco | LeYOLO-Nano@320 | box mAP: 25.2 |
| object-detection-on-coco | LeYOLO-Medium | GFLOPs: 5.8 box mAP: 39.3 |