3 个月前

LeYOLO:面向目标检测的新嵌入式架构

LeYOLO:面向目标检测的新嵌入式架构

摘要

在深度神经网络中实现高效计算对于实时目标检测至关重要。然而,近年来的性能提升主要依赖于高性能硬件的改进,而非模型参数量与浮点运算量(FLOP)效率的优化。这一趋势在最新的YOLO架构中尤为明显,其设计更侧重于检测速度,而非轻量化。因此,针对微控制器等资源受限环境优化的目标检测模型受到了较少关注。在计算能力受限的设备上,现有解决方案主要依赖SSDLite或低参数量分类器的组合,导致基于YOLO的架构与真正高效的轻量级检测器之间存在显著差距。这引发了一个关键问题:能否设计出在参数量和FLOP效率方面高度优化的模型,同时达到主流YOLO模型的检测精度?为回应这一挑战,本文以MSCOCO数据集作为基准验证集,提出两项关键贡献。首先,我们提出了LeNeck——一种通用的目标检测框架,其推理速度与SSDLite相当,同时显著提升了检测精度并大幅减少了模型参数量。其次,我们提出了LeYOLO,一种专为提升基于YOLO架构计算效率而设计的高效目标检测模型。LeYOLO有效弥合了基于SSDLite的检测器与YOLO模型之间的性能鸿沟,在模型规模上可与MobileNets相媲美,同时保持了高精度。两项贡献均特别适用于移动设备、嵌入式系统及超低功耗设备(包括微控制器),在计算资源受限场景下具备显著优势。

代码仓库

LilianHollard/LeYOLO
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-cocoLeYOLO-nano@480
GFLOPs: 1.47
object-detection-on-cocoLeYOLO-Medium@640
Params (M): 2.4
object-detection-on-cocoLeYOLO-Nano
GFLOPs: 0.66
Params (M): 1.1
object-detection-on-cocoLeYOLO-Small@480
GFLOPs: 2.53
Params (M): 1.9
box mAP: 35.2
object-detection-on-cocoLeYOLO-Large
GFLOPs: 8.4
Params (M): 2.4
box mAP: 41
object-detection-on-cocoLeYOLO-Nano@480
box mAP: 31.3
object-detection-on-cocoLeYOLO-Medium@480
GFLOPs: 3.27
Params (M): 2.4
box mAP: 36.4
object-detection-on-cocoLeYOLO-Small
GFLOPs: 4.5
Params (M): 1.9
box mAP: 38.2
object-detection-on-cocoLeYOLO-Small@320
GFLOPs: 1.126
box mAP: 29
object-detection-on-cocoLeYOLO-Nano@320
box mAP: 25.2
object-detection-on-cocoLeYOLO-Medium
GFLOPs: 5.8
box mAP: 39.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LeYOLO:面向目标检测的新嵌入式架构 | 论文 | HyperAI超神经