
摘要
近年来,高精度卷积神经网络(CNN)的压缩技术在实时目标检测任务中取得了显著进展。为提升检测速度,轻量级检测器通常采用单路径主干网络(single-path backbone),仅包含少量卷积层。然而,单路径架构需持续进行池化和下采样操作,导致特征图分辨率降低、细节丢失,进而影响目标定位的准确性。另一方面,由于网络容量受限,现有轻量级网络在表征大尺度视觉数据方面能力较弱。为解决上述问题,本文提出一种双路径网络结构——DPNet,结合轻量级注意力机制,用于实现高效实时目标检测。该双路径架构可并行提取高层语义特征与低层物体细节信息,有效兼顾检测精度与速度。尽管DPNet的结构复杂度与单路径检测器相近,但其计算开销和模型尺寸并未显著增加。为增强特征表示能力,本文设计了一种轻量级自相关模块(Lightweight Self-Correlation Module, LSCM),能够捕获全局上下文交互信息,仅引入极少的计算开销与参数量。在特征融合阶段(neck),LSCM进一步扩展为轻量级交叉相关模块(Lightweight Cross-Correlation Module, LCCM),用于建模相邻尺度特征之间的相互依赖关系。我们在MS COCO和Pascal VOC 2007两个标准数据集上进行了全面实验。实验结果表明,DPNet在检测精度与实现效率之间实现了当前最优的权衡。具体而言,在MS COCO test-dev集上达到30.5%的AP,在Pascal VOC 2007测试集上达到81.5%的mAP,同时模型参数量仅为约2.5M,计算量为1.04 GFLOPs,对于320×320输入图像,分别实现164 FPS和196 FPS的推理速度,充分验证了其在实时性与精度上的优越性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-pascal-voc-2007 | DPNet | MAP: 79.2% |