3 个月前

RN-VID:一种用于视频目标检测的特征融合架构

RN-VID:一种用于视频目标检测的特征融合架构

摘要

视频中连续帧之间具有高度冗余性。因此,若在视频目标检测任务中对每一帧均独立运行单帧检测器而完全不复用任何信息,将造成极大的资源浪费。基于这一思想,我们提出了RN-VID(全称为RetinaNet-VIDeo),一种新颖的视频目标检测方法。本文的主要贡献有两点:第一,我们提出了一种新架构,能够有效利用邻近帧的信息以增强特征图;第二,我们设计了一种新颖的模块,通过通道重排(channel reordering)与1×1卷积操作,实现相同尺寸特征图的高效融合。实验结果表明,RN-VID在推理阶段仅引入极少额外开销的情况下,即可获得优于对应单帧检测器的平均精度均值(mAP)。

代码仓库

hu64/RN-VID
官方
GitHub 中提及

基准测试

基准方法指标
object-detection-on-ua-detracRN-VID
mAP: 70.57
object-detection-on-uavdtRN-VID
mAP: 39.43

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RN-VID:一种用于视频目标检测的特征融合架构 | 论文 | HyperAI超神经