3 个月前

DiffusionVID:基于时空条件的去噪目标框用于视频目标检测

DiffusionVID:基于时空条件的去噪目标框用于视频目标检测

摘要

现有的多种静态图像目标检测器在视频序列中面临图像退化问题,例如运动模糊、相机失焦以及部分遮挡等。本文提出一种基于扩散模型的视频目标检测方法——DiffusionVID,该方法利用时空条件引导机制。受扩散模型的启发,DiffusionVID通过逐步将随机噪声框(noise boxes)去噪并优化,以恢复视频序列中原始的目标边界框。为有效从退化视频帧中精炼出准确的边界框,我们提出了三种创新方法:级联精炼(cascade refinement)、动态核心集条件引导(dynamic core-set conditioning)以及局部批量精炼(local batch refinement)。其中,级联精炼架构能够高效聚合目标区域的上下文信息;动态核心集条件引导则基于时空核心集(spatio-temporal core-set)自适应地生成条件引导信号,进一步提升去噪质量;局部批量精炼通过充分利用GPU的并行计算能力,显著加速了精炼过程。在广泛使用且标准的ImageNet-VID基准测试中,采用ResNet-101和Swin-Base作为主干网络的DiffusionVID分别实现了86.9 mAP @ 46.6 FPS和92.4 mAP @ 27.0 FPS的性能,达到当前最先进水平。据作者所知,这是首个基于扩散模型的视频目标检测器。相关代码与模型已开源,地址为:https://github.com/sdroh1027/DiffusionVID。

基准测试

基准方法指标
video-object-detection-on-imagenet-vidDiffusionVID (ResNet-101)
MAP : 87.1
video-object-detection-on-imagenet-vidDiffusionVID (Swin-B)
MAP : 92.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供