4 个月前

面向身份一致性的视频对象检测聚合方法

面向身份一致性的视频对象检测聚合方法

摘要

在视频目标检测(Video Object Detection, VID)中,一种常见的做法是利用视频中的丰富时间上下文来增强每一帧中的目标表示。现有的方法对从不同目标获得的时间上下文不做区分处理,忽略了它们的不同身份。而直观上,聚合同一目标在不同帧中的局部视图可能有助于更好地理解该目标。因此,在本文中,我们旨在使模型能够关注每个目标的身份一致性时间上下文,以获得更全面的目标表示,并处理诸如遮挡、运动模糊等快速变化的目标外观问题。然而,在现有VID模型基础上实现这一目标面临低效率的问题,主要是由于这些模型存在冗余区域提议和非并行的逐帧预测方式。为了解决这一问题,我们提出了ClipVID,这是一种配备了身份一致性聚合(Identity-Consistent Aggregation, ICA)层的VID模型,专门用于挖掘细粒度且身份一致的时间上下文。通过集合预测策略有效减少了冗余,使得ICA层非常高效,并进一步允许我们设计一个架构,实现对整个视频片段的并行剪辑预测。大量的实验结果证明了我们方法的优势:在ImageNet VID数据集上达到了最先进的性能(84.7% mAP),同时运行速度比之前的最先进方法快约7倍(39.3 fps)。

代码仓库

bladewaltz1/clipvid
官方
pytorch

基准测试

基准方法指标
video-object-detection-on-imagenet-vidClipVID
MAP : 85.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向身份一致性的视频对象检测聚合方法 | 论文 | HyperAI超神经