3 个月前

用于视频目标识别的时间域RoI对齐

用于视频目标识别的时间域RoI对齐

摘要

在视频帧出现外观退化的情况下,视频目标检测面临严峻挑战。因此,将同一视频中其他帧的时序信息聚合到当前帧中是一种自然且有效的解决方案。然而,作为视频检测器中最核心的模块之一,RoI Align 仍然仅从单帧特征图中提取候选区域(proposals)的特征,导致所提取的 RoI 特征缺乏来自视频的时序信息。针对这一问题,本文提出一种新型的时序 RoI Align 操作(Temporal RoI Align),利用视频中同一目标实例在不同帧间特征高度相似的特性,从其他帧的特征图中提取与当前帧候选区域对应的特征,从而实现对整个视频时序信息的有效捕获。该方法能够为当前帧的候选区域注入丰富的时序上下文信息。我们将该 Temporal RoI Align 模块集成至单帧视频检测器以及其他先进的视频检测器中,并通过大量定量实验验证了其在多个基准数据集上均能持续且显著提升检测性能。此外,该方法还可推广至视频实例分割任务中。相关代码已开源,地址为:https://github.com/open-mmlab/mmtracking。

代码仓库

基准测试

基准方法指标
video-instance-segmentation-on-youtube-visTemporal ROI Align
mask AP: 38
video-object-detection-on-epic-kitchens-1Temporal ROI Align
mAP: 39.6
video-object-detection-on-epic-kitchens-seenTemporal ROI Align
mAP: 42.2
video-object-detection-on-imagenet-vidTemporal ROI Align (ResNeXt101)
MAP : 84.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频目标识别的时间域RoI对齐 | 论文 | HyperAI超神经