
摘要
在视频帧出现外观退化的情况下,视频目标检测面临严峻挑战。因此,将同一视频中其他帧的时序信息聚合到当前帧中是一种自然且有效的解决方案。然而,作为视频检测器中最核心的模块之一,RoI Align 仍然仅从单帧特征图中提取候选区域(proposals)的特征,导致所提取的 RoI 特征缺乏来自视频的时序信息。针对这一问题,本文提出一种新型的时序 RoI Align 操作(Temporal RoI Align),利用视频中同一目标实例在不同帧间特征高度相似的特性,从其他帧的特征图中提取与当前帧候选区域对应的特征,从而实现对整个视频时序信息的有效捕获。该方法能够为当前帧的候选区域注入丰富的时序上下文信息。我们将该 Temporal RoI Align 模块集成至单帧视频检测器以及其他先进的视频检测器中,并通过大量定量实验验证了其在多个基准数据集上均能持续且显著提升检测性能。此外,该方法还可推广至视频实例分割任务中。相关代码已开源,地址为:https://github.com/open-mmlab/mmtracking。
代码仓库
open-mmlab/mmtracking
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-instance-segmentation-on-youtube-vis | Temporal ROI Align | mask AP: 38 |
| video-object-detection-on-epic-kitchens-1 | Temporal ROI Align | mAP: 39.6 |
| video-object-detection-on-epic-kitchens-seen | Temporal ROI Align | mAP: 42.2 |
| video-object-detection-on-imagenet-vid | Temporal ROI Align (ResNeXt101) | MAP : 84.3 |