摘要
我们提出了一种基于注意力机制的视频目标检测框架,该框架采用一种简单而高效的外部记忆管理算法。在视频目标检测任务中,注意力机制被用于利用相邻帧的信息来丰富关键帧的特征表示。尽管近期多项研究采用了帧级先进先出(FIFO)记忆结构以获取全局视频信息,但此类记忆结构存在信息收集效率低下的问题,导致注意力性能较差且计算开销较高。为解决这一问题,我们提出了一种新颖的方案——多样性感知特征聚合(Diversity-Aware Feature Aggregation, DAFA)。与现有方法在不扩大记忆容量的情况下难以存储充分特征信息不同,DAFA通过基于欧氏距离的简单度量方式,高效地聚合多样化特征,同时有效避免冗余。在ImageNet VID数据集上的实验结果表明,我们提出的轻量化模型结合全局注意力机制,在ResNet-101主干网络上实现了83.5 mAP的检测精度,显著优于大多数现有方法,且运行时间最低。进一步地,结合全局与局部注意力机制的改进版本在ResNet-101和ResNeXt-101主干网络上分别取得了84.5 mAP和85.9 mAP的优异表现,达到了当前最先进的性能水平,且无需依赖额外的后处理步骤。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-detection-on-imagenet-vid | DAFA-F (ResNet-101) | MAP : 84.5 |
| video-object-detection-on-imagenet-vid | DAFA-F (ResNeXt-101) | MAP : 85.9 |