6 个月前

摘要

我们提出了一种基于注意力机制的视频目标检测框架，该框架采用一种简单而高效的外部记忆管理算法。在视频目标检测任务中，注意力机制被用于利用相邻帧的信息来丰富关键帧的特征表示。尽管近期多项研究采用了帧级先进先出（FIFO）记忆结构以获取全局视频信息，但此类记忆结构存在信息收集效率低下的问题，导致注意力性能较差且计算开销较高。为解决这一问题，我们提出了一种新颖的方案——多样性感知特征聚合（Diversity-Aware Feature Aggregation, DAFA）。与现有方法在不扩大记忆容量的情况下难以存储充分特征信息不同，DAFA通过基于欧氏距离的简单度量方式，高效地聚合多样化特征，同时有效避免冗余。在ImageNet VID数据集上的实验结果表明，我们提出的轻量化模型结合全局注意力机制，在ResNet-101主干网络上实现了83.5 mAP的检测精度，显著优于大多数现有方法，且运行时间最低。进一步地，结合全局与局部注意力机制的改进版本在ResNet-101和ResNeXt-101主干网络上分别取得了84.5 mAP和85.9 mAP的优异表现，达到了当前最先进的性能水平，且无需依赖额外的后处理步骤。

源 PDF