3 个月前

DAFA:面向注意力机制的视频目标检测的多样性感知特征聚合

DAFA:面向注意力机制的视频目标检测的多样性感知特征聚合

摘要

我们提出了一种基于注意力机制的视频目标检测框架,该框架采用一种简单而高效的外部记忆管理算法。在视频目标检测任务中,注意力机制被用于利用相邻帧的信息来丰富关键帧的特征表示。尽管近期多项研究采用了帧级先进先出(FIFO)记忆结构以获取全局视频信息,但此类记忆结构存在信息收集效率低下的问题,导致注意力性能较差且计算开销较高。为解决这一问题,我们提出了一种新颖的方案——多样性感知特征聚合(Diversity-Aware Feature Aggregation, DAFA)。与现有方法在不扩大记忆容量的情况下难以存储充分特征信息不同,DAFA通过基于欧氏距离的简单度量方式,高效地聚合多样化特征,同时有效避免冗余。在ImageNet VID数据集上的实验结果表明,我们提出的轻量化模型结合全局注意力机制,在ResNet-101主干网络上实现了83.5 mAP的检测精度,显著优于大多数现有方法,且运行时间最低。进一步地,结合全局与局部注意力机制的改进版本在ResNet-101和ResNeXt-101主干网络上分别取得了84.5 mAP和85.9 mAP的优异表现,达到了当前最先进的性能水平,且无需依赖额外的后处理步骤。

基准测试

基准方法指标
video-object-detection-on-imagenet-vidDAFA-F (ResNet-101)
MAP : 84.5
video-object-detection-on-imagenet-vidDAFA-F (ResNeXt-101)
MAP : 85.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DAFA:面向注意力机制的视频目标检测的多样性感知特征聚合 | 论文 | HyperAI超神经