6 个月前

摘要

近年来，得益于卷积神经网络（CNNs）和视觉Transformer（ViTs）的发展，视频目标检测取得了显著进展。通常情况下，CNN擅长捕捉局部特征，但在建模全局表征方面存在局限；而ViT则在捕捉长程全局特征方面表现优异，却难以精细表达局部特征细节。现有的视频目标检测方法大多仅依赖CNN或ViT进行特征聚合，难以同时充分利用全局与局部信息，因而检测性能受到制约。本文提出一种基于Transformer与图卷积网络融合的视频目标检测网络——Transformer-GraphFormer Blender Network（TGBFormer），通过三项关键技术改进，充分挖掘Transformer与图卷积网络的优势，同时弥补其各自缺陷。首先，我们设计了一种时空Transformer模块，用于聚合全局上下文信息，构建具有长距离特征依赖关系的全局表征。其次，引入一种时空GraphFormer模块，利用局部空间与时间关系进行特征聚合，生成与Transformer输出互补的新型局部表征。第三，我们提出一种全局-局部特征融合模块，可自适应地融合基于Transformer的全局表征与基于GraphFormer的局部表征。大量实验表明，所提出的TGBFormer在ImageNet VID数据集上取得了新的最先进性能。尤其值得一提的是，该模型在单张Tesla A100 GPU上实现了约41.0 FPS的推理速度，同时达到86.5%的mAP（平均精度均值），显著提升了检测精度与实时性。

源 PDF