
摘要
近年来,得益于卷积神经网络(CNNs)和视觉Transformer(ViTs)的发展,视频目标检测取得了显著进展。通常情况下,CNN擅长捕捉局部特征,但在建模全局表征方面存在局限;而ViT则在捕捉长程全局特征方面表现优异,却难以精细表达局部特征细节。现有的视频目标检测方法大多仅依赖CNN或ViT进行特征聚合,难以同时充分利用全局与局部信息,因而检测性能受到制约。本文提出一种基于Transformer与图卷积网络融合的视频目标检测网络——Transformer-GraphFormer Blender Network(TGBFormer),通过三项关键技术改进,充分挖掘Transformer与图卷积网络的优势,同时弥补其各自缺陷。首先,我们设计了一种时空Transformer模块,用于聚合全局上下文信息,构建具有长距离特征依赖关系的全局表征。其次,引入一种时空GraphFormer模块,利用局部空间与时间关系进行特征聚合,生成与Transformer输出互补的新型局部表征。第三,我们提出一种全局-局部特征融合模块,可自适应地融合基于Transformer的全局表征与基于GraphFormer的局部表征。大量实验表明,所提出的TGBFormer在ImageNet VID数据集上取得了新的最先进性能。尤其值得一提的是,该模型在单张Tesla A100 GPU上实现了约41.0 FPS的推理速度,同时达到86.5%的mAP(平均精度均值),显著提升了检测精度与实时性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-detection-on-imagenet-vid | TGBFormer (Swin B) | MAP : 90.3 |