3 个月前

TGBFormer:用于视频目标检测的Transformer-GraphFormer 混合网络

TGBFormer:用于视频目标检测的Transformer-GraphFormer 混合网络

摘要

近年来,得益于卷积神经网络(CNNs)和视觉Transformer(ViTs)的发展,视频目标检测取得了显著进展。通常情况下,CNN擅长捕捉局部特征,但在建模全局表征方面存在局限;而ViT则在捕捉长程全局特征方面表现优异,却难以精细表达局部特征细节。现有的视频目标检测方法大多仅依赖CNN或ViT进行特征聚合,难以同时充分利用全局与局部信息,因而检测性能受到制约。本文提出一种基于Transformer与图卷积网络融合的视频目标检测网络——Transformer-GraphFormer Blender Network(TGBFormer),通过三项关键技术改进,充分挖掘Transformer与图卷积网络的优势,同时弥补其各自缺陷。首先,我们设计了一种时空Transformer模块,用于聚合全局上下文信息,构建具有长距离特征依赖关系的全局表征。其次,引入一种时空GraphFormer模块,利用局部空间与时间关系进行特征聚合,生成与Transformer输出互补的新型局部表征。第三,我们提出一种全局-局部特征融合模块,可自适应地融合基于Transformer的全局表征与基于GraphFormer的局部表征。大量实验表明,所提出的TGBFormer在ImageNet VID数据集上取得了新的最先进性能。尤其值得一提的是,该模型在单张Tesla A100 GPU上实现了约41.0 FPS的推理速度,同时达到86.5%的mAP(平均精度均值),显著提升了检测精度与实时性。

基准测试

基准方法指标
video-object-detection-on-imagenet-vidTGBFormer (Swin B)
MAP : 90.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TGBFormer:用于视频目标检测的Transformer-GraphFormer 混合网络 | 论文 | HyperAI超神经