3 个月前

短时锚点关联与长时自引导注意力用于视频目标检测

短时锚点关联与长时自引导注意力用于视频目标检测

摘要

我们提出一种新型网络架构,能够充分利用视频中蕴含的时空信息,以提升目标检测的精度。首先,通过关联并聚合来自相邻帧中同一锚框(anchor box)的检测建议框(proposal),实现框特征的初步融合。随后,我们设计了一种新型注意力模块,用于聚合短期增强的框特征,从而挖掘长期的时空信息。该模块首次在视频目标检测领域引入了对长期几何特征的利用。最后,一个时空双头结构被引入,其同时接收参考帧的空间信息以及融合了短期与长期时序上下文的聚合信息。我们在五个具有显著差异特性的视频目标检测数据集上对所提方法进行了测试,以验证其在多种场景下的鲁棒性。非参数统计检验结果表明,我们的方法优于当前最先进的技术。相关代码已开源,地址为:https://github.com/daniel-cores/SLTnet。

基准测试

基准方法指标
video-object-detection-on-imagenet-vidSLTnet FPN-X101
MAP : 82.4
video-object-detection-on-usc-grad-stddbSLTnet FPN-X101
AP: 16.6
AP 0.5: 44.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
短时锚点关联与长时自引导注意力用于视频目标检测 | 论文 | HyperAI超神经