3 个月前

用于视频目标检测的视频间候选关系挖掘

用于视频目标检测的视频间候选关系挖掘

摘要

近期研究表明,融合不同帧中候选区域(proposals)的上下文信息,能够显著提升视频目标检测的性能。然而,现有方法主要关注单个视频内部候选区域之间的关联关系,而忽略了跨视频候选区域间的内在联系,后者可为识别易混淆目标提供重要的判别性线索。为解决这一局限,本文提出一种新型的跨视频候选区域关系模块(Inter-Video Proposal Relation module)。该模块基于简洁的多层级三元组选择机制,通过建模不同视频间困难候选区域之间的关系,学习更具判别性的目标表示。此外,我们设计了一种分层视频关系网络(Hierarchical Video Relation Network, HVR-Net),以分层方式整合视频内部与跨视频的候选区域关系。该设计能够逐步挖掘并利用视频内与跨视频的上下文信息,从而有效提升视频目标检测性能。我们在大规模视频目标检测基准数据集ImageNet VID上对所提方法进行了验证,结果表明HVR-Net取得了当前最优(SOTA)的检测性能。相关代码与模型将在后续公开发布。

基准测试

基准方法指标
video-object-detection-on-imagenet-vidHVRNet (ResNeXt101-32x4d)
MAP : 85.5
video-object-detection-on-imagenet-vidHVRNet (ResNest101)
MAP : 83.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频目标检测的视频间候选关系挖掘 | 论文 | HyperAI超神经