3 个月前

用于压缩视频指代对象分割的多注意力网络

用于压缩视频指代对象分割的多注意力网络

摘要

指代视频目标分割旨在对给定语言表达所指代的物体进行分割。现有方法通常需要先将压缩视频码流解码为RGB帧,再进行分割,这一过程显著增加了计算与存储开销,最终导致推理速度下降。这在计算资源受限的实际应用场景(如自动驾驶汽车和无人机)中严重制约了该技术的部署与应用。为缓解这一问题,本文探索在压缩视频原始数据流上执行指代目标分割任务,即直接在压缩域内完成分割。除了视频指代目标分割任务本身固有的挑战外,从压缩视频中提取具有判别性的表示也极具难度。为此,本文提出一种多注意力网络(Multi-Attention Network),包含双路径双注意力模块与基于查询的跨模态Transformer模块。具体而言,双路径双注意力模块旨在从三种模态的压缩数据中提取有效特征:I帧、运动矢量(Motion Vector)和残差(Residual)。基于查询的跨模态Transformer首先建模语言与视觉模态之间的关联,随后利用融合后的多模态特征引导对象查询,生成具有内容感知能力的动态卷积核,并预测最终的分割掩码。与以往方法不同,本文仅学习单一卷积核,从而避免了现有方法中复杂的后处理掩码匹配步骤。在三个具有挑战性的数据集上进行的大量实验表明,所提方法在性能上显著优于多个针对RGB数据设计的先进方法。代码已开源,地址为:https://github.com/DexiangHong/MANet。

代码仓库

dexianghong/manet
官方
pytorch

基准测试

基准方法指标
referring-expression-segmentation-on-a2dMANET
AP: 0.471
IoU mean: 0.632
IoU overall: 0.726
Precision@0.5: 0.734
Precision@0.6: 0.682
Precision@0.7: 0.579
Precision@0.8: 0.389
Precision@0.9: 0.132
referring-expression-segmentation-on-refer-1MANET
F: 56.51
J: 54.75
Ju0026F: 55.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于压缩视频指代对象分割的多注意力网络 | 论文 | HyperAI超神经