
摘要
指代视频目标分割旨在对给定语言表达所指代的物体进行分割。现有方法通常需要先将压缩视频码流解码为RGB帧,再进行分割,这一过程显著增加了计算与存储开销,最终导致推理速度下降。这在计算资源受限的实际应用场景(如自动驾驶汽车和无人机)中严重制约了该技术的部署与应用。为缓解这一问题,本文探索在压缩视频原始数据流上执行指代目标分割任务,即直接在压缩域内完成分割。除了视频指代目标分割任务本身固有的挑战外,从压缩视频中提取具有判别性的表示也极具难度。为此,本文提出一种多注意力网络(Multi-Attention Network),包含双路径双注意力模块与基于查询的跨模态Transformer模块。具体而言,双路径双注意力模块旨在从三种模态的压缩数据中提取有效特征:I帧、运动矢量(Motion Vector)和残差(Residual)。基于查询的跨模态Transformer首先建模语言与视觉模态之间的关联,随后利用融合后的多模态特征引导对象查询,生成具有内容感知能力的动态卷积核,并预测最终的分割掩码。与以往方法不同,本文仅学习单一卷积核,从而避免了现有方法中复杂的后处理掩码匹配步骤。在三个具有挑战性的数据集上进行的大量实验表明,所提方法在性能上显著优于多个针对RGB数据设计的先进方法。代码已开源,地址为:https://github.com/DexiangHong/MANet。
代码仓库
dexianghong/manet
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-a2d | MANET | AP: 0.471 IoU mean: 0.632 IoU overall: 0.726 Precision@0.5: 0.734 Precision@0.6: 0.682 Precision@0.7: 0.579 Precision@0.8: 0.389 Precision@0.9: 0.132 |
| referring-expression-segmentation-on-refer-1 | MANET | F: 56.51 J: 54.75 Ju0026F: 55.63 |