6 个月前

摘要

指代视频目标分割旨在对给定语言表达所指代的物体进行分割。现有方法通常需要先将压缩视频码流解码为RGB帧，再进行分割，这一过程显著增加了计算与存储开销，最终导致推理速度下降。这在计算资源受限的实际应用场景（如自动驾驶汽车和无人机）中严重制约了该技术的部署与应用。为缓解这一问题，本文探索在压缩视频原始数据流上执行指代目标分割任务，即直接在压缩域内完成分割。除了视频指代目标分割任务本身固有的挑战外，从压缩视频中提取具有判别性的表示也极具难度。为此，本文提出一种多注意力网络（Multi-Attention Network），包含双路径双注意力模块与基于查询的跨模态Transformer模块。具体而言，双路径双注意力模块旨在从三种模态的压缩数据中提取有效特征：I帧、运动矢量（Motion Vector）和残差（Residual）。基于查询的跨模态Transformer首先建模语言与视觉模态之间的关联，随后利用融合后的多模态特征引导对象查询，生成具有内容感知能力的动态卷积核，并预测最终的分割掩码。与以往方法不同，本文仅学习单一卷积核，从而避免了现有方法中复杂的后处理掩码匹配步骤。在三个具有挑战性的数据集上进行的大量实验表明，所提方法在性能上显著优于多个针对RGB数据设计的先进方法。代码已开源，地址为：https://github.com/DexiangHong/MANet。

源 PDF