
摘要
语言查询视频角色分割旨在预测目标帧中执行自然语言查询所描述动作的角色的像素级掩码。现有方法通常在视频片段上采用3D卷积神经网络(3D CNN)作为通用编码器,以提取目标帧的混合时空特征。尽管3D卷积有助于识别执行查询动作的角色,但其不可避免地会引入相邻帧的时空信息错位,从而干扰目标帧的特征表示,导致分割结果不准确。为此,我们提出一种协同的时空编码器-解码器框架:在视频片段上使用3D时空编码器以识别查询动作,在目标帧上使用2D空间编码器以实现对查询角色的精确分割。在解码器中,我们设计了一种语言引导特征选择(Language-Guided Feature Selection, LGFS)模块,可灵活融合来自两个编码器的空间与时间特征。此外,我们还提出一种跨模态自适应调制(Cross-Modal Adaptive Modulation, CMAM)模块,用于在两个编码器的每一阶段动态重组与空间和时间相关联的语言特征,实现多模态特征的高效交互。所提方法在两个主流基准上均取得了新的最先进性能,且计算开销低于先前方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-a2d | Hui et al. | AP: 0.399 IoU mean: 0.561 IoU overall: 0.662 Precision@0.5: 0.654 Precision@0.6: 0.589 Precision@0.7: 0.497 Precision@0.8: 0.333 Precision@0.9: 0.091 |
| referring-expression-segmentation-on-j-hmdb | Hui et al. | AP: 0.335 IoU mean: 0.604 IoU overall: 0.598 Precision@0.5: 0.783 Precision@0.6: 0.639 Precision@0.7: 0.378 Precision@0.8: 0.076 Precision@0.9: 0.000 |