
摘要
本文研究了基于指代表达的视频目标分割(Video Object Segmentation from Referring Expressions, VOSRE)问题。传统方法通常基于语言特征与视觉编码器顶层提取的视觉特征进行多模态融合,这种做法限制了模型在不同语义和空间粒度层次上对多模态输入的表征能力。为解决这一问题,本文提出一种端到端的分层交互网络(Hierarchical Interaction Network, HINet),用于VOSRE任务。该模型利用视觉编码器生成的特征金字塔,构建多层级的多模态特征表示,从而在不同层次上更灵活地刻画各类语言概念(如对象属性与类别)。此外,我们进一步从光流输入中提取运动目标信号,并通过运动门控机制将其作为补充线索,以增强目标区域的突出性并抑制背景干扰。与以往方法不同,该策略使模型能够在无需整段视频作为输入的前提下实现在线预测。尽管结构简洁,所提出的HINet在DAVIS-16、DAVIS-17和J-HMDB数据集上的VOSRE任务中均显著优于现有最先进方法,充分验证了其有效性与通用性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-a2d | RefVOS | IoU mean: 0.497 IoU overall: 0.672 Precision@0.5: 0.578 Precision@0.6: 0.534 Precision@0.7: 0.456 Precision@0.8: 0.311 Precision@0.9: 0.093 |
| referring-expression-segmentation-on-a2d | HINet | IoU mean: 0.529 IoU overall: 0.679 Precision@0.5: 0.611 Precision@0.6: 0.559 Precision@0.7: 0.486 Precision@0.8: 0.342 Precision@0.9: 0.12 |
| referring-expression-segmentation-on-davis | HINet | Ju0026F 1st frame: 50.2 Ju0026F Full video: 47.9 |
| referring-expression-segmentation-on-j-hmdb | RefVOS | IoU mean: 0.568 IoU overall: 0.606 Precision@0.5: 0.731 Precision@0.6: 0.62 Precision@0.7: 0.392 Precision@0.8: 0.088 Precision@0.9: 0.0 |
| referring-expression-segmentation-on-j-hmdb | HINet | IoU mean: 0.627 IoU overall: 0.652 Precision@0.5: 0.819 Precision@0.6: 0.736 Precision@0.7: 0.542 Precision@0.8: 0.168 Precision@0.9: 0.4 |