
摘要
基于自然语言查询的演员与动作视频分割任务旨在根据输入的文本描述,从视频中选择性地分割出指定演员及其对应的动作。以往的方法主要通过动态卷积或全卷积分类网络来学习视觉与语言两种异构特征之间的简单相关性,但这类方法往往忽视了自然语言查询中存在的语言多样性问题,且难以有效建模全局视觉上下文,导致分割性能不理想。为解决上述问题,本文提出一种用于自然语言查询的演员与动作视频分割的非对称交叉引导注意力网络(Asymmetric Cross-Guided Attention Network)。该网络采用非对称结构,包含两个关键组件:视觉引导的语言注意力模块,用于抑制输入查询的语言多样性;以及语言引导的视觉注意力模块,用于融合与查询相关的全局视觉上下文信息。此外,本文还引入多分辨率特征融合策略,并设计针对前景与背景像素的加权损失函数,以进一步提升分割性能。在Actor-Action Dataset Sentences与J-HMDB Sentences两个基准数据集上的大量实验结果表明,所提出的方法显著优于当前最先进的方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-a2d | ACGA | AP: 0.274 IoU mean: 0.490 IoU overall: 0.601 Precision@0.5: 0.557 Precision@0.6: 0.459 Precision@0.7: 0.319 Precision@0.8: 0.16 Precision@0.9: 0.02 |
| referring-expression-segmentation-on-j-hmdb | ACGA | AP: 0.289 IoU mean: 0.584 IoU overall: 0.576 Precision@0.5: 0.756 Precision@0.6: 0.564 Precision@0.7: 0.287 Precision@0.8: 0.034 Precision@0.9: 0.000 |