3 个月前

基于跨模态自注意力网络的图像与视频指代分割

基于跨模态自注意力网络的图像与视频指代分割

摘要

我们研究图像与视频中基于自然语言的指代表达分割问题。给定一张输入图像(或视频)及一个指代表达,目标是从图像或视频中分割出该表达所指代的实体。本文提出一种跨模态自注意力(Cross-Modal Self-Attention, CMSA)模块,能够有效利用单个词汇的细粒度语义信息以及输入图像或视频的视觉特征,从而捕捉语言特征与视觉特征之间的长距离依赖关系。所提模型可自适应地聚焦于指代表达中的关键词汇以及视觉输入中的重要区域。此外,我们进一步设计了一种门控多层级融合(Gated Multi-Level Fusion, GMLF)模块,用于有选择性地融合对应于不同视觉层级的自注意力跨模态特征。该模块通过融合高层与低层语义信息,对不同层级特征的信息流进行调控,实现对多尺度视觉语义的精准整合。针对视频场景,我们还引入了跨帧自注意力(Cross-Frame Self-Attention, CFSA)模块,以高效整合连续帧间的时序信息,从而将方法拓展至视频指代表达分割任务。在四个主流图像指代表达分割数据集以及两个演员与动作视频分割数据集上的大量实验结果表明,所提出的模型在各项指标上均显著优于现有最先进方法,验证了其有效性与优越性。

基准测试

基准方法指标
referring-expression-segmentation-on-a2dCMSA+CFSA
IoU mean: 0.432
IoU overall: 0.618
Precision@0.5: 0.487
Precision@0.6: 0.431
Precision@0.7: 0.358
Precision@0.8: 0.231
Precision@0.9: 0.052
referring-expression-segmentation-on-j-hmdbCMSA+CFSA
IoU mean: 0.581
IoU overall: 0.628
Precision@0.5: 0.764
Precision@0.6: 0.625
Precision@0.7: 0.389
Precision@0.8: 0.09
Precision@0.9: 0.001

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于跨模态自注意力网络的图像与视频指代分割 | 论文 | HyperAI超神经