3 个月前

跨模态渐进式理解用于指代分割

跨模态渐进式理解用于指代分割

摘要

给定一个自然语言表达式和一张图像或视频,指代分割(referring segmentation)的目标是生成由表达式主语所描述实体的像素级掩码。以往的方法通常采用单阶段的方式,通过隐式地在视觉与语言模态之间进行特征交互与融合来解决该问题。然而,人类在解决指代问题时往往采取渐进式的认知过程:基于表达式中的关键信息词,首先粗略定位可能的候选实体,再逐步区分出目标实体。本文提出一种跨模态渐进式理解(Cross-Modal Progressive Comprehension, CMPC)框架,旨在有效模拟人类的认知行为,并将其分别实现为适用于图像的CMPC-I模块和适用于视频的CMPC-V模块,以提升指代图像与视频分割模型的性能。针对图像数据,CMPC-I模块首先利用实体词和属性词感知表达式可能涉及的所有相关实体;随后,通过关系词结合空间图推理机制,突出目标实体并抑制其他无关实体。针对视频数据,CMPC-V模块在CMPC-I的基础上进一步引入动作词,借助时间图推理机制,定位与动作线索相匹配的正确实体。此外,本文还提出一种简单而有效的文本引导特征交换(Text-Guided Feature Exchange, TGFE)模块,该模块在文本信息的引导下,整合视觉骨干网络中不同层次的推理后多模态特征。通过该机制,多层级特征能够在文本语境的指导下实现相互交流与协同优化。将CMPC-I或CMPC-V与TGFE相结合,即可构建出适用于图像或视频的指代分割框架。实验结果表明,所提出的框架在四个指代图像分割基准数据集和三个指代视频分割基准数据集上均取得了新的最先进(SOTA)性能。

代码仓库

基准测试

基准方法指标
referring-expression-segmentation-on-a2dCMPC-V (R2D)
AP: 0.351
IoU mean: 0.515
IoU overall: 0.649
Precision@0.5: 0.590
Precision@0.6: 0.527
Precision@0.7: 0.434
Precision@0.8: 0.284
Precision@0.9: 0.068
referring-expression-segmentation-on-a2dCMPC-V (I3D)
AP: 0.404
IoU mean: 0.573
IoU overall: 0.653
Precision@0.5: 0.655
Precision@0.6: 0.592
Precision@0.7: 0.506
Precision@0.8: 0.342
Precision@0.9: 0.098
referring-expression-segmentation-on-j-hmdbCMPC-V
AP: 0.342
IoU mean: 0.617
IoU overall: 0.616
Precision@0.5: 0.813
Precision@0.6: 0.657
Precision@0.7: 0.371
Precision@0.8: 0.07
Precision@0.9: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨模态渐进式理解用于指代分割 | 论文 | HyperAI超神经