3 个月前

针对指代图像分割的全面多模态交互

针对指代图像分割的全面多模态交互

摘要

我们研究了指代图像分割(Referring Image Segmentation, RIS),该任务旨在根据自然语言描述生成对应的分割图。高效解决RIS问题需要同时考虑视觉与语言模态之间的跨模态交互,以及各模态内部的 intra-modal 交互。现有方法存在局限性:要么以串行方式依次计算不同形式的交互(导致误差传播),要么完全忽略模态内部的交互。为克服这一局限,我们提出一种同步多模态融合模块(Synchronous Multi-Modal Fusion Module, SFM),实现三种交互的并行处理。此外,为生成更精细的分割掩码,我们设计了一种新型分层跨模态聚合模块(Hierarchical Cross-Modal Aggregation Module, HCAM),其中语言特征驱动视觉层次结构中上下文信息的高效传递与交换。我们在四个基准数据集上进行了全面的消融实验,验证了所提方法的有效性,结果表明其在性能上显著超越现有最先进(State-of-the-Art, SOTA)方法。

代码仓库

kanji95/SHNET
官方
pytorch

基准测试

基准方法指标
referring-expression-segmentation-on-refcocoSHNet
Overall IoU: 65.32
Precision@0.5: 75.18
Precision@0.6: 69.36
Precision@0.7: 61.21
Precision@0.8: 46.16
Precision@0.9: 16.23
referring-expression-segmentation-on-refcoco-3SHNet
Overall IoU: 52.75
referring-expression-segmentation-on-refcoco-4SHNet
Overall IoU: 58.46
referring-expression-segmentation-on-refcoco-5SHNet
Overall IoU: 44.12
referring-expression-segmentation-on-refcocogSHNet
Overall IoU: 49.90
referring-expression-segmentation-on-referitSHNet
Overall IoU: 69.19

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
针对指代图像分割的全面多模态交互 | 论文 | HyperAI超神经