3 个月前

表达提示协作Transformer用于通用指代视频目标分割

表达提示协作Transformer用于通用指代视频目标分割

摘要

音频引导的视频目标分割(Audio-guided Video Object Segmentation, A-VOS)与指代表达视频目标分割(Referring Video Object Segmentation, R-VOS)是两项高度相关的任务,均旨在根据表达性提示从视频序列中分割出特定目标对象。然而,由于跨模态表征建模的挑战,现有方法难以在模态间交互的灵活性与定位精度之间取得平衡。本文从两个角度出发解决该问题:一是音频与文本模态之间的对齐,二是音频、文本与视觉模态之间的深度交互。首先,我们提出一种通用架构——表达提示协同Transformer(Expression Prompt Collaboration Transformer,简称EPCFormer)。其次,我们设计了一种表达对齐(Expression Alignment, EA)机制,用于实现音频与文本模态间的有效对齐。所提出的EPCFormer利用指向同一目标的音频与文本提示在语义上具有等价性的特点,通过对比学习分别建模两类表达,从而增强模态间的一致性。为进一步促进音频、文本与视觉模态之间的深度交互,我们引入了表达-视觉注意力(Expression-Visual Attention, EVA)模块。该模块通过深入挖掘文本与音频之间的互补线索,使基于表达提示的视频目标分割知识能够在A-VOS与R-VOS任务间实现无缝迁移。在多个公认基准数据集上的实验结果表明,所提出的EPCFormer在两项任务上均取得了当前最优的性能表现。项目源代码将公开发布于:https://github.com/lab206/EPCFormer。

基准测试

基准方法指标
referring-expression-segmentation-on-refer-1EPCFormer (ViT-H)
F: 67.2
J: 62.9
Ju0026F: 65

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
表达提示协作Transformer用于通用指代视频目标分割 | 论文 | HyperAI超神经