6 个月前

摘要

音频引导的视频目标分割（Audio-guided Video Object Segmentation, A-VOS）与指代表达视频目标分割（Referring Video Object Segmentation, R-VOS）是两项高度相关的任务，均旨在根据表达性提示从视频序列中分割出特定目标对象。然而，由于跨模态表征建模的挑战，现有方法难以在模态间交互的灵活性与定位精度之间取得平衡。本文从两个角度出发解决该问题：一是音频与文本模态之间的对齐，二是音频、文本与视觉模态之间的深度交互。首先，我们提出一种通用架构——表达提示协同Transformer（Expression Prompt Collaboration Transformer，简称EPCFormer）。其次，我们设计了一种表达对齐（Expression Alignment, EA）机制，用于实现音频与文本模态间的有效对齐。所提出的EPCFormer利用指向同一目标的音频与文本提示在语义上具有等价性的特点，通过对比学习分别建模两类表达，从而增强模态间的一致性。为进一步促进音频、文本与视觉模态之间的深度交互，我们引入了表达-视觉注意力（Expression-Visual Attention, EVA）模块。该模块通过深入挖掘文本与音频之间的互补线索，使基于表达提示的视频目标分割知识能够在A-VOS与R-VOS任务间实现无缝迁移。在多个公认基准数据集上的实验结果表明，所提出的EPCFormer在两项任务上均取得了当前最优的性能表现。项目源代码将公开发布于：https://github.com/lab206/EPCFormer。

源 PDF