
摘要
基于参考的物体分割任务,包括指代图像分割(Referring Image Segmentation, RIS)、指代视频物体分割(Referring Video Object Segmentation, RVOS)以及视频物体分割(Video Object Segmentation, VOS),旨在通过语言描述或标注的掩码作为参考,实现对特定目标的精准分割。尽管各领域均已取得显著进展,但现有方法多为针对特定任务独立设计与开发,发展方向各异,导致难以实现多任务能力的协同激活。为此,本文打破当前任务割裂的局面,提出UniRef框架,首次以单一统一架构融合三种基于参考的物体分割任务。本方法的核心在于引入多路融合机制,以适应不同任务对特定参考信息(如语言或掩码)的处理需求;同时采用统一的Transformer架构,实现实例级别的精确分割。得益于统一的设计范式,UniRef可在多种基准数据集上进行联合训练,并在运行时通过指定相应参考信息,灵活执行多项任务。我们在多个基准数据集上对联合训练的网络进行了评估,大量实验结果表明,所提出的UniRef在RIS和RVOS任务上均达到当前最优性能,在VOS任务上也展现出具有竞争力的性能,且仅依赖单一网络实现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refer-1 | UniRef-L (Swin-L) | F: 69.2 J: 65.5 Ju0026F: 67.4 |