6 个月前

摘要

基于参考的物体分割任务，包括指代图像分割（Referring Image Segmentation, RIS）、少样本图像分割（Few-Shot Image Segmentation, FSS）、指代视频物体分割（Referring Video Object Segmentation, RVOS）以及视频物体分割（Video Object Segmentation, VOS），旨在通过语言描述或标注的掩码作为参考，实现对特定目标的精确分割。尽管各领域均取得了显著进展，但现有方法大多为特定任务量身定制，发展路径各异，导致难以实现多任务协同能力的充分发挥。本文打破这一碎片化局面，提出UniRef++，首次以统一的架构整合上述四项基于参考的物体分割任务。本方法的核心是提出的UniFusion模块，该模块通过多路融合机制，灵活适配不同任务所对应的参考类型（如语言或掩码）。在此基础上，采用统一的Transformer架构实现实例级分割。得益于统一的设计范式，UniRef++可在多种基准数据集上进行联合训练，并在运行时通过指定相应参考，灵活完成多项任务。我们在多个基准数据集上对所提出的统一模型进行了评估，实验结果表明，UniRef++在RIS和RVOS任务上达到当前最优性能，在FSS和VOS任务上也展现出具有竞争力的表现，且在参数共享的网络结构下实现了高效部署。此外，我们进一步验证了所提出的UniFusion模块可轻松集成至当前先进的基础模型SAM（Segment Anything Model）中，仅通过参数高效的微调即可获得令人满意的性能提升。代码与模型已开源，详见：\url{https://github.com/FoundationVision/UniRef}。

源 PDF