3 个月前

UniRef++:在时空空间中对每一参考对象进行分割

UniRef++:在时空空间中对每一参考对象进行分割

摘要

基于参考的物体分割任务,包括指代图像分割(Referring Image Segmentation, RIS)、少样本图像分割(Few-Shot Image Segmentation, FSS)、指代视频物体分割(Referring Video Object Segmentation, RVOS)以及视频物体分割(Video Object Segmentation, VOS),旨在通过语言描述或标注的掩码作为参考,实现对特定目标的精确分割。尽管各领域均取得了显著进展,但现有方法大多为特定任务量身定制,发展路径各异,导致难以实现多任务协同能力的充分发挥。本文打破这一碎片化局面,提出UniRef++,首次以统一的架构整合上述四项基于参考的物体分割任务。本方法的核心是提出的UniFusion模块,该模块通过多路融合机制,灵活适配不同任务所对应的参考类型(如语言或掩码)。在此基础上,采用统一的Transformer架构实现实例级分割。得益于统一的设计范式,UniRef++可在多种基准数据集上进行联合训练,并在运行时通过指定相应参考,灵活完成多项任务。我们在多个基准数据集上对所提出的统一模型进行了评估,实验结果表明,UniRef++在RIS和RVOS任务上达到当前最优性能,在FSS和VOS任务上也展现出具有竞争力的表现,且在参数共享的网络结构下实现了高效部署。此外,我们进一步验证了所提出的UniFusion模块可轻松集成至当前先进的基础模型SAM(Segment Anything Model)中,仅通过参数高效的微调即可获得令人满意的性能提升。代码与模型已开源,详见:\url{https://github.com/FoundationVision/UniRef}。

基准测试

基准方法指标
referring-expression-segmentation-on-refer-1UniRef++-L
F: 69.0
J: 64.8
Ju0026F: 66.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniRef++:在时空空间中对每一参考对象进行分割 | 论文 | HyperAI超神经