3 个月前

在空间与时间空间中对每一个参考对象进行分割

{Ping Luo Zehuan Yuan Huchuan Lu Bin Yan Yi Jiang Jiannan Wu}

摘要

基于参考的物体分割任务，包括指代图像分割（Referring Image Segmentation, RIS）、指代视频物体分割（Referring Video Object Segmentation, RVOS）以及视频物体分割（Video Object Segmentation, VOS），旨在通过语言描述或标注的掩码作为参考，实现对特定目标的精准分割。尽管各领域均已取得显著进展，但现有方法多为针对特定任务独立设计与开发，发展方向各异，导致难以实现多任务能力的协同激活。为此，本文打破当前任务割裂的局面，提出UniRef框架，首次以单一统一架构融合三种基于参考的物体分割任务。本方法的核心在于引入多路融合机制，以适应不同任务对特定参考信息（如语言或掩码）的处理需求；同时采用统一的Transformer架构，实现实例级别的精确分割。得益于统一的设计范式，UniRef可在多种基准数据集上进行联合训练，并在运行时通过指定相应参考信息，灵活执行多项任务。我们在多个基准数据集上对联合训练的网络进行了评估，大量实验结果表明，所提出的UniRef在RIS和RVOS任务上均达到当前最优性能，在VOS任务上也展现出具有竞争力的性能，且仅依赖单一网络实现。

基准测试

基准	方法	指标
referring-expression-segmentation-on-refer-1	UniRef-L (Swin-L)	F: 69.2 J: 65.5 Ju0026F: 67.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供