4 个月前

ReferDINO:基于视觉定位的指代视频对象分割

ReferDINO:基于视觉定位的指代视频对象分割

摘要

参考视频对象分割(RVOS)旨在根据文本描述对视频中的目标对象进行分割。尽管近年来取得了显著进展,但当前的RVOS模型在处理复杂对象描述时仍面临挑战,这主要是由于其有限的视频-语言理解能力。为了解决这一问题,我们提出了ReferDINO,这是一种端到端的RVOS模型,继承了预训练视觉定位基础模型的强大视觉-语言理解能力,并进一步具备了有效的时序理解和对象分割能力。在ReferDINO中,我们贡献了三项技术创新,以有效适应基础模型到RVOS任务:对象一致性时序增强器:利用预训练的对象-文本表示来增强时序理解和对象一致性;基于定位的可变形掩码解码器:整合文本和定位条件生成精确的对象掩码;置信度感知查询剪枝策略:在不牺牲性能的前提下显著提高对象解码效率。我们在五个公开的RVOS基准数据集上进行了广泛的实验,结果表明我们提出的ReferDINO显著优于现有的最先进方法。项目页面:https://isee-laboratory.github.io/ReferDINO

基准测试

基准方法指标
referring-expression-segmentation-on-refer-1ReferDINO (Swin-B)
F: 71.5
J: 67.0
Ju0026F: 69.3
referring-video-object-segmentation-on-mevisReferDINO (Swin-B)
F: 53.9
J: 44.7
Ju0026F: 49.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ReferDINO:基于视觉定位的指代视频对象分割 | 论文 | HyperAI超神经