3 个月前

URVOS:基于大规模基准的统一指代视频对象分割网络

URVOS:基于大规模基准的统一指代视频对象分割网络

摘要

我们提出了一种统一的指代性视频目标分割网络(Unified Referring Video Object Segmentation, URVOS)。URVOS以视频和指代表达式作为输入,能够在整个视频帧中估计出由给定语言表达所指代的{目标掩码}。为解决这一具有挑战性的问题,我们的算法通过一个单一的深度神经网络,结合两种注意力机制的合理设计,实现了基于语言的目标分割与掩码传播的联合建模。此外,我们构建了首个大规模指代性视频目标分割数据集——Refer-Youtube-VOS。我们在两个基准数据集(包括我们自建的数据集)上对模型进行了评估,充分验证了所提方法的有效性。该数据集已公开发布于:https://github.com/skynbe/Refer-Youtube-VOS。

基准测试

基准方法指标
referring-expression-segmentation-on-davisURVOS + Refer-Youtube-VOS + ft. DAVIS
Ju0026F 1st frame: 51.63
referring-expression-segmentation-on-davisURVOS + Refer-Youtube-VOS
Ju0026F 1st frame: 46.85
referring-expression-segmentation-on-davisURVOS
Ju0026F 1st frame: 44.1
referring-expression-segmentation-on-refer-1URVOS
F: 50.8
J: 47.0
Ju0026F: 48.9
referring-video-object-segmentation-on-mevisURVOS
F: 29.9
J: 25.7
Ju0026F: 27.8
referring-video-object-segmentation-on-refURVOS
F: 56.0
J: 47.3
Ju0026F: 51.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
URVOS:基于大规模基准的统一指代视频对象分割网络 | 论文 | HyperAI超神经