3 个月前

语言作为查询用于指代视频目标分割

语言作为查询用于指代视频目标分割

摘要

参考视频目标分割(Referring Video Object Segmentation, R-VOS)是一项新兴的跨模态任务,旨在根据语言描述在视频的所有帧中准确分割出对应的目标对象。本文提出了一种基于Transformer的简洁且统一的框架,称为ReferFormer。该方法将语言描述视为查询(queries),并直接关注视频帧中与之最相关的内容区域。具体而言,我们引入了一组数量较少、基于语言条件生成的对象查询作为Transformer的输入。通过这种方式,所有查询被强制仅用于定位被语言所指代的目标对象。这些查询最终被转换为动态核(dynamic kernels),以捕捉关键的对象级信息,并作为卷积滤波器,从特征图中生成分割掩码。由于查询在帧间具有天然的对应关系,因此目标跟踪过程也得以自然实现。这一机制极大简化了整体流程,且整个端到端框架与以往方法有显著差异。在Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences等多个基准数据集上的大量实验验证了ReferFormer的有效性。在Ref-Youtube-VOS数据集上,使用ResNet-50作为主干网络时,ReferFormer在不依赖额外技巧(bells and whistles)的情况下取得了55.6的J&F(平均交并比与F值)成绩,相比此前的最先进方法提升了8.4个百分点。此外,当采用强大的Swin-Large主干网络时,ReferFormer在所有现有方法中取得了最高的J&F值64.2。同时,在A2D-Sentences和JHMDB-Sentences数据集上,ReferFormer分别取得了55.0 mAP和43.7 mAP的优异表现,显著超越了先前方法,优势明显。代码已公开,可访问:https://github.com/wjn922/ReferFormer。

代码仓库

wjn922/referformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-a2dReferFormer (Video-Swin-B)
AP: 0.550
IoU mean: 0.703
IoU overall: 0.786
Precision@0.5: 0.831
Precision@0.6: 0.804
Precision@0.7: 0.741
Precision@0.8: 0.579
Precision@0.9: 0.212
referring-expression-segmentation-on-davisReferFormer
Ju0026F 1st frame: 61.1
referring-expression-segmentation-on-refer-1ReferFormer (ResNet-50)
F: 56.6
J: 54.8
Ju0026F: 55.6
referring-expression-segmentation-on-refer-1ReferFormer (ResNet-101)
F: 58.4
J: 56.1
Ju0026F: 57.3
referring-video-object-segmentation-on-mevisReferFormer
F: 32.2
J: 29.8
Ju0026F: 31.0
referring-video-object-segmentation-on-refReferFormer
F: 64.1
J: 58.1
Ju0026F: 61.1
referring-video-object-segmentation-on-referReferFormer (Large)
F: 64.6
J: 61.3
Ju0026F: 62.9
referring-video-object-segmentation-on-revosReferFormer (Video-Swin-B)
F: 29.9
J: 26.2
Ju0026F: 28.1
R: 8.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言作为查询用于指代视频目标分割 | 论文 | HyperAI超神经