4 个月前

基于语言指代表达的视频对象分割

基于语言指代表达的视频对象分割

摘要

大多数最先进的半监督视频对象分割方法依赖于为视频第一帧提供的目标对象的像素级精确掩膜。然而,获取详细的分割掩膜既昂贵又耗时。在这项工作中,我们探索了一种替代的目标对象识别方法,即通过使用语言指代表达来识别目标对象。除了是一种更为实用和自然的指出目标对象的方式外,使用语言描述还可以帮助避免漂移,并使系统在面对复杂动态和外观变化时更加鲁棒。利用近期图像领域的语言定位模型的进展,我们提出了一种将其扩展到视频数据的方法,以确保时间上的连贯预测。为了评估我们的方法,我们在流行的视频对象分割基准数据集DAVIS'16和DAVIS'17中增加了目标对象的语言描述。实验结果表明,我们的基于语言监督的方法在DAVIS'16上的性能与那些可以访问目标对象像素级掩膜的方法相当,并且在具有挑战性的DAVIS'17数据集上与使用涂鸦的方法具有竞争力。

基准测试

基准方法指标
referring-expression-segmentation-on-davisKhoreva et al.
Ju0026F 1st frame: 39.3
Ju0026F Full video: 37.1
video-object-segmentation-on-davis-2016VOSwL (Language)
mIoU: 82.8
video-object-segmentation-on-davis-2016VOSwL (Mask+Language)
mIoU: 84.5
video-object-segmentation-on-davis-2017VOSwL (Mask+Language)
Ju0026F: 62.2
mIoU: 59
visual-object-tracking-on-davis-2016VOSwL
F-measure (Decay): 8.6
F-measure (Mean): 84.2
F-measure (Recall): 93.9
Ju0026F: 83.65
Jaccard (Decay): 6.9
Jaccard (Mean): 83.1
Jaccard (Recall): 95.7
visual-object-tracking-on-davis-2017VOSwL
F-measure (Decay): 24.5
F-measure (Mean): 63.5
F-measure (Recall): 70.4
Jaccard (Decay): 22.4
Jaccard (Recall): 66.1
visual-object-tracking-on-davis-2017VOSwL (Language)
Ju0026F: 60.8
Jaccard (Mean): 58.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语言指代表达的视频对象分割 | 论文 | HyperAI超神经