3 个月前

HTML:面向指代视频目标分割的混合时间尺度多模态学习框架

HTML:面向指代视频目标分割的混合时间尺度多模态学习框架

摘要

参考视频对象分割(Referring Video Object Segmentation, RVOS)旨在根据对目标对象的文本描述,从给定视频中分割出该对象实例。然而,在开放世界场景中,对象描述在内容上往往多样化,且长度灵活多变。这一特性带来了RVOS的核心挑战:不同对象的描述对应视频中不同的时间尺度,而现有大多数方法采用单一帧采样步长,未能充分考虑这一时间尺度的差异。为解决该问题,本文提出一种简洁高效的混合时间尺度多模态学习框架(Hybrid Temporal-scale Multimodal Learning, HTML),通过在不同时间尺度上分层学习多模态交互,实现语言与视觉特征的有效对齐,从而挖掘视频中目标对象的核心语义。具体而言,我们设计了一种新颖的跨尺度多模态感知模块,使语言查询能够动态地与多时间尺度下的视觉特征进行交互,有效通过跨尺度传递视频上下文信息,缓解复杂对象间的混淆问题。在广泛使用的多个基准数据集上进行了大量实验,包括Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences,结果表明,所提出的HTML框架在所有数据集上均取得了当前最优的性能。

基准测试

基准方法指标
referring-video-object-segmentation-on-refHTML
F: 65.1
J: 59.2
Ju0026F: 62.1
referring-video-object-segmentation-on-referHTML-Video-SwinT
F: 63.0
J: 59.5
Ju0026F: 61.2
referring-video-object-segmentation-on-referHTML-SwinL
F: 65.3
J: 61.5
Ju0026F: 63.4
referring-video-object-segmentation-on-referHTML-Video-SwinB
F: 65.2
J: 61.5
Ju0026F: 63.4
referring-video-object-segmentation-on-referHTML-ResNet101
F: 59.8
J: 57.3
Ju0026F: 58.5
referring-video-object-segmentation-on-referHTML-ResNet50
F: 59.0
J: 56.5
Ju0026F: 57.8
referring-video-object-segmentation-on-referHTML-Video-SwinS
F: 62.9
J: 59.9
Ju0026F: 61.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HTML:面向指代视频目标分割的混合时间尺度多模态学习框架 | 论文 | HyperAI超神经