
摘要
参考视频对象分割(Referring Video Object Segmentation, RVOS)旨在根据对目标对象的文本描述,从给定视频中分割出该对象实例。然而,在开放世界场景中,对象描述在内容上往往多样化,且长度灵活多变。这一特性带来了RVOS的核心挑战:不同对象的描述对应视频中不同的时间尺度,而现有大多数方法采用单一帧采样步长,未能充分考虑这一时间尺度的差异。为解决该问题,本文提出一种简洁高效的混合时间尺度多模态学习框架(Hybrid Temporal-scale Multimodal Learning, HTML),通过在不同时间尺度上分层学习多模态交互,实现语言与视觉特征的有效对齐,从而挖掘视频中目标对象的核心语义。具体而言,我们设计了一种新颖的跨尺度多模态感知模块,使语言查询能够动态地与多时间尺度下的视觉特征进行交互,有效通过跨尺度传递视频上下文信息,缓解复杂对象间的混淆问题。在广泛使用的多个基准数据集上进行了大量实验,包括Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences,结果表明,所提出的HTML框架在所有数据集上均取得了当前最优的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-video-object-segmentation-on-ref | HTML | F: 65.1 J: 59.2 Ju0026F: 62.1 |
| referring-video-object-segmentation-on-refer | HTML-Video-SwinT | F: 63.0 J: 59.5 Ju0026F: 61.2 |
| referring-video-object-segmentation-on-refer | HTML-SwinL | F: 65.3 J: 61.5 Ju0026F: 63.4 |
| referring-video-object-segmentation-on-refer | HTML-Video-SwinB | F: 65.2 J: 61.5 Ju0026F: 63.4 |
| referring-video-object-segmentation-on-refer | HTML-ResNet101 | F: 59.8 J: 57.3 Ju0026F: 58.5 |
| referring-video-object-segmentation-on-refer | HTML-ResNet50 | F: 59.0 J: 56.5 Ju0026F: 57.8 |
| referring-video-object-segmentation-on-refer | HTML-Video-SwinS | F: 62.9 J: 59.9 Ju0026F: 61.4 |