3 个月前

基于语言查询的视频角色分割的协作时空建模

基于语言查询的视频角色分割的协作时空建模

摘要

语言查询视频角色分割旨在预测目标帧中执行自然语言查询所描述动作的角色的像素级掩码。现有方法通常在视频片段上采用3D卷积神经网络(3D CNN)作为通用编码器,以提取目标帧的混合时空特征。尽管3D卷积有助于识别执行查询动作的角色,但其不可避免地会引入相邻帧的时空信息错位,从而干扰目标帧的特征表示,导致分割结果不准确。为此,我们提出一种协同的时空编码器-解码器框架:在视频片段上使用3D时空编码器以识别查询动作,在目标帧上使用2D空间编码器以实现对查询角色的精确分割。在解码器中,我们设计了一种语言引导特征选择(Language-Guided Feature Selection, LGFS)模块,可灵活融合来自两个编码器的空间与时间特征。此外,我们还提出一种跨模态自适应调制(Cross-Modal Adaptive Modulation, CMAM)模块,用于在两个编码器的每一阶段动态重组与空间和时间相关联的语言特征,实现多模态特征的高效交互。所提方法在两个主流基准上均取得了新的最先进性能,且计算开销低于先前方法。

基准测试

基准方法指标
referring-expression-segmentation-on-a2dHui et al.
AP: 0.399
IoU mean: 0.561
IoU overall: 0.662
Precision@0.5: 0.654
Precision@0.6: 0.589
Precision@0.7: 0.497
Precision@0.8: 0.333
Precision@0.9: 0.091
referring-expression-segmentation-on-j-hmdbHui et al.
AP: 0.335
IoU mean: 0.604
IoU overall: 0.598
Precision@0.5: 0.783
Precision@0.6: 0.639
Precision@0.7: 0.378
Precision@0.8: 0.076
Precision@0.9: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语言查询的视频角色分割的协作时空建模 | 论文 | HyperAI超神经