3 个月前

基于语言查询的上下文调制动态网络用于演员与动作视频分割

基于语言查询的上下文调制动态网络用于演员与动作视频分割

摘要

基于语言查询的演员与动作视频分割旨在从视频中准确分割出语言描述所指的特定对象。该任务需要综合的语言推理能力以及细粒度的视频理解能力。以往的方法主要依赖动态卷积网络来对齐视觉特征与语义表示。然而,传统动态卷积在处理帧内每个区域时忽略了空间上下文信息,因此在复杂场景下难以区分外观相似的对象。为解决这一局限性,本文提出一种上下文调制的动态卷积网络。具体而言,在所提出的框架中,我们设计了一种上下文调制的动态卷积操作:针对特定区域的卷积核由语言描述和周围上下文特征共同生成,从而增强对局部语义与空间关系的建模能力。此外,我们还引入一个时序编码器,将运动信息融入视觉特征中,以进一步匹配语言查询的描述。在两个基准数据集——Actor-Action Dataset Sentences(A2D Sentences)和J-HMDB Sentences上的大量实验表明,所提出的方法显著优于当前最先进的技术水平。

基准测试

基准方法指标
referring-expression-segmentation-on-a2dCMDy
AP: 0.333
IoU mean: 0.531
IoU overall: 0.623
Precision@0.5: 0.607
Precision@0.6: 0.525
Precision@0.7: 0.405
Precision@0.8: 0.235
Precision@0.9: 0.045
referring-expression-segmentation-on-j-hmdbCMDy
AP: 0.301
IoU mean: 0.576
IoU overall: 0.554
Precision@0.5: 0.742
Precision@0.6: 0.587
Precision@0.7: 0.316
Precision@0.8: 0.047
Precision@0.9: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语言查询的上下文调制动态网络用于演员与动作视频分割 | 论文 | HyperAI超神经