3 个月前

基于自然语言查询的演员与动作视频分割的非对称交叉引导注意力网络

基于自然语言查询的演员与动作视频分割的非对称交叉引导注意力网络

摘要

基于自然语言查询的演员与动作视频分割任务旨在根据输入的文本描述,从视频中选择性地分割出指定演员及其对应的动作。以往的方法主要通过动态卷积或全卷积分类网络来学习视觉与语言两种异构特征之间的简单相关性,但这类方法往往忽视了自然语言查询中存在的语言多样性问题,且难以有效建模全局视觉上下文,导致分割性能不理想。为解决上述问题,本文提出一种用于自然语言查询的演员与动作视频分割的非对称交叉引导注意力网络(Asymmetric Cross-Guided Attention Network)。该网络采用非对称结构,包含两个关键组件:视觉引导的语言注意力模块,用于抑制输入查询的语言多样性;以及语言引导的视觉注意力模块,用于融合与查询相关的全局视觉上下文信息。此外,本文还引入多分辨率特征融合策略,并设计针对前景与背景像素的加权损失函数,以进一步提升分割性能。在Actor-Action Dataset Sentences与J-HMDB Sentences两个基准数据集上的大量实验结果表明,所提出的方法显著优于当前最先进的方法。

基准测试

基准方法指标
referring-expression-segmentation-on-a2dACGA
AP: 0.274
IoU mean: 0.490
IoU overall: 0.601
Precision@0.5: 0.557
Precision@0.6: 0.459
Precision@0.7: 0.319
Precision@0.8: 0.16
Precision@0.9: 0.02
referring-expression-segmentation-on-j-hmdbACGA
AP: 0.289
IoU mean: 0.584
IoU overall: 0.576
Precision@0.5: 0.756
Precision@0.6: 0.564
Precision@0.7: 0.287
Precision@0.8: 0.034
Precision@0.9: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于自然语言查询的演员与动作视频分割的非对称交叉引导注意力网络 | 论文 | HyperAI超神经