3 个月前

基于文本的视频分割中的演员与动作模块化网络

基于文本的视频分割中的演员与动作模块化网络

摘要

基于文本的视频分割旨在通过文本查询指定特定演员及其执行的动作,从而对视频序列中的目标演员进行分割。以往的方法由于存在语义不对称(semantic asymmetry)问题,难以在细粒度层面显式地将视频内容与文本查询在演员及其动作层面进行对齐。所谓“语义不对称”指的是在多模态融合过程中,两种模态(视频与文本)所包含的语义信息量不一致,导致匹配效果受限。为缓解该问题,我们提出一种新型的演员与动作解耦网络架构,通过两个独立模块分别定位演员及其动作。具体而言,我们首先从视频和文本查询中分别提取与演员和动作相关的内容,随后以对称的方式进行匹配,从而精确定位目标时序管(target tube)。该目标管包含所期望的演员及其动作,随后被输入全卷积网络,以预测演员的分割掩码。此外,我们引入了一种新颖的时序提议聚合机制(temporal proposal aggregation mechanism),有效建立跨多帧物体之间的关联,从而保证分割结果在时间维度上的一致性。整个模型支持演员-动作匹配与分割任务的联合学习,在A2D Sentences和J-HMDB Sentences数据集上均取得了单帧分割与全视频分割的最先进性能。

基准测试

基准方法指标
referring-expression-segmentation-on-a2dAAMN
AP: 0.396
IoU mean: 0.552
IoU overall: 0.617
Precision@0.5: 0.681
Precision@0.6: 0.629
Precision@0.7: 0.523
Precision@0.8: 0.296
Precision@0.9: 0.029
referring-expression-segmentation-on-j-hmdbAAMN
AP: 0.321
IoU mean: 0.576
IoU overall: 0.583
Precision@0.5: 0.773
Precision@0.6: 0.627
Precision@0.7: 0.360
Precision@0.8: 0.044
Precision@0.9: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于文本的视频分割中的演员与动作模块化网络 | 论文 | HyperAI超神经