3 个月前

基于指代表达的视频对象分割的分层交互网络

基于指代表达的视频对象分割的分层交互网络

摘要

本文研究了基于指代表达的视频目标分割(Video Object Segmentation from Referring Expressions, VOSRE)问题。传统方法通常基于语言特征与视觉编码器顶层提取的视觉特征进行多模态融合,这种做法限制了模型在不同语义和空间粒度层次上对多模态输入的表征能力。为解决这一问题,本文提出一种端到端的分层交互网络(Hierarchical Interaction Network, HINet),用于VOSRE任务。该模型利用视觉编码器生成的特征金字塔,构建多层级的多模态特征表示,从而在不同层次上更灵活地刻画各类语言概念(如对象属性与类别)。此外,我们进一步从光流输入中提取运动目标信号,并通过运动门控机制将其作为补充线索,以增强目标区域的突出性并抑制背景干扰。与以往方法不同,该策略使模型能够在无需整段视频作为输入的前提下实现在线预测。尽管结构简洁,所提出的HINet在DAVIS-16、DAVIS-17和J-HMDB数据集上的VOSRE任务中均显著优于现有最先进方法,充分验证了其有效性与通用性。

基准测试

基准方法指标
referring-expression-segmentation-on-a2dRefVOS
IoU mean: 0.497
IoU overall: 0.672
Precision@0.5: 0.578
Precision@0.6: 0.534
Precision@0.7: 0.456
Precision@0.8: 0.311
Precision@0.9: 0.093
referring-expression-segmentation-on-a2dHINet
IoU mean: 0.529
IoU overall: 0.679
Precision@0.5: 0.611
Precision@0.6: 0.559
Precision@0.7: 0.486
Precision@0.8: 0.342
Precision@0.9: 0.12
referring-expression-segmentation-on-davisHINet
Ju0026F 1st frame: 50.2
Ju0026F Full video: 47.9
referring-expression-segmentation-on-j-hmdbRefVOS
IoU mean: 0.568
IoU overall: 0.606
Precision@0.5: 0.731
Precision@0.6: 0.62
Precision@0.7: 0.392
Precision@0.8: 0.088
Precision@0.9: 0.0
referring-expression-segmentation-on-j-hmdbHINet
IoU mean: 0.627
IoU overall: 0.652
Precision@0.5: 0.819
Precision@0.6: 0.736
Precision@0.7: 0.542
Precision@0.8: 0.168
Precision@0.9: 0.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于指代表达的视频对象分割的分层交互网络 | 论文 | HyperAI超神经