3 个月前

LoSh:用于指代视频目标分割的长短期文本联合预测网络

LoSh:用于指代视频目标分割的长短期文本联合预测网络

摘要

参考视频对象分割(Referring Video Object Segmentation, RVOS)旨在根据给定的文本描述,在视频片段中分割出所指的目标实例。该文本描述通常包含对目标实例外观、动作及其与其它对象之间关系的复杂描述。因此,对于RVOS模型而言,要准确捕捉视频中所有这些属性具有相当大的挑战性;事实上,模型往往更倾向于关注与动作和关系相关的视觉特征,而忽视了外观信息。这种偏差可能导致对目标实例的分割结果不完整,甚至出现错误。为解决这一问题,我们提出从原始长文本描述中提取一个以主体为中心的短文本表达。该短文本仅保留目标实例的外观相关语义信息,从而引导模型将注意力集中于目标的外观特征。在此基础上,我们让模型同时利用长文本和短文本表达进行联合预测,并引入一个“长-短文本交叉注意力模块”,以促进两种文本表达所生成特征之间的交互;同时设计了一种“长-短预测交集损失”(long-short predictions intersection loss),用于约束联合预测结果的一致性与准确性。除了在语言建模层面的改进外,我们还提出了一种前向-后向视觉一致性损失(forward-backward visual consistency loss),该损失利用光流(optical flow)将标注帧与其时间邻近帧之间的视觉特征进行空间对齐与传播,以增强时间维度上的特征一致性。我们的方法建立在两种先进的RVOS流水线之上。在A2D-Sentences、Refer-YouTube-VOS、JHMDB-Sentences和Refer-DAVIS17等多个基准数据集上的大量实验表明,所提方法取得了显著的性能提升。相关代码已开源,地址为:https://github.com/LinfengYuan1997/Losh。

代码仓库

linfengyuan1997/losh
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-refer-1LoSh-R
F: 66.0
J: 62.5
Ju0026F: 64.2
referring-video-object-segmentation-on-refLoSh
F: 66.8
J: 61.8
Ju0026F: 64.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LoSh:用于指代视频目标分割的长短期文本联合预测网络 | 论文 | HyperAI超神经