HyperAI超神经

摘要

参考视频对象分割（Referring Video Object Segmentation, RVOS）旨在根据给定的文本描述，在视频片段中分割出所指的目标实例。该文本描述通常包含对目标实例外观、动作及其与其它对象之间关系的复杂描述。因此，对于RVOS模型而言，要准确捕捉视频中所有这些属性具有相当大的挑战性；事实上，模型往往更倾向于关注与动作和关系相关的视觉特征，而忽视了外观信息。这种偏差可能导致对目标实例的分割结果不完整，甚至出现错误。为解决这一问题，我们提出从原始长文本描述中提取一个以主体为中心的短文本表达。该短文本仅保留目标实例的外观相关语义信息，从而引导模型将注意力集中于目标的外观特征。在此基础上，我们让模型同时利用长文本和短文本表达进行联合预测，并引入一个“长-短文本交叉注意力模块”，以促进两种文本表达所生成特征之间的交互；同时设计了一种“长-短预测交集损失”（long-short predictions intersection loss），用于约束联合预测结果的一致性与准确性。除了在语言建模层面的改进外，我们还提出了一种前向-后向视觉一致性损失（forward-backward visual consistency loss），该损失利用光流（optical flow）将标注帧与其时间邻近帧之间的视觉特征进行空间对齐与传播，以增强时间维度上的特征一致性。我们的方法建立在两种先进的RVOS流水线之上。在A2D-Sentences、Refer-YouTube-VOS、JHMDB-Sentences和Refer-DAVIS17等多个基准数据集上的大量实验表明，所提方法取得了显著的性能提升。相关代码已开源，地址为：https://github.com/LinfengYuan1997/Losh。

摘要

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LoSh：用于指代视频目标分割的长短期文本联合预测网络

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LoSh：用于指代视频目标分割的长短期文本联合预测网络

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LoSh：用于指代视频目标分割的长短期文本联合预测网络

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

摘要

用 AI 构建 AI

HyperAI Newsletters