3 个月前

CTVIS:面向在线视频实例分割的一致性训练

CTVIS:面向在线视频实例分割的一致性训练

摘要

实例嵌入的区分能力在在线视频实例分割(Online Video Instance Segmentation, VIS)中对于跨时间关联实例起着至关重要的作用。实例嵌入学习通过对比损失(contrastive loss)进行直接监督,该损失基于对比项(Contrastive Items, CIs)计算,而CIs由锚点(anchor)、正样本(positive)和负样本(negative)嵌入构成。近期的在线VIS方法仅从单一参考帧中获取CIs,我们认为这种做法不足以学习到具有高度判别性的嵌入表示。直观上,增强CIs的一种可行策略是在训练阶段复现推理过程。为此,我们提出一种简单而有效的训练策略——面向在线VIS的一致性训练(Consistent Training for Online VIS, CTVIS),其核心思想是使训练与推理阶段在构建CIs的流程上保持一致。具体而言,CTVIS通过参考动量平均嵌入(momentum-averaged embedding)与记忆库(memory bank)存储机制来构建CIs,并对相关嵌入添加噪声。这一设计使得当前实例的嵌入能够与历史实例的稳定表示进行可靠比对,从而在建模遮挡、重新识别和形变等VIS关键挑战方面具备显著优势。实验结果表明,CTVIS在三个主流VIS基准上均显著超越现有最先进方法,性能提升最高达+5.0个百分点,具体表现为:YTVIS19(55.1% AP)、YTVIS21(50.1% AP)和OVIS(35.5% AP)。此外,我们还发现,通过将图像转换为伪视频(pseudo-videos)进行训练,可获得超越全监督模型的鲁棒性表现。

代码仓库

kainingying/ctvis
官方
pytorch

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1CTVIS (ResNet-50)
AP50: 60.8
AP75: 34.9
APho: 16.1
APmo: 41.9
mask AP: 35.5
video-instance-segmentation-on-ovis-1CTVIS (Swin-L)
AP50: 71.5
AP75: 47.5
APho: 19.1
APmo: 52.1
mask AP: 46.9
video-instance-segmentation-on-youtube-vis-3CTVIS (ResNet-50)
mAP_L: 39.4
video-instance-segmentation-on-youtube-vis-3CTVIS (Swin-L)
mAP_L: 46.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CTVIS:面向在线视频实例分割的一致性训练 | 论文 | HyperAI超神经