3 个月前

基于轨迹查询的鲁棒在线视频实例分割

基于轨迹查询的鲁棒在线视频实例分割

摘要

近年来,基于Transformer的方法在视频实例分割(Video Instance Segmentation, VIS)任务中取得了令人瞩目的成果。然而,大多数表现优异的方法均采用离线处理方式,即一次性处理整个视频片段以预测实例掩码序列,这使得它们难以应对UVO和OVIS等新型挑战性数据集中常见的长视频。为此,我们提出了一种完全在线的基于Transformer的视频实例分割模型——鲁棒在线视频分割(Robust Online Video Segmentation, ROVIS)。该模型在YouTube-VIS 2019基准测试中性能可与顶尖离线方法相媲美,并在UVO和OVIS数据集上显著超越现有方法。ROVIS在Mask2Former图像实例分割模型的基础上引入了“跟踪查询”(track queries)机制,这是一种轻量级的帧间轨迹信息传递方式,最初由TrackFormer方法为多目标跟踪任务提出。我们证明,当与足够强大的图像分割架构相结合时,跟踪查询能够在不局限于短视频的前提下,实现出色的分割精度。

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1ROVIS (Swin-L)
AP50: 64.7
AP75: 42.6
AR1: 18.4
AR10: 49.1
mask AP: 42.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于轨迹查询的鲁棒在线视频实例分割 | 论文 | HyperAI超神经