4 个月前

DVIS++:改进的解耦框架用于通用视频分割

DVIS++:改进的解耦框架用于通用视频分割

摘要

我们提出了解耦视频分割(DVIS)框架,这是一种新颖的方法,用于解决普遍视频分割这一具有挑战性的任务,包括视频实例分割(VIS)、视频语义分割(VSS)和视频全景分割(VPS)。与以往将视频分割建模为端到端任务的方法不同,我们的方法将视频分割分解为三个级联的子任务:分割、跟踪和优化。这种解耦设计使得在复杂场景和长视频中对物体的空间-时间表示进行更简单且有效的建模成为可能。为此,我们引入了两个新的组件:指代跟踪器和时间优化器。这些组件逐帧跟踪物体,并基于预对齐的特征建模空间-时间表示。为了提高DVIS的跟踪能力,我们提出了一种去噪训练策略并引入了对比学习,从而构建了一个更加鲁棒的框架——DVIS++。此外,我们在多种设置下评估了DVIS++,包括开放词汇表和使用冻结的预训练骨干网络。通过将CLIP与DVIS++结合,我们推出了OV-DVIS++,这是首个开放词汇表的普遍视频分割框架。我们在六个主流基准数据集上进行了广泛的实验,包括VIS、VSS和VPS数据集。采用统一架构的DVIS++在这类基准测试中显著优于现有的专门方法,在闭合词汇表和开放词汇表设置下均表现出色。代码:https://github.com/zhang-tao-whu/DVIS_Plus

代码仓库

zhang-tao-whu/DVIS_Plus
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1DVIS++(R50, Online)
AP50: 62.8
AP75: 37.3
AR1: 15.8
AR10: 42.9
mask AP: 37.2
video-instance-segmentation-on-ovis-1DVIS++(R50, Offline)
AP50: 68.9
AP75: 40.9
AR1: 16.8
AR10: 47.3
mask AP: 41.2
video-instance-segmentation-on-ovis-1DVIS++(VIT-L,Offline)
AP50: 78.9
AP75: 58.5
mask AP: 53.4
video-instance-segmentation-on-ovis-1DVIS++(VIT-L, Online)
AP50: 72.5
AP75: 55.0
APho: 27.1
APmo: 56.6
APso: 69.9
AR1: 20.8
AR10: 54.6
mask AP: 49.6
video-instance-segmentation-on-youtube-vis-1DVIS++(VIT-L, Online)
AP50: 88.8
AP75: 75.3
AR1: 57.9
AR10: 73.7
mask AP: 67.7
video-instance-segmentation-on-youtube-vis-2DVIS++(VIT-L, Online)
AP50: 82.7
AP75: 70.2
AR1: 49.5
AR10: 68.0
mask AP: 62.3
video-instance-segmentation-on-youtube-vis-2DVIS++(VIT-L, Offline)
AP50: 86.7
AP75: 71.5
AR1: 48.8
AR10: 69.5
mask AP: 63.9
video-instance-segmentation-on-youtube-vis-3DVIS++(VIT-L)
AP50_L: 75.7
AP75_L: 52.8
AR10_L: 55.8
AR1_L: 40.6
mAP_L: 50.9
video-panoptic-segmentation-on-vipsegDVIS++(VIT-L)
STQ: 56.0
VPQ: 58.0
video-semantic-segmentation-on-vspwDVIS++(VIT-L)
mIoU: 63.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DVIS++:改进的解耦框架用于通用视频分割 | 论文 | HyperAI超神经