4 个月前

DVIS:解耦视频实例分割框架

DVIS:解耦视频实例分割框架

摘要

视频实例分割(VIS)是一项具有广泛应用的重要任务,包括自动驾驶和视频编辑。现有的方法在处理现实世界中的复杂和长视频时往往表现不佳,主要归因于两个因素。首先,离线方法受到紧密耦合建模范式的限制,该范式将所有帧视为同等重要,并忽略了相邻帧之间的相互依赖关系。因此,在长时间的时间对齐过程中引入了过多的噪声。其次,在线方法未能充分利用时间信息。为了解决这些挑战,我们提出了一种解耦策略,将VIS分解为三个独立的子任务:分割、跟踪和精炼。解耦策略的有效性取决于两个关键要素:1)通过逐帧关联在跟踪过程中实现精确的长时间对齐结果;2)在精炼过程中基于上述准确的对齐结果有效利用时间信息。我们引入了一种新颖的引用跟踪器和时间精炼器来构建解耦VIS框架(DVIS)。DVIS在VIS和VPS任务中均取得了新的最先进性能,在OVIS和VIPSeg数据集上分别超过了当前最先进方法7.3 AP和9.6 VPQ,这两个数据集是最具挑战性和现实性的基准测试。此外,得益于解耦策略,引用跟踪器和时间精炼器非常轻量级(仅占分割器FLOPs的1.69%),使得可以在单个11G内存的GPU上高效进行训练和推理。代码已发布在\href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}。

代码仓库

zhang-tao-whu/DVIS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-instance-segmentation-on-ovis-1DVIS(Swin-L, Offline)
AP50: 75.9
AP75: 53.0
AR1: 19.4
AR10: 55.3
mask AP: 49.9
video-instance-segmentation-on-ovis-1DVIS(Swin-L, Online)
AP50: 71.9
AP75: 49.2
AR1: 19.4
AR10: 52.5
mask AP: 47.1
video-instance-segmentation-on-youtube-vis-1DVIS
AP50: 88.0
AP75: 72.7
AR1: 56.5
AR10: 70.3
mask AP: 64.9
video-instance-segmentation-on-youtube-vis-2DVIS(Swin-L)
AP50: 83.0
AP75: 68.4
AR1: 47.7
AR10: 65.7
mask AP: 60.1
video-instance-segmentation-on-youtube-vis-3DVIS(Swin-L)
AP50_L: 69.0
AP75_L: 48.8
AR10_L: 51.8
AR1_L: 37.2
mAP_L: 45.9
video-panoptic-segmentation-on-vipsegDVIS(Swin-L)
STQ: 55.3
VPQ: 57.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DVIS:解耦视频实例分割框架 | 论文 | HyperAI超神经