8 个月前

摘要

视频实例分割（VIS）是一项具有广泛应用的重要任务，包括自动驾驶和视频编辑。现有的方法在处理现实世界中的复杂和长视频时往往表现不佳，主要归因于两个因素。首先，离线方法受到紧密耦合建模范式的限制，该范式将所有帧视为同等重要，并忽略了相邻帧之间的相互依赖关系。因此，在长时间的时间对齐过程中引入了过多的噪声。其次，在线方法未能充分利用时间信息。为了解决这些挑战，我们提出了一种解耦策略，将VIS分解为三个独立的子任务：分割、跟踪和精炼。解耦策略的有效性取决于两个关键要素：1）通过逐帧关联在跟踪过程中实现精确的长时间对齐结果；2）在精炼过程中基于上述准确的对齐结果有效利用时间信息。我们引入了一种新颖的引用跟踪器和时间精炼器来构建解耦VIS框架（DVIS）。DVIS在VIS和VPS任务中均取得了新的最先进性能，在OVIS和VIPSeg数据集上分别超过了当前最先进方法7.3 AP和9.6 VPQ，这两个数据集是最具挑战性和现实性的基准测试。此外，得益于解耦策略，引用跟踪器和时间精炼器非常轻量级（仅占分割器FLOPs的1.69%），使得可以在单个11G内存的GPU上高效进行训练和推理。代码已发布在\href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}。

源 PDF