HyperAIHyperAI

Command Palette

Search for a command to run...

DVIS++:改进的解耦框架用于通用视频分割

Tao Zhang Xingye Tian Yikang Zhou Shunping Ji Xuebo Wang Xin Tao Yuan Zhang Pengfei Wan Zhongyuan Wang Yu Wu

摘要

我们提出了解耦视频分割(DVIS)框架,这是一种新颖的方法,用于解决普遍视频分割这一具有挑战性的任务,包括视频实例分割(VIS)、视频语义分割(VSS)和视频全景分割(VPS)。与以往将视频分割建模为端到端任务的方法不同,我们的方法将视频分割分解为三个级联的子任务:分割、跟踪和优化。这种解耦设计使得在复杂场景和长视频中对物体的空间-时间表示进行更简单且有效的建模成为可能。为此,我们引入了两个新的组件:指代跟踪器和时间优化器。这些组件逐帧跟踪物体,并基于预对齐的特征建模空间-时间表示。为了提高DVIS的跟踪能力,我们提出了一种去噪训练策略并引入了对比学习,从而构建了一个更加鲁棒的框架——DVIS++。此外,我们在多种设置下评估了DVIS++,包括开放词汇表和使用冻结的预训练骨干网络。通过将CLIP与DVIS++结合,我们推出了OV-DVIS++,这是首个开放词汇表的普遍视频分割框架。我们在六个主流基准数据集上进行了广泛的实验,包括VIS、VSS和VPS数据集。采用统一架构的DVIS++在这类基准测试中显著优于现有的专门方法,在闭合词汇表和开放词汇表设置下均表现出色。代码:https://github.com/zhang-tao-whu/DVIS_Plus


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DVIS++:改进的解耦框架用于通用视频分割 | 论文 | HyperAI超神经