8 个月前

计算机视觉

Tao Zhang Xingye Tian Yikang Zhou Shunping Ji Xuebo Wang Xin Tao Yuan Zhang Pengfei Wan Zhongyuan Wang Yu Wu

摘要

我们提出了解耦视频分割（DVIS）框架，这是一种新颖的方法，用于解决普遍视频分割这一具有挑战性的任务，包括视频实例分割（VIS）、视频语义分割（VSS）和视频全景分割（VPS）。与以往将视频分割建模为端到端任务的方法不同，我们的方法将视频分割分解为三个级联的子任务：分割、跟踪和优化。这种解耦设计使得在复杂场景和长视频中对物体的空间-时间表示进行更简单且有效的建模成为可能。为此，我们引入了两个新的组件：指代跟踪器和时间优化器。这些组件逐帧跟踪物体，并基于预对齐的特征建模空间-时间表示。为了提高DVIS的跟踪能力，我们提出了一种去噪训练策略并引入了对比学习，从而构建了一个更加鲁棒的框架——DVIS++。此外，我们在多种设置下评估了DVIS++，包括开放词汇表和使用冻结的预训练骨干网络。通过将CLIP与DVIS++结合，我们推出了OV-DVIS++，这是首个开放词汇表的普遍视频分割框架。我们在六个主流基准数据集上进行了广泛的实验，包括VIS、VSS和VPS数据集。采用统一架构的DVIS++在这类基准测试中显著优于现有的专门方法，在闭合词汇表和开放词汇表设置下均表现出色。代码：https://github.com/zhang-tao-whu/DVIS_Plus

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Tao Zhang Xingye Tian Yikang Zhou Shunping Ji Xuebo Wang Xin Tao Yuan Zhang Pengfei Wan Zhongyuan Wang Yu Wu

摘要

我们提出了解耦视频分割（DVIS）框架，这是一种新颖的方法，用于解决普遍视频分割这一具有挑战性的任务，包括视频实例分割（VIS）、视频语义分割（VSS）和视频全景分割（VPS）。与以往将视频分割建模为端到端任务的方法不同，我们的方法将视频分割分解为三个级联的子任务：分割、跟踪和优化。这种解耦设计使得在复杂场景和长视频中对物体的空间-时间表示进行更简单且有效的建模成为可能。为此，我们引入了两个新的组件：指代跟踪器和时间优化器。这些组件逐帧跟踪物体，并基于预对齐的特征建模空间-时间表示。为了提高DVIS的跟踪能力，我们提出了一种去噪训练策略并引入了对比学习，从而构建了一个更加鲁棒的框架——DVIS++。此外，我们在多种设置下评估了DVIS++，包括开放词汇表和使用冻结的预训练骨干网络。通过将CLIP与DVIS++结合，我们推出了OV-DVIS++，这是首个开放词汇表的普遍视频分割框架。我们在六个主流基准数据集上进行了广泛的实验，包括VIS、VSS和VPS数据集。采用统一架构的DVIS++在这类基准测试中显著优于现有的专门方法，在闭合词汇表和开放词汇表设置下均表现出色。代码：https://github.com/zhang-tao-whu/DVIS_Plus

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供