8 个月前

计算机视觉

Ho Kei Cheng Yu-Wing Tai Chi-Keung Tang

摘要

我们提出了一种模块化交互式视频对象分割（Modular interactive VOS, MiVOS）框架，该框架将交互到掩模和掩模传播解耦，从而提高了泛化能力和性能。交互模块和传播模块分别训练，交互模块将用户交互转换为对象掩模，然后通过我们的传播模块使用一种新颖的前 $k$ 过滤策略读取时空记忆来实现时间上的传播。为了有效考虑用户的意图，我们提出了一种新颖的差异感知模块，该模块学习如何在每次交互前后适当地融合掩模，这些掩模通过利用时空记忆与目标帧对齐。我们在DAVIS数据集上以不同的用户交互形式（例如，涂鸦、点击）对我们的方法进行了定性和定量评估，结果表明我们的方法在需要较少帧交互的情况下优于当前最先进的算法，并且具有泛化到不同类型的用户交互的优势。我们贡献了一个大规模的合成VOS数据集，包含480万帧的像素级精确分割，并附带源代码以促进未来的研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Ho Kei Cheng Yu-Wing Tai Chi-Keung Tang

摘要

我们提出了一种模块化交互式视频对象分割（Modular interactive VOS, MiVOS）框架，该框架将交互到掩模和掩模传播解耦，从而提高了泛化能力和性能。交互模块和传播模块分别训练，交互模块将用户交互转换为对象掩模，然后通过我们的传播模块使用一种新颖的前 $k$ 过滤策略读取时空记忆来实现时间上的传播。为了有效考虑用户的意图，我们提出了一种新颖的差异感知模块，该模块学习如何在每次交互前后适当地融合掩模，这些掩模通过利用时空记忆与目标帧对齐。我们在DAVIS数据集上以不同的用户交互形式（例如，涂鸦、点击）对我们的方法进行了定性和定量评估，结果表明我们的方法在需要较少帧交互的情况下优于当前最先进的算法，并且具有泛化到不同类型的用户交互的优势。我们贡献了一个大规模的合成VOS数据集，包含480万帧的像素级精确分割，并附带源代码以促进未来的研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供