8 个月前

计算机视觉

计算机视觉

Minghan Li Shuai Li Xindong Zhang Lei Zhang

摘要

尽管在统一图像分割（IS）方面取得了近期进展，但开发统一视频分割（VS）模型仍然是一项挑战。这主要是因为通用类别指定的VS任务需要检测所有对象并跨连续帧进行跟踪，而提示引导的VS任务则需要在整个视频中通过视觉/文本提示重新识别目标，使得用同一架构处理不同任务变得困难。我们尝试解决这些问题，并提出了一种新颖的统一VS架构，即UniVS，通过将提示作为查询来实现。UniVS通过对先前帧中的目标提示特征进行平均，将其作为初始查询以显式解码掩模，并在掩模解码器中引入了针对目标的提示交叉注意力层，以整合记忆池中的提示特征。通过将先前帧中预测的实体掩模作为其视觉提示，UniVS将不同的VS任务转换为提示引导的目标分割，消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的VS任务，还自然地实现了通用训练和测试，确保在不同场景下具有稳健的表现。UniVS在10个具有挑战性的VS基准上展示了令人称赞的性能与通用性平衡，涵盖了视频实例、语义、全景、对象和指代分割任务。代码可在\url{https://github.com/MinghanLi/UniVS}获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Minghan Li Shuai Li Xindong Zhang Lei Zhang

摘要

尽管在统一图像分割（IS）方面取得了近期进展，但开发统一视频分割（VS）模型仍然是一项挑战。这主要是因为通用类别指定的VS任务需要检测所有对象并跨连续帧进行跟踪，而提示引导的VS任务则需要在整个视频中通过视觉/文本提示重新识别目标，使得用同一架构处理不同任务变得困难。我们尝试解决这些问题，并提出了一种新颖的统一VS架构，即UniVS，通过将提示作为查询来实现。UniVS通过对先前帧中的目标提示特征进行平均，将其作为初始查询以显式解码掩模，并在掩模解码器中引入了针对目标的提示交叉注意力层，以整合记忆池中的提示特征。通过将先前帧中预测的实体掩模作为其视觉提示，UniVS将不同的VS任务转换为提示引导的目标分割，消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的VS任务，还自然地实现了通用训练和测试，确保在不同场景下具有稳健的表现。UniVS在10个具有挑战性的VS基准上展示了令人称赞的性能与通用性平衡，涵盖了视频实例、语义、全景、对象和指代分割任务。代码可在\url{https://github.com/MinghanLi/UniVS}获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

UniVS：统一且通用的视频分割方法——以提示作为查询 | 论文 | HyperAI超神经