6 个月前

计算机视觉

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

摘要

参考视频目标分割旨在利用自然语言提示，在视频中对目标对象进行分割与跟踪。现有方法通常以高度耦合的方式融合视觉与文本特征，将多模态信息共同处理以生成每帧的掩码。然而，这种处理方式在存在多个相似物体的场景中，往往难以准确识别目标，导致目标关联模糊，并且难以保证掩码在帧间传播的一致性。为解决上述局限，本文提出一种新型解耦框架——FindTrack，该框架将目标识别与掩码传播过程分离。FindTrack 首先通过平衡分割置信度与视觉-文本对齐程度，自适应地选择关键帧，从而建立一个稳健的目标参考。随后，专用的传播模块基于该参考，对整个视频中的目标进行持续跟踪与分割。通过解耦两个核心步骤，FindTrack 有效降低了目标关联的歧义性，并显著提升了分割结果的一致性。实验表明，FindTrack 在多个公开基准数据集上均优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Cho Suhwan Lee Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun

摘要

参考视频目标分割旨在利用自然语言提示，在视频中对目标对象进行分割与跟踪。现有方法通常以高度耦合的方式融合视觉与文本特征，将多模态信息共同处理以生成每帧的掩码。然而，这种处理方式在存在多个相似物体的场景中，往往难以准确识别目标，导致目标关联模糊，并且难以保证掩码在帧间传播的一致性。为解决上述局限，本文提出一种新型解耦框架——FindTrack，该框架将目标识别与掩码传播过程分离。FindTrack 首先通过平衡分割置信度与视觉-文本对齐程度，自适应地选择关键帧，从而建立一个稳健的目标参考。随后，专用的传播模块基于该参考，对整个视频中的目标进行持续跟踪与分割。通过解耦两个核心步骤，FindTrack 有效降低了目标关联的歧义性，并显著提升了分割结果的一致性。实验表明，FindTrack 在多个公开基准数据集上均优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供