8 个月前

计算机视觉

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

摘要

现有的视频推理分割方法严重依赖单一的特殊标记来表示关键帧中的对象或整个视频，这导致无法充分捕捉空间复杂性和帧间运动。为了解决这些挑战，我们提出了一种端到端的视频推理分割方法——VRS-HQ，该方法利用多模态大语言模型（MLLMs）将丰富的时空特征注入层次化标记中。我们的主要创新包括时间动态聚合（Temporal Dynamic Aggregation, TDA）和标记驱动的关键帧选择（Token-driven Keyframe Selection, TKS）。具体而言，我们设计了帧级和时间级标记，利用MLLMs的自回归学习有效捕捉局部和全局信息。随后，我们应用基于相似性的加权融合和帧选择策略，并利用SAM2进行关键帧分割和传播。为了提高关键帧定位的准确性，TKS在推理过程中根据SAM2的遮挡分数过滤关键帧。VRS-HQ在ReVOS数据集上取得了最先进的性能，在三个子集上的J&F得分分别超过了VISA 5.9%、12.5%和9.1%。这些结果突显了我们方法在时间推理和分割方面的强大能力。代码和模型权重将在VRS-HQ项目页面上发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

摘要

现有的视频推理分割方法严重依赖单一的特殊标记来表示关键帧中的对象或整个视频，这导致无法充分捕捉空间复杂性和帧间运动。为了解决这些挑战，我们提出了一种端到端的视频推理分割方法——VRS-HQ，该方法利用多模态大语言模型（MLLMs）将丰富的时空特征注入层次化标记中。我们的主要创新包括时间动态聚合（Temporal Dynamic Aggregation, TDA）和标记驱动的关键帧选择（Token-driven Keyframe Selection, TKS）。具体而言，我们设计了帧级和时间级标记，利用MLLMs的自回归学习有效捕捉局部和全局信息。随后，我们应用基于相似性的加权融合和帧选择策略，并利用SAM2进行关键帧分割和传播。为了提高关键帧定位的准确性，TKS在推理过程中根据SAM2的遮挡分数过滤关键帧。VRS-HQ在ReVOS数据集上取得了最先进的性能，在三个子集上的J&F得分分别超过了VISA 5.9%、12.5%和9.1%。这些结果突显了我们方法在时间推理和分割方面的强大能力。代码和模型权重将在VRS-HQ项目页面上发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供