4 个月前

多上下文时序一致性建模用于指代视频对象分割

多上下文时序一致性建模用于指代视频对象分割

摘要

参考视频对象分割旨在根据给定的文本描述对视频中的对象进行分割。现有的基于变压器的时间建模方法在查询一致性及上下文考虑方面面临挑战。查询不一致会导致视频中间不同对象的掩码不稳定。而有限的上下文考虑则由于未能充分考虑到给定文本与实例之间的关系,导致分割出错误的对象。为了解决这些问题,我们提出了一种多上下文时间一致性模块(Multi-context Temporal Consistency Module, MTCM),该模块由对齐器(Aligner)和多上下文增强器(Multi-Context Enhancer, MCE)组成。对齐器通过去除查询中的噪声并将其对齐来实现查询的一致性。多上下文增强器则通过考虑多上下文来预测与文本相关的查询。我们将MTCM应用于四种不同的模型中,提升了所有模型的性能,特别是在MeViS数据集上达到了47.6的J&F分数。代码可在https://github.com/Choi58/MTCM 获取。

代码仓库

choi58/mtcm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-video-object-segmentation-on-mevisDsHmp + MTCM
F: 51.1
J: 44.1
Ju0026F: 47.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多上下文时序一致性建模用于指代视频对象分割 | 论文 | HyperAI超神经