4 个月前

READMem:用于无约束视频对象分割的鲁棒嵌入关联多样化记忆

READMem:用于无约束视频对象分割的鲁棒嵌入关联多样化记忆

摘要

我们提出了一种名为READMem(鲁棒嵌入关联以支持多样化记忆)的模块化框架,专门用于处理无约束视频的半自动视频对象分割(sVOS)方法。当前的sVOS研究通常在一个不断扩展的记忆库中聚合视频帧,这在长期应用中对硬件资源有很高的需求。为了减少内存需求并防止相邻帧信息导致的近似对象重复,先前的方法引入了一个超参数来控制可存储帧的频率。然而,该参数需要根据具体的视频属性(如外观变化的速度和视频长度)进行调整,并且泛化能力较差。相反,我们的方法仅在新帧的嵌入能够增加记忆内容多样性的情况下将其整合到记忆库中。此外,我们在更新过程中提出了一个鲁棒的嵌入关联机制,将存储在记忆库中的嵌入与查询嵌入进行关联。这种方法避免了冗余数据的累积,从而允许我们限制内存大小,并防止在长视频中出现极端的内存需求。我们将READMem扩展到了流行的sVOS基线模型上,这些模型之前在长视频上的表现有限。我们的方法在长时间视频数据集(LV1)上取得了具有竞争力的结果,同时不会影响短序列的表现。我们的代码已公开发布。

代码仓库

Vujas-Eteph/READMem
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semi-supervised-video-object-segmentation-on-13READMem-QDMN (sr=10)
Ju0026F: 84.0
semi-supervised-video-object-segmentation-on-13READMem-MiVOS (s=1)
Ju0026F: 83.6
semi-supervised-video-object-segmentation-on-13READMem-MiVOS (sr=10)
Ju0026F: 86.0
semi-supervised-video-object-segmentation-on-13READMem-STCN (sr=1)
Ju0026F: 80.8
semi-supervised-video-object-segmentation-on-13READMem-STCN (sr=10)
Ju0026F: 81.8
semi-supervised-video-object-segmentation-on-13READMem-QDMN (sr=1)
Ju0026F: 84.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
READMem:用于无约束视频对象分割的鲁棒嵌入关联多样化记忆 | 论文 | HyperAI超神经