4 个月前

基于视觉记忆的视频对象分割学习

基于视觉记忆的视频对象分割学习

摘要

本文探讨了在无约束视频中分割移动物体的任务。我们引入了一种具有显式记忆模块的新型双流神经网络来实现这一目标。该网络的两个分支分别对视频序列中的空间特征和时间特征进行编码,而记忆模块则捕捉物体随时间的变化过程。通过一个卷积递归单元从少量训练视频序列中学习,构建了视频中的“视觉记忆”,即所有视频帧的联合表示。给定一帧视频作为输入,我们的方法根据所学的空间-时间特征以及特定于该视频的“视觉记忆”(无需任何手动标注的帧即可自动获取)为每个像素分配物体或背景标签。视觉记忆采用卷积门控递归单元实现,这使得空间信息能够在时间上进行传播。我们在DAVIS和Freiburg-Berkeley运动分割数据集这两个基准上对我们的方法进行了广泛的评估,并展示了最先进水平的结果。例如,我们的方法在DAVIS数据集上的表现比最佳方法高出近6%。此外,我们还提供了详尽的消融分析,以研究所提出的框架中每个组件的影响。

基准测试

基准方法指标
unsupervised-video-object-segmentation-on-3LVO
Mean IoU: 57.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视觉记忆的视频对象分割学习 | 论文 | HyperAI超神经