4 个月前

记忆聚合网络用于高效的交互式视频对象分割

记忆聚合网络用于高效的交互式视频对象分割

摘要

交互式视频对象分割(iVOS)旨在通过用户交互高效地获取视频中目标对象的高质量分割掩码。大多数先前的最先进方法分别使用两个独立的网络来执行用户交互和时间传播,这导致了推理阶段的效率低下。在本工作中,我们提出了一种统一框架,称为记忆聚合网络(MA-Net),以更加高效的方式解决具有挑战性的iVOS问题。我们的MA-Net将交互操作和传播操作整合到一个单一网络中,显著提高了多轮交互方案下iVOS的效率。更重要的是,我们提出了一种简单而有效的记忆聚合机制,用于记录前几轮交互中的有用知识,大大提升了发现具有挑战性的感兴趣对象的鲁棒性。我们在DAVIS Challenge 2018基准数据集的验证集上进行了广泛的实验。特别是,我们的MA-Net在没有任何额外技巧的情况下达到了J@60评分为76.1%,比现有最先进方法高出超过2.7%。

基准测试

基准方法指标
interactive-video-object-segmentation-onMA-Net
AUC-J: 0.749
J@60s: 0.761

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
记忆聚合网络用于高效的交互式视频对象分割 | 论文 | HyperAI超神经