4 个月前

使用全局和局部迁移模块的交互式视频对象分割

摘要

本文提出了一种交互式视频对象分割算法，该算法以查询对象上的涂鸦注释作为输入。我们开发了一个深度神经网络，该网络由注释网络（A-Net）和传输网络（T-Net）组成。首先，给定用户在某一帧上的涂鸦注释，A-Net基于编码器-解码器架构生成分割结果。其次，T-Net通过使用全局传输模块和局部传输模块双向传输分割结果到其他帧。全局传输模块将注释帧中的分割信息传递到目标帧，而局部传输模块则将时间相邻帧中的分割信息传播到目标帧。通过交替应用A-Net和T-Net，用户可以以最小的努力获得所需的分割结果。我们分两个阶段训练整个网络，通过模拟用户涂鸦并采用辅助损失函数。实验结果表明，所提出的交互式视频对象分割算法优于现有的最先进传统算法。代码和模型可在 https://github.com/yuk6heo/IVOS-ATNet 获取。