
摘要
本文提出了一种交互式视频对象分割算法,该算法以查询对象上的涂鸦注释作为输入。我们开发了一个深度神经网络,该网络由注释网络(A-Net)和传输网络(T-Net)组成。首先,给定用户在某一帧上的涂鸦注释,A-Net基于编码器-解码器架构生成分割结果。其次,T-Net通过使用全局传输模块和局部传输模块双向传输分割结果到其他帧。全局传输模块将注释帧中的分割信息传递到目标帧,而局部传输模块则将时间相邻帧中的分割信息传播到目标帧。通过交替应用A-Net和T-Net,用户可以以最小的努力获得所需的分割结果。我们分两个阶段训练整个网络,通过模拟用户涂鸦并采用辅助损失函数。实验结果表明,所提出的交互式视频对象分割算法优于现有的最先进传统算法。代码和模型可在 https://github.com/yuk6heo/IVOS-ATNet 获取。
代码仓库
yuk6heo/IVOS-ATNet
官方
pytorch
GitHub 中提及
yuk6heo/GIS-RAmap
pytorch
GitHub 中提及
dongkwonjin/Semantic-Line-SLNet
pytorch
GitHub 中提及
dongkwonjin/Semantic-Line-DRM
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| interactive-video-object-segmentation-on | AT-Net | AUC-J: 0.778 AUC-Ju0026F: 0.809 Ju0026F@60s: 0.827 J@60s: 0.790 |