
摘要
本文致力于实现视频内容中演员及其动作的像素级分割。与现有方法不同,后者均从固定的演员和动作对词汇表中学习分割,我们则是从自然语言输入句子中推断出分割结果。这使得我们能够在同一超类别下区分细微的演员差异,识别演员和动作实例,并分割超出演员和动作词汇范围的对。我们提出了一种基于编码器-解码器架构优化用于视频的全卷积模型,以实现像素级的演员和动作分割。为了展示从句子进行演员和动作视频分割的潜力,我们在两个流行的演员和动作数据集上扩展了超过7,500条自然语言描述。实验结果表明,基于句子指导的分割质量高,模型具有良好的泛化能力,并且在传统演员和动作分割任务中优于当前最先进的方法。
代码仓库
JerryX1110/awesome-rvos
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-a2d | Gavriluyk el al. (Optical flow) | AP: 0.215 IoU mean: 0.426 IoU overall: 0.551 Precision@0.5: 0.5 Precision@0.6: 0.376 Precision@0.7: 0.231 Precision@0.8: 0.094 Precision@0.9: 0.004 |
| referring-expression-segmentation-on-a2d | Gavriluyk el al. | AP: 0.198 IoU mean: 0.421 IoU overall: 0.536 Precision@0.5: 0.475 Precision@0.6: 0.347 Precision@0.7: 0.211 Precision@0.8: 0.08 Precision@0.9: 0.002 |
| referring-expression-segmentation-on-j-hmdb | Gavrilyuk et al. | AP: 0.233 IoU mean: 0.542 IoU overall: 0.541 Precision@0.5: 0.699 Precision@0.6: 0.460 Precision@0.7: 0.173 Precision@0.8: 0.014 Precision@0.9: 0.000 |
| referring-expression-segmentation-on-j-hmdb | Gavrilyuk et al. (Optical flow) | AP: 0.267 IoU mean: 0.570 IoU overall: 0.555 Precision@0.5: 0.712 Precision@0.6: 0.518 Precision@0.7: 0.264 Precision@0.8: 0.030 Precision@0.9: 0.000 |