4 个月前

基于句子的演员和动作视频分割

基于句子的演员和动作视频分割

摘要

本文致力于实现视频内容中演员及其动作的像素级分割。与现有方法不同,后者均从固定的演员和动作对词汇表中学习分割,我们则是从自然语言输入句子中推断出分割结果。这使得我们能够在同一超类别下区分细微的演员差异,识别演员和动作实例,并分割超出演员和动作词汇范围的对。我们提出了一种基于编码器-解码器架构优化用于视频的全卷积模型,以实现像素级的演员和动作分割。为了展示从句子进行演员和动作视频分割的潜力,我们在两个流行的演员和动作数据集上扩展了超过7,500条自然语言描述。实验结果表明,基于句子指导的分割质量高,模型具有良好的泛化能力,并且在传统演员和动作分割任务中优于当前最先进的方法。

代码仓库

JerryX1110/awesome-rvos
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-a2dGavriluyk el al. (Optical flow)
AP: 0.215
IoU mean: 0.426
IoU overall: 0.551
Precision@0.5: 0.5
Precision@0.6: 0.376
Precision@0.7: 0.231
Precision@0.8: 0.094
Precision@0.9: 0.004
referring-expression-segmentation-on-a2dGavriluyk el al.
AP: 0.198
IoU mean: 0.421
IoU overall: 0.536
Precision@0.5: 0.475
Precision@0.6: 0.347
Precision@0.7: 0.211
Precision@0.8: 0.08
Precision@0.9: 0.002
referring-expression-segmentation-on-j-hmdbGavrilyuk et al.
AP: 0.233
IoU mean: 0.542
IoU overall: 0.541
Precision@0.5: 0.699
Precision@0.6: 0.460
Precision@0.7: 0.173
Precision@0.8: 0.014
Precision@0.9: 0.000
referring-expression-segmentation-on-j-hmdbGavrilyuk et al. (Optical flow)
AP: 0.267
IoU mean: 0.570
IoU overall: 0.555
Precision@0.5: 0.712
Precision@0.6: 0.518
Precision@0.7: 0.264
Precision@0.8: 0.030
Precision@0.9: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于句子的演员和动作视频分割 | 论文 | HyperAI超神经