3 个月前

将更多注意力转向视频显著性目标检测

将更多注意力转向视频显著性目标检测

摘要

过去十年间,视频显著目标检测(VSOD)领域受到了越来越多的关注。然而,研究界长期缺乏一个能够真实反映动态场景、且具备高质量标注的代表性VSOD数据集。为解决这一问题,我们精心构建了一个视觉注意力一致性良好的密集标注视频显著目标检测数据集——DAVSOD(Densely Annotated VSOD),该数据集包含226个视频,共计23,938帧,覆盖了多样化的现实场景、物体、实例及运动模式。结合对应的人类真实眼动数据,我们获得了精确的标注真值(ground-truth)。本工作是首个明确强调“显著性漂移”(saliency shift)挑战的研究,即视频中的显著目标可能随时间动态变化。为进一步推动社区发展,我们系统性地在七个现有VSOD数据集以及我们提出的DAVSOD数据集上,对17种具有代表性的VSOD算法进行了全面评估,总帧数达84,000帧,为目前规模最大的基准测试。基于三个经典评估指标,我们开展了深入且具有洞察力的性能分析。此外,我们提出了一种基线模型,其核心为一种具备显著性漂移感知能力的convLSTM结构,能够通过学习人类注意力转移行为,高效捕捉视频中显著性动态变化。大量实验结果揭示了模型发展的潜在方向,并为后续方法的比较与优化提供了坚实基础。

基准测试

基准方法指标
video-salient-object-detection-on-davis-2016SSAV
AVERAGE MAE: 0.028
MAX E-MEASURE: 0.948
MAX F-MEASURE: 0.861
S-Measure: 0.893
video-salient-object-detection-on-davsodSSAV
Average MAE: 0.084
S-Measure: 0.755
max E-Measure: 0.806
max F-Measure: 0.659
video-salient-object-detection-on-davsod-1SSAV
Average MAE: 0.117
S-Measure: 0.661
max E-measure: 0.723
video-salient-object-detection-on-davsod-2SSAV
Average MAE: 0.114
S-Measure: 0.619
max E-measure: 0.696
video-salient-object-detection-on-fbms-59SSAV
AVERAGE MAE: 0.040
MAX E-MEASURE: 0.926
MAX F-MEASURE: 0.865
S-Measure: 0.879
video-salient-object-detection-on-mclSSAV
AVERAGE MAE: 0.026
MAX E-MEASURE: 0.889
MAX F-MEASURE: 0.773
S-Measure: 0.819
video-salient-object-detection-on-segtrack-v2SSAV
AVERAGE MAE: 0.023
MAX F-MEASURE: 0.801
S-Measure: 0.850
max E-measure: 0.917
video-salient-object-detection-on-uvsdSSAV
Average MAE: 0.025
S-Measure: 0.860
max E-measure: 0.939
video-salient-object-detection-on-visalSSAV
Average MAE: 0.021
S-Measure: 0.942
max E-measure: 0.980
video-salient-object-detection-on-vos-tSSAV
Average MAE: 0.074
S-Measure: 0.819
max E-measure: 0.839

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将更多注意力转向视频显著性目标检测 | 论文 | HyperAI超神经