
摘要
在这项工作中,我们提出了一种用于视频显著性预测的三维全卷积架构,该架构在使用不同抽象层次提取的特征生成的中间图(称为显著图)上采用了分层监督机制。我们为基本的分层学习机制提供了两种域适应和域特定学习的技术。对于前者,我们通过在多个尺度上应用梯度反转来鼓励模型无监督地学习分层通用特征,以增强对训练过程中未提供注释的数据集的泛化能力。至于域特定化,我们通过在单个数据集上专门化已学习的特征来最大化性能,具体采用了域特定操作(即先验、平滑和批归一化)。我们的实验结果表明,所提出的模型在有监督显著性预测方面达到了最先进的精度。当基础分层模型结合了域特定模块时,性能得到了进一步提升,在DHF1K基准测试中超越了现有最先进的模型,在五个指标中的三个上表现最佳,并在另外两个指标上取得了第二好的成绩。而在无监督域适应设置下进行测试时,通过启用分层梯度反转层,我们获得了与有监督状态下的最先进模型相当的性能。
代码仓库
perceivelab/hd2s
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-saliency-detection-on-dhf1k | HD2S | AUC-J: 0.908 CC: 0.503 NSS: 2.812 SIM: 0.406 s-AUC: 0.70 |
| video-saliency-detection-on-msu-video | HD2S | AUC-J: 0.844 CC: 0.707 FPS: 24.51 KLDiv: 0.545 NSS: 1.89 SIM: 0.615 |