
摘要
野外视频的质量评估是一个具有挑战性的问题,因为缺乏参考视频和拍摄失真。了解人类视觉系统可以帮助建立客观的野外视频质量评估方法。在这项工作中,我们展示了人类视觉系统的两个显著效应,即内容依赖性和时间记忆效应,可以用于这一目的。我们提出了一种通过将这两种效应整合到深度神经网络中的无参考客观视频质量评估方法。对于内容依赖性,我们从一个预训练的图像分类神经网络中提取特征,以利用其固有的内容感知特性。对于时间记忆效应,特别是时间滞后现象,我们通过门控循环单元和受主观启发的时间池化层将其长期依赖关系整合到网络中。为了验证我们方法的性能,分别在三个公开可用的野外视频质量评估数据库上进行了实验:KoNViD-1k、CVD2014 和 LIVE-Qualcomm。实验结果表明,我们的方法在 SROCC(Spearman Rank Order Correlation Coefficient)、KROCC(Kendall Rank Order Correlation Coefficient)、PLCC(Pearson Linear Correlation Coefficient)和 RMSE(Root Mean Square Error)方面大幅优于五种最先进的方法,具体而言,在总体性能上比第二好的方法 VBLIINDS 分别提高了 12.39%、15.71%、15.45% 和 18.09%。此外,消融研究验证了内容感知特征和时间记忆效应建模的关键作用。我们的方法的 PyTorch 实现已发布在 https://github.com/lidq92/VSFA。
代码仓库
lidq92/VSFA
官方
pytorch
GitHub 中提及
SpikeKing/VQA-v2
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-quality-assessment-on-konvid-1k | VSFA | PLCC: 0.7754 |
| video-quality-assessment-on-live-vqc | VSFA | PLCC: 0.7426 |
| video-quality-assessment-on-msu-sr-qa-dataset | VSFA | KLCC: 0.43634 PLCC: 0.54407 SROCC: 0.53652 Type: NR |
| video-quality-assessment-on-msu-video-quality | VSFA | KLCC: 0.7483 PLCC: 0.9180 SRCC: 0.9049 Type: NR |