6 个月前

摘要

视频质量是视频服务提供商关注的核心问题。近年来，基于深度卷积神经网络（CNN）的视频质量评估（VQA）技术发展迅速。尽管现有研究尝试将人类视觉系统（HVS）的相关知识引入VQA任务，但仍存在诸多局限，难以充分挖掘HVS的潜力，主要表现为：对HVS的建模仅依赖少数特征，且各特征之间的关联关系不够充分。为克服上述局限，本文重新审视了HVS的五个代表性特征，并进一步重构了这些特征之间的内在联系。基于重构后的HVS模型，本文提出了一种无参考视频质量评估框架——HVS-5M（基于五模块模拟HVS五特征的无参考VQA框架）。该框架采用域融合设计范式，并结合先进的网络结构。在空间域方面，视觉显著性模块采用SAMNet生成显著性图；随后，内容依赖性模块与边缘掩码模块分别利用ConvNeXt提取空间特征，并通过显著性图对特征进行注意力加权，以突出人类可能关注的区域。在时间域方面，为补充静态空间特征，运动感知模块采用SlowFast网络提取动态时间特征；同时，时间滞留模块引入TempHyst模型，模拟人类的记忆机制，综合融合空间与时间域特征，最终输出全面的视频质量评分。大量实验结果表明，所提出的HVS-5M在多个公开数据集上均优于当前最先进的VQA方法。消融实验进一步验证了框架中各模块的有效性，证明了其设计的合理性与必要性。

源 PDF