6 个月前

摘要

近年来，随着移动设备及视频分享平台（如YouTube、Facebook、TikTok和Twitch）的日益普及，用户生成内容（User-Generated Content, UGC）视频已成为互联网多媒体流量中占比日益增长的重要组成部分。与由影视制作人员专业制作的视频不同，UGC视频通常在拍摄和处理过程中因用户缺乏专业经验而引入多种真实存在的失真。因此，对UGC视频进行质量预测对于优化和监控其在视频托管平台上的编码、转码与流媒体传输等处理流程具有重要意义。然而，对UGC视频实现盲质量评估（Blind Video Quality Assessment, BVQA）极具挑战性，原因在于其退化类型未知且高度多样化，且缺乏原始无损参考视频。针对这一问题，本文提出了一种高效且精准的UGC视频盲质量评估模型，命名为2BiVQA（Double Bi-LSTM Video Quality Assessment）。该评估指标由三个核心模块构成：首先，采用预训练的卷积神经网络（Convolutional Neural Network, CNN）从图像块中提取具有判别性的特征；随后，这些特征被输入至两个循环神经网络（Recurrent Neural Network, RNN）中，分别实现空间与时间维度上的池化操作。具体而言，模型采用两个双向长短期记忆网络（Bi-directional Long Short Term Memory, Bi-LSTM）：第一个用于捕捉图像块之间的短程依赖关系，第二个则用于建模帧间的长程依赖关系，以充分考虑视频的时序记忆效应。在多个近期大规模UGC视频质量评估数据集上的实验结果表明，2BiVQA在保持较低计算开销的前提下，显著优于多数现有先进视频质量评估模型。本文提出的2BiVQA模型源代码已公开，获取地址为：https://github.com/atelili/2BiVQA

源 PDF