3 个月前

FAST-VQA:基于片段采样的高效端到端视频质量评估

FAST-VQA:基于片段采样的高效端到端视频质量评估

摘要

当前的深度视频质量评估(VQA)方法在评估高分辨率视频时通常具有较高的计算开销,这一代价限制了其通过端到端训练学习更优视频质量相关表征的能力。现有方法通常采用简单的采样策略以降低计算成本,例如图像缩放和裁剪,但这些方法会明显破坏视频中的质量相关信息,因此并非学习高质量VQA表征的最优选择。因此,亟需设计一种能够有效保留视频质量信息的新采样机制。本文提出了一种网格小块采样(Grid Mini-patch Sampling, GMS)方法,该方法通过在原始分辨率下采样局部区域以保留局部质量信息,并利用均匀网格采样的小块(mini-patches)捕捉全局上下文关系,从而全面表征视频质量。这些采样得到的小块在时间维度上进行拼接与对齐,形成称为“片段”(fragments)的结构化输入。为进一步适配此类片段输入,我们构建了专为片段设计的片段注意力网络(Fragment Attention Network, FANet)。所提出的面向VQA的片段采样Transformer(FrAgment Sample Transformer for VQA, FAST-VQA)由片段与FANet共同构成,实现了高效且端到端的深度VQA建模,能够有效学习视频质量相关的表征。在1080P高分辨率视频上,FAST-VQA相较现有最先进方法在性能上提升了约10%,同时将浮点运算量(FLOPs)降低了99.5%。此外,新学习到的视频质量表征具备良好的可迁移性,可有效应用于较小规模的VQA数据集,显著提升其在这些场景下的性能表现。大量实验表明,FAST-VQA在多种分辨率输入下均表现出优异的性能,同时保持了极高的计算效率。相关代码已开源,地址为:https://github.com/timothyhtimothy/FAST-VQA。

代码仓库

timothyhtimothy/fast-vqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-quality-assessment-on-konvid-1kFAST-VQA (trained on LSVQ only)
PLCC: 0.855
video-quality-assessment-on-konvid-1kFAST-VQA (finetuned on KonViD-1k)
PLCC: 0.892
video-quality-assessment-on-live-fb-lsvqFAST-VQA
PLCC: 0.877
video-quality-assessment-on-live-vqcFAST-VQA (trained on LSVQ only)
PLCC: 0.844
video-quality-assessment-on-live-vqcFAST-VQA (finetuned on LIVE-VQC)
PLCC: 0.862
video-quality-assessment-on-msu-video-qualityFASTER-VQA
KLCC: 0.5645
PLCC: 0.8087
SRCC: 0.7508
Type: NR
video-quality-assessment-on-msu-video-qualityFAST-VQA
KLCC: 0.6498
PLCC: 0.8613
SRCC: 0.8308
Type: NR
video-quality-assessment-on-youtube-ugcFAST-VQA (trained on LSVQ only)
PLCC: 0.748
video-quality-assessment-on-youtube-ugcFAST-VQA (finetuned on YouTube-UGC)
PLCC: 0.852

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FAST-VQA:基于片段采样的高效端到端视频质量评估 | 论文 | HyperAI超神经