WuHaoning ; ZhangZicheng ; ZhangWeixia ; ChenChaofeng ; LiaoLiang ; LiChunyi ; GaoYixuan ; WangAnnan ; ZhangErli ; SunWenxiu ; YanQiong ; MinXiongkuo ; ZhaiGuangtao ; LinWeisi

摘要
在线视觉内容的激增突显了对准确的机器评估器的需求,以稳健地评估各种类型视觉内容的评分。尽管最近的研究表明,大型多模态模型(LMMs)在相关领域的广泛范围内展现出卓越的潜力,但在这项工作中,我们探讨了如何教导这些模型进行与人类意见一致的视觉评分。观察到人类评分员在主观研究中仅学习和判断由离散文本定义的等级,我们提出模拟这一主观过程,并使用文本定义的评分等级而非具体分数来训练LMMs。所提出的Q-Align方法在图像质量评估(IQA)、图像美学评估(IAA)以及视频质量评估(VQA)任务中,在原始LMM结构下实现了最先进的性能。通过课程设置,我们将这三项任务进一步统一到一个模型中,称为OneAlign。在我们的实验中,我们展示了基于离散等级的课程设置相对于直接基于分数的方法对于LMMs的优势。我们的代码和预训练权重已发布在https://github.com/Q-Future/Q-Align。
代码仓库
q-future/q-align
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| aesthetics-quality-assessment-on-aesthetic | OneAlign | SRCC: 0.823 |
| image-quality-assessment-on-koniq-10k | OneAlign | PLCC: 0.952 SRCC: 0.941 |
| video-quality-assessment-on-live-fb-lsvq | OneAlign | PLCC: 0.886 |
| video-quality-assessment-on-live-fb-lsvq | OneAlign + FAST-VQA | PLCC: 0.900 |
| video-quality-assessment-on-msu-sr-qa-dataset | Q-Align (IQA) | KLCC: 0.61677 PLCC: 0.74116 SROCC: 0.75088 Type: NR |
| video-quality-assessment-on-msu-sr-qa-dataset | Q-Align (IAA) | KLCC: 0.42211 PLCC: 0.50055 SROCC: 0.51521 Type: NR |
| video-quality-assessment-on-msu-sr-qa-dataset | Q-Align (VQA) | KLCC: 0.58634 PLCC: 0.71121 SROCC: 0.71812 Type: NR |