4 个月前

Q-Align:通过离散文本定义水平教授LMMs进行视觉评分

Q-Align:通过离散文本定义水平教授LMMs进行视觉评分

摘要

在线视觉内容的激增突显了对准确的机器评估器的需求,以稳健地评估各种类型视觉内容的评分。尽管最近的研究表明,大型多模态模型(LMMs)在相关领域的广泛范围内展现出卓越的潜力,但在这项工作中,我们探讨了如何教导这些模型进行与人类意见一致的视觉评分。观察到人类评分员在主观研究中仅学习和判断由离散文本定义的等级,我们提出模拟这一主观过程,并使用文本定义的评分等级而非具体分数来训练LMMs。所提出的Q-Align方法在图像质量评估(IQA)、图像美学评估(IAA)以及视频质量评估(VQA)任务中,在原始LMM结构下实现了最先进的性能。通过课程设置,我们将这三项任务进一步统一到一个模型中,称为OneAlign。在我们的实验中,我们展示了基于离散等级的课程设置相对于直接基于分数的方法对于LMMs的优势。我们的代码和预训练权重已发布在https://github.com/Q-Future/Q-Align。

代码仓库

q-future/q-align
官方
pytorch

基准测试

基准方法指标
aesthetics-quality-assessment-on-aestheticOneAlign
SRCC: 0.823
image-quality-assessment-on-koniq-10kOneAlign
PLCC: 0.952
SRCC: 0.941
video-quality-assessment-on-live-fb-lsvqOneAlign
PLCC: 0.886
video-quality-assessment-on-live-fb-lsvqOneAlign + FAST-VQA
PLCC: 0.900
video-quality-assessment-on-msu-sr-qa-datasetQ-Align (IQA)
KLCC: 0.61677
PLCC: 0.74116
SROCC: 0.75088
Type: NR
video-quality-assessment-on-msu-sr-qa-datasetQ-Align (IAA)
KLCC: 0.42211
PLCC: 0.50055
SROCC: 0.51521
Type: NR
video-quality-assessment-on-msu-sr-qa-datasetQ-Align (VQA)
KLCC: 0.58634
PLCC: 0.71121
SROCC: 0.71812
Type: NR

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Q-Align:通过离散文本定义水平教授LMMs进行视觉评分 | 论文 | HyperAI超神经