3 个月前

所见即所读?提升文本-图像对齐评估

所见即所读?提升文本-图像对齐评估

摘要

自动判断文本与对应图像在语义上是否对齐,是视觉-语言模型面临的一项重要挑战,其应用涵盖文本到图像生成以及图像到文本生成等任务。本文研究了自动评估文本-图像对齐性的方法。我们首先提出了SeeTRUE:一个全面的评估数据集,覆盖了来自文本到图像和图像到文本生成任务的多个数据集,并包含人工标注的判断结果,用于判定给定的文本-图像对是否在语义上一致。随后,我们介绍了两种自动判断对齐性的方法:第一种基于问题生成与视觉问答模型的流水线架构;第二种则通过微调多模态预训练模型,采用端到端分类的方法实现对齐判断。两种方法在多种文本-图像对齐任务中均超越了先前的方法,尤其在涉及复杂构图或非自然图像的困难情形下表现出显著提升。最后,我们展示了所提出方法如何精确定位图像与给定文本之间的具体语义偏差,并进一步说明其可用于在文本到图像生成过程中自动对候选图像进行重排序。

代码仓库

基准测试

基准方法指标
visual-reasoning-on-winogroundCOCA ViT-L14 (f.t on COCO)
Group Score: 8.25
Image Score: 11.50
Text Score: 28.25
visual-reasoning-on-winogroundTIFA
Group Score: 11.30
Image Score: 12.50
Text Score: 19.00
visual-reasoning-on-winogroundVQ2
Group Score: 30.5
Image Score: 42.2
Text Score: 47
visual-reasoning-on-winogroundPaLI (ft SNLI-VE + Synthetic Data)
Group Score: 28.75
Image Score: 38
Text Score: 46.5
visual-reasoning-on-winogroundPaLI (ft SNLI-VE)
Group Score: 28.70
Image Score: 41.50
Text Score: 45.00
visual-reasoning-on-winogroundBLIP2 (ft COCO)
Group Score: 23.50
Image Score: 26.00
Text Score: 44.00
visual-reasoning-on-winogroundCLIP RN50x64
Group Score: 10.25
Image Score: 13.75
Text Score: 26.50
visual-reasoning-on-winogroundOFA large (ft SNLI-VE)
Group Score: 9.00
Image Score: 14.30
Text Score: 27.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
所见即所读?提升文本-图像对齐评估 | 论文 | HyperAI超神经