Michal YaromYonatan BittonSoravit ChangpinyoRoee AharoniJonathan HerzigOran LangEran OfekIdan Szpektor

摘要
自动判断文本与对应图像在语义上是否对齐,是视觉-语言模型面临的一项重要挑战,其应用涵盖文本到图像生成以及图像到文本生成等任务。本文研究了自动评估文本-图像对齐性的方法。我们首先提出了SeeTRUE:一个全面的评估数据集,覆盖了来自文本到图像和图像到文本生成任务的多个数据集,并包含人工标注的判断结果,用于判定给定的文本-图像对是否在语义上一致。随后,我们介绍了两种自动判断对齐性的方法:第一种基于问题生成与视觉问答模型的流水线架构;第二种则通过微调多模态预训练模型,采用端到端分类的方法实现对齐判断。两种方法在多种文本-图像对齐任务中均超越了先前的方法,尤其在涉及复杂构图或非自然图像的困难情形下表现出显著提升。最后,我们展示了所提出方法如何精确定位图像与给定文本之间的具体语义偏差,并进一步说明其可用于在文本到图像生成过程中自动对候选图像进行重排序。
代码仓库
yonatanbitton/wysiwyr
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-reasoning-on-winoground | COCA ViT-L14 (f.t on COCO) | Group Score: 8.25 Image Score: 11.50 Text Score: 28.25 |
| visual-reasoning-on-winoground | TIFA | Group Score: 11.30 Image Score: 12.50 Text Score: 19.00 |
| visual-reasoning-on-winoground | VQ2 | Group Score: 30.5 Image Score: 42.2 Text Score: 47 |
| visual-reasoning-on-winoground | PaLI (ft SNLI-VE + Synthetic Data) | Group Score: 28.75 Image Score: 38 Text Score: 46.5 |
| visual-reasoning-on-winoground | PaLI (ft SNLI-VE) | Group Score: 28.70 Image Score: 41.50 Text Score: 45.00 |
| visual-reasoning-on-winoground | BLIP2 (ft COCO) | Group Score: 23.50 Image Score: 26.00 Text Score: 44.00 |
| visual-reasoning-on-winoground | CLIP RN50x64 | Group Score: 10.25 Image Score: 13.75 Text Score: 26.50 |
| visual-reasoning-on-winoground | OFA large (ft SNLI-VE) | Group Score: 9.00 Image Score: 14.30 Text Score: 27.70 |