
摘要
本研究探讨了视觉-语言基础模型(VLMs)中的等变性(equivariance)概念,重点关注一种多模态相似性函数。该函数不仅是模型的主要训练目标,更是支持下游任务的核心能力。与现有图像-文本相似性目标仅将匹配对分类为相似、非匹配对为不相似不同,等变性还要求相似性能够忠实反映语义变化的程度。这一特性使VLMs在面对细微且未见过的多模态组合时具备更强的泛化能力。然而,建模等变性面临挑战,因为语义变化的真实标签难以获取。例如,对于一个描述“狗”的图像-文本对,当图像中的像素从“狗”变为“猫”时,其相似性应如何变化,这一变化程度并不明确。为此,我们提出EqSim——一种可高效计算的正则化损失函数,仅需任意两个匹配的训练样本即可计算,并可轻松集成至现有的图像-文本检索微调流程中。同时,为更深入地诊断VLMs的等变性表现,我们构建了一个新的挑战性基准测试集EqBen。相较于现有评估数据集,EqBen是首个聚焦于“视觉最小变化”(visual-minimal change)的基准。大量实验结果表明,当前VLMs普遍缺乏等变性,同时验证了EqSim的有效性。代码已开源,地址为:https://github.com/Wangt-CN/EqBen。
代码仓库
wangt-cn/eqben
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-reasoning-on-winoground | METER (finetuned, Flickr30k) | Group Score: 14.75 Image Score: 20.75 Text Score: 43.5 |
| visual-reasoning-on-winoground | METER | Group Score: 12.00 Image Score: 15.75 Text Score: 39.25 |
| visual-reasoning-on-winoground | METER (EqSim) | Group Score: 18.75 Image Score: 22.75 Text Score: 45.0 |
| visual-reasoning-on-winoground | FIBER | Group Score: 22.25 Image Score: 25.75 Text Score: 46.25 |
| visual-reasoning-on-winoground | FIBER (finetuned, Flickr30k) | Group Score: 23.00 Image Score: 26.50 Text Score: 51.25 |
| visual-reasoning-on-winoground | FIBER (EqSim) | Group Score: 27.5 Image Score: 32.00 Text Score: 51.5 |