3 个月前

视觉-语言基础模型中的等变相似性

视觉-语言基础模型中的等变相似性

摘要

本研究探讨了视觉-语言基础模型(VLMs)中的等变性(equivariance)概念,重点关注一种多模态相似性函数。该函数不仅是模型的主要训练目标,更是支持下游任务的核心能力。与现有图像-文本相似性目标仅将匹配对分类为相似、非匹配对为不相似不同,等变性还要求相似性能够忠实反映语义变化的程度。这一特性使VLMs在面对细微且未见过的多模态组合时具备更强的泛化能力。然而,建模等变性面临挑战,因为语义变化的真实标签难以获取。例如,对于一个描述“狗”的图像-文本对,当图像中的像素从“狗”变为“猫”时,其相似性应如何变化,这一变化程度并不明确。为此,我们提出EqSim——一种可高效计算的正则化损失函数,仅需任意两个匹配的训练样本即可计算,并可轻松集成至现有的图像-文本检索微调流程中。同时,为更深入地诊断VLMs的等变性表现,我们构建了一个新的挑战性基准测试集EqBen。相较于现有评估数据集,EqBen是首个聚焦于“视觉最小变化”(visual-minimal change)的基准。大量实验结果表明,当前VLMs普遍缺乏等变性,同时验证了EqSim的有效性。代码已开源,地址为:https://github.com/Wangt-CN/EqBen。

代码仓库

wangt-cn/eqben
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-reasoning-on-winogroundMETER (finetuned, Flickr30k)
Group Score: 14.75
Image Score: 20.75
Text Score: 43.5
visual-reasoning-on-winogroundMETER
Group Score: 12.00
Image Score: 15.75
Text Score: 39.25
visual-reasoning-on-winogroundMETER (EqSim)
Group Score: 18.75
Image Score: 22.75
Text Score: 45.0
visual-reasoning-on-winogroundFIBER
Group Score: 22.25
Image Score: 25.75
Text Score: 46.25
visual-reasoning-on-winogroundFIBER (finetuned, Flickr30k)
Group Score: 23.00
Image Score: 26.50
Text Score: 51.25
visual-reasoning-on-winogroundFIBER (EqSim)
Group Score: 27.5
Image Score: 32.00
Text Score: 51.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉-语言基础模型中的等变相似性 | 论文 | HyperAI超神经