4 个月前

WinoGAViL:用于挑战视觉-语言模型的游戏化关联基准测试

WinoGAViL:用于挑战视觉-语言模型的游戏化关联基准测试

摘要

尽管视觉-语言模型在诸如视觉问答等任务上表现出色,但在基本的人类常识推理技能方面仍面临挑战。在这项工作中,我们引入了WinoGAViL:一种在线的视觉-语言关联游戏(例如,狼人与满月之间的关联),用作动态评估基准。该游戏灵感来源于流行的纸牌游戏《代号名字》(Codenames),其中一名间谍大师提供与多个视觉候选对象相关的文本提示,另一名玩家则尝试识别这些对象。人类玩家因创建对竞争对手AI模型具有挑战性但仍可被其他人类玩家解决的关联而获得奖励。我们利用该游戏收集了3.5万个实例,发现这些实例对人类来说直观易懂(Jaccard指数超过90%),但对最先进的AI模型来说却颇具挑战性,其中表现最好的模型(ViLT)仅达到52%的准确率,主要在提示具有明显视觉特征的情况下成功。我们的分析以及从玩家处收集的反馈表明,所收集的关联需要多样的推理技能,包括一般知识、常识、抽象能力等。我们发布了数据集、代码和互动游戏,允许未来进行更多的数据收集,以用于开发具有更好关联能力的模型。

代码仓库

基准测试

基准方法指标
common-sense-reasoning-on-winogavilViLT
Jaccard Index: 52
visual-reasoning-on-winogavilCLIP-ViL (Zero-Shot)
Jaccard Index: 15
visual-reasoning-on-winogavilCLIP-RN50x64/14 (Zero-Shot)
Jaccard Index: 38
visual-reasoning-on-winogavilCLIP-ViT-L/14 (Zero-Shot)
Jaccard Index: 40
visual-reasoning-on-winogavilCLIP-ViT-B/32 (Zero-Shot)
Jaccard Index: 41
visual-reasoning-on-winogavilHumans
Jaccard Index: 90
visual-reasoning-on-winogavilViLT (Zero-Shot)
Jaccard Index: 52
visual-reasoning-on-winogavilX-VLM (Zero-Shot)
Jaccard Index: 46
visual-reasoning-on-winogavilCLIP-RN50 (Zero-Shot)
Jaccard Index: 35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WinoGAViL:用于挑战视觉-语言模型的游戏化关联基准测试 | 论文 | HyperAI超神经