3 个月前

COFAR:图像搜索中的常识与事实推理

COFAR:图像搜索中的常识与事实推理

摘要

人类相较于现代人工智能模型的一项显著优势,在于能够对图像进行超越视觉表象的深层理解。以以下两个自然语言搜索查询为例:(i)“一群顾客耐心排队等待购买冰淇淋”;(ii)“一群游客前往印度参观著名的莫卧儿建筑”。要准确理解这两个查询,需要具备两方面的能力:其一,运用常识推理,例如识别图像中的人物是顾客还是游客,行为是“排队购买”还是“前往参观”;其二,依赖与命名视觉实体相关的事实性知识,例如判断图像中的店铺是否售卖冰淇淋,或图像中的地标是否为位于印度的莫卧儿风格建筑。这种推理能力远超单纯的视觉识别范畴。为在图像搜索任务中同时支持常识推理与事实性知识推理,我们提出一种统一框架——知识检索增强的多模态Transformer(Knowledge Retrieval-Augmented Multimodal Transformer, KRAMT)。该框架将图像中的命名视觉实体视为通向百科知识的入口,结合自然语言查询,实现对相关知识的精准定位与融合。进一步地,KRAMT能够无缝整合视觉内容与所锚定的知识信息,从而学习图像与搜索查询之间的语义对齐关系。该统一框架被用于执行需要常识与事实推理能力的图像搜索任务。我们通过引入一个新数据集——COFAR(Commonsense and Factual Reasoning in Image Search),对KRAMT的检索性能进行了评估,并与现有相关方法进行了对比。实验结果表明,KRAMT在复杂语义理解任务中表现出优越性能。相关代码与数据集已公开,可访问 https://vl2g.github.io/projects/cofar 获取。

代码仓库

vl2g/cofar
官方
pytorch

基准测试

基准方法指标
image-retrieval-on-cofarKRAMT
Recall@1: 31.6
Recall@5: 64.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
COFAR:图像搜索中的常识与事实推理 | 论文 | HyperAI超神经