4 个月前

视觉蕴含:一项用于细粒度图像理解的新任务

视觉蕴含:一项用于细粒度图像理解的新任务

摘要

现有的视觉推理数据集,如视觉问答(VQA),通常存在基于问题、图像或答案分布的偏差。最近提出的CLEVR数据集解决了这些限制,并需要进行细粒度推理,但该数据集是合成的,且在整个数据集中对象和句子结构相似。在本文中,我们介绍了一种新的推理任务——视觉蕴含(VE)——由图像-句子对组成,其中前提是由图像定义的,而不是像传统文本蕴含任务那样由自然语言句子定义。训练好的VE模型的目标是预测图像是否在语义上蕴含文本。为了实现这一任务,我们基于斯坦福自然语言推理语料库和Flickr30k数据集构建了一个名为SNLI-VE的数据集。我们评估了各种现有的VQA基线模型,并构建了一个称为可解释视觉蕴含(EVE)系统的模型来解决VE任务。EVE系统达到了高达71%的准确率,并优于其他几种基于VQA的最先进模型。最后,我们通过跨模态注意力可视化展示了EVE系统的可解释性。SNLI-VE数据集已公开发布在https://github.com/necla-ml/SNLI-VE。

代码仓库

necla-ml/SNLI-VE
官方
GitHub 中提及

基准测试

基准方法指标
visual-entailment-on-snli-ve-testEVE-ROI*
Accuracy: 70.47
visual-entailment-on-snli-ve-valEVE-ROI*
Accuracy: 70.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉蕴含:一项用于细粒度图像理解的新任务 | 论文 | HyperAI超神经