3 个月前

CLEVR-X:面向自然语言解释的视觉推理数据集

CLEVR-X:面向自然语言解释的视觉推理数据集

摘要

在视觉问答(Visual Question Answering, VQA)任务中提供解释,是机器学习领域的一个基本挑战。为了深入理解生成自然语言解释的过程,我们提出了大规模的CLEVR-X数据集,该数据集在原有CLEVR数据集的基础上扩展了自然语言解释。对于CLEVR数据集中每一对图像-问题,CLEVR-X均包含多个结构化的文本解释,这些解释源自原始场景图(scene graphs)。由于构建方式的设定,CLEVR-X中的解释均正确,并准确描述了解答特定问题所必需的推理过程与视觉信息。我们通过用户研究验证了所提出的数据集中真实标注(ground-truth)解释的完整性与相关性。我们基于两个先进的框架,在CLEVR-X数据集上展示了生成自然语言解释的基线结果。此外,我们对不同问题类型与答案类型下的解释生成质量进行了详细分析。同时,我们还研究了使用不同数量的真实解释对自然语言生成(Natural Language Generation, NLG)指标收敛性的影响。CLEVR-X数据集已公开发布,访问地址为:\url{https://explainableml.github.io/CLEVR-X/}。

代码仓库

explainableml/clevr-x
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
explanation-generation-on-clevr-xPJ-X
Acc: 63.0
B4: 87.4
C: 639.8
M: 58.9
RL: 93.4
explanation-generation-on-clevr-xFM
Acc: 80.3
B4: 78.8
C: 566.8
M: 52.5
RL: 85.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLEVR-X:面向自然语言解释的视觉推理数据集 | 论文 | HyperAI超神经