3 个月前

基于自然语言中心的外部知识视觉问答:Transform-Retrieve-Generate

基于自然语言中心的外部知识视觉问答:Transform-Retrieve-Generate

摘要

外部知识视觉问答(OK-VQA)要求智能体在理解图像的基础上,利用整个网络中的相关知识,并整合全部信息以回答问题。以往大多数方法通过在多模态空间中先融合图像与问题来处理该任务,然而这种融合方式难以灵活地与海量外部知识进一步结合。本文提出一种面向OK-VQA任务的新型范式:将图像转换为纯文本形式,从而实现自然语言空间中的知识段落检索与生成式问答。该范式充分利用了大规模知识库的丰富信息以及预训练语言模型的强大能力。为此,我们提出了一个“转换-检索-生成”(Transform-Retrieve-Generate, TRiG)框架,该框架可与不同的图像到文本模型及文本知识库无缝集成,具备良好的可插拔性。实验结果表明,TRiG框架在性能上显著优于所有现有的最先进监督学习方法,绝对提升幅度至少达到11.1%。

基准测试

基准方法指标
visual-question-answering-on-ok-vqaTRiG (T5-Large)
Accuracy: 50.50

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供