4 个月前

探索图像问答中的模型与数据

探索图像问答中的模型与数据

摘要

本研究旨在通过引入新的模型和数据集来解决基于图像的问答(QA)问题。在我们的工作中,提出了一种利用神经网络和视觉语义嵌入的方法,无需经过诸如目标检测和图像分割等中间阶段,即可预测关于图像的简单问题的答案。我们的模型在现有的图像问答数据集上的表现比唯一已发表的结果高出1.8倍。我们还介绍了一种问题生成算法,该算法可以将广泛可用的图像描述转换为问答形式。利用这一算法,我们生成了一个数量级更大的数据集,且答案分布更加均匀。本文还展示了在新数据集上的一系列基线结果。

代码仓库

moh833/VQA
GitHub 中提及
abhigoyal1997/CS-763-Project
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-sutd-trafficqaVIS+LST
1/2: 54.25
1/4: 29.91

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索图像问答中的模型与数据 | 论文 | HyperAI超神经