4 个月前

神经自我对话:通过连续提问和回答实现图像理解

神经自我对话:通过连续提问和回答实现图像理解

摘要

本文研究了通过主动提出基于图像的问题并随后回答这些问题来持续发现图像内容的问题。关键组件包括一个视觉问题生成(Visual Question Generation, VQG)模块和一个视觉问题回答(Visual Question Answering, VQA)模块,其中使用了循环神经网络(Recurrent Neural Networks, RNN)和卷积神经网络(Convolutional Neural Network, CNN)。给定一个包含图像、问题及其答案的数据集,两个模块同时进行训练,不同之处在于VQG以图像作为输入,生成相应的问题作为输出,而VQA则以图像和问题作为输入,生成相应的答案作为输出。我们使用亚马逊机械土耳其(Amazon Mechanical Turk)对自对话过程进行了主观评估,结果显示所提出方法的有效性。

基准测试

基准方法指标
question-generation-on-coco-visual-questionSample(Yang,2015)
BLEU-1: 38.8
question-generation-on-coco-visual-questionMax(Yang,2015)
BLEU-1: 59.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
神经自我对话:通过连续提问和回答实现图像理解 | 论文 | HyperAI超神经