4 个月前

视觉推理中的程序推断与执行

视觉推理中的程序推断与执行

摘要

现有的视觉推理方法试图直接使用黑箱架构将输入映射到输出,而没有显式建模底层的推理过程。因此,这些黑箱模型往往学会利用数据中的偏差,而不是真正进行视觉推理。受模块网络的启发,本文提出了一种视觉推理模型,该模型由一个程序生成器和一个执行引擎组成。程序生成器构建要执行的推理过程的显式表示,而执行引擎则运行生成的程序以产生答案。程序生成器和执行引擎均通过神经网络实现,并使用反向传播和REINFORCE算法进行训练。利用CLEVR视觉推理基准测试,我们展示了我们的模型在多种设置下显著优于强大的基线模型,并且具有更好的泛化能力。

代码仓库

ethanjperez/film
pytorch
GitHub 中提及
AlexKuhnle/film
pytorch
GitHub 中提及
bhanu77prakash/EDA-project
pytorch
GitHub 中提及
facebookresearch/clevr-iep
官方
pytorch
GitHub 中提及
rs9000/VisualReasoning_MMnet
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-clevrIEP-700K
Accuracy: 96.9
visual-question-answering-on-clevr-humansIEP-18K
Accuracy: 66.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉推理中的程序推断与执行 | 论文 | HyperAI超神经