
摘要
现有的视觉推理方法试图直接使用黑箱架构将输入映射到输出,而没有显式建模底层的推理过程。因此,这些黑箱模型往往学会利用数据中的偏差,而不是真正进行视觉推理。受模块网络的启发,本文提出了一种视觉推理模型,该模型由一个程序生成器和一个执行引擎组成。程序生成器构建要执行的推理过程的显式表示,而执行引擎则运行生成的程序以产生答案。程序生成器和执行引擎均通过神经网络实现,并使用反向传播和REINFORCE算法进行训练。利用CLEVR视觉推理基准测试,我们展示了我们的模型在多种设置下显著优于强大的基线模型,并且具有更好的泛化能力。
代码仓库
ethanjperez/film
pytorch
GitHub 中提及
AlexKuhnle/film
pytorch
GitHub 中提及
bhanu77prakash/EDA-project
pytorch
GitHub 中提及
facebookresearch/clevr-iep
官方
pytorch
GitHub 中提及
rs9000/VisualReasoning_MMnet
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-clevr | IEP-700K | Accuracy: 96.9 |
| visual-question-answering-on-clevr-humans | IEP-18K | Accuracy: 66.6 |