
摘要
我们提出了一种新颖的对齐机制,用于处理在新发布的多模态问答数据集RecipeQA上的程序性推理任务。该模型旨在解决文本完形填空任务,即在包含图像与操作说明的食谱文本上进行阅读理解。通过利用注意力网络的强大能力、跨模态表示,以及在操作说明与候选答案之间构建的隐式对齐空间,我们有效解决了该问题。此外,我们引入了约束性最大池化(constrained max-pooling)方法,对对齐矩阵上的最大池化操作进行优化,以在模型输出之间施加互斥约束。实验结果表明,该方法相比基线模型取得了19%的性能提升。
代码仓库
HLR/LatentAlignmentProcedural
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-recipeqa | multimodal+LXMERT+ConstrainedMaxPooling | Accuracy: 0.475 |