3 个月前

多模态菜谱中程序性概念的潜在对齐

多模态菜谱中程序性概念的潜在对齐

摘要

我们提出了一种新颖的对齐机制,用于处理在新发布的多模态问答数据集RecipeQA上的程序性推理任务。该模型旨在解决文本完形填空任务,即在包含图像与操作说明的食谱文本上进行阅读理解。通过利用注意力网络的强大能力、跨模态表示,以及在操作说明与候选答案之间构建的隐式对齐空间,我们有效解决了该问题。此外,我们引入了约束性最大池化(constrained max-pooling)方法,对对齐矩阵上的最大池化操作进行优化,以在模型输出之间施加互斥约束。实验结果表明,该方法相比基线模型取得了19%的性能提升。

代码仓库

基准测试

基准方法指标
question-answering-on-recipeqamultimodal+LXMERT+ConstrainedMaxPooling
Accuracy: 0.475

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态菜谱中程序性概念的潜在对齐 | 论文 | HyperAI超神经