HyperAIHyperAI

Command Palette

Search for a command to run...

多模态菜谱中程序性概念的潜在对齐

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

摘要

我们提出了一种新颖的对齐机制,用于处理在新发布的多模态问答数据集RecipeQA上的程序性推理任务。该模型旨在解决文本完形填空任务,即在包含图像与操作说明的食谱文本上进行阅读理解。通过利用注意力网络的强大能力、跨模态表示,以及在操作说明与候选答案之间构建的隐式对齐空间,我们有效解决了该问题。此外,我们引入了约束性最大池化(constrained max-pooling)方法,对对齐矩阵上的最大池化操作进行优化,以在模型输出之间施加互斥约束。实验结果表明,该方法相比基线模型取得了19%的性能提升。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态菜谱中程序性概念的潜在对齐 | 论文 | HyperAI超神经