4 个月前

一种用于多模态机器翻译的视觉注意力接地神经模型

一种用于多模态机器翻译的视觉注意力接地神经模型

摘要

我们提出了一种新颖的多模态机器翻译模型,该模型利用了并行的视觉和文本信息。我们的模型联合优化了共享的视觉-语言嵌入和翻译器的学习过程。该模型采用了一种视觉注意力对齐机制,将视觉语义与相应的文本语义联系起来。在 Multi30K 和 Ambiguous COCO 数据集上,我们的方法达到了具有竞争力的最先进水平。此外,我们还收集了一个新的多语言多模态产品描述数据集,以模拟现实世界中的国际在线购物场景。在这个数据集上,我们的视觉注意力对齐模型大幅超越了其他方法。

代码仓库

Eurus-Holmes/VAG-NMT
pytorch
GitHub 中提及

基准测试

基准方法指标
multimodal-machine-translation-on-multi30kVAG-NMT
BLEU (EN-DE): 31.6
Meteor (EN-DE): 52.2
Meteor (EN-FR): 70.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于多模态机器翻译的视觉注意力接地神经模型 | 论文 | HyperAI超神经