3 个月前

将图像蒸馏至无处:用于多模态机器翻译的反演知识蒸馏

将图像蒸馏至无处:用于多模态机器翻译的反演知识蒸馏

摘要

以往的多模态机器翻译(Multimodal Machine Translation, MMT)研究通过引入对齐的视觉信息,将传统的双语翻译框架拓展至多模态场景。然而,多模态数据集普遍要求输入包含对齐的三元组信息——即[图像, 源文本, 目标文本],这一严格约束严重制约了MMT技术的发展。尤其在推理阶段,当缺乏与源文本对齐的图像时(如标准神经机器翻译NMT场景),该要求带来显著挑战。为此,本文提出IKD-MMT,一种新型的MMT框架,通过引入反演知识蒸馏(Inversion Knowledge Distillation, IKD)机制,实现无需图像输入的推理能力。具体而言,该框架包含一个多模态特征生成器与一个知识蒸馏模块,能够仅以源文本为输入,直接生成多模态特征表示。尽管已有少数研究尝试探索无需图像的机器翻译推理路径,但其性能仍难以与依赖图像的翻译方法相媲美。在实验中,我们首次证明,所提方法能够在不依赖图像的前提下,全面达到甚至超越几乎所有依赖图像的现有框架,在广泛使用的Multi30k基准测试上取得了当前最优(SOTA)性能。相关代码与数据已公开,详见:https://github.com/pengr/IKD-mmt/tree/master。

代码仓库

pengr/ikd-mmt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multimodal-machine-translation-on-multi30kIKD-MMT
BLEU (EN-DE): 41.28
Meteor (EN-DE): 58.93
Meteor (EN-FR): 77.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将图像蒸馏至无处:用于多模态机器翻译的反演知识蒸馏 | 论文 | HyperAI超神经