6 个月前

自然语言处理

Ru Peng Yawen Zeng Junbo Zhao

摘要

以往的多模态机器翻译（Multimodal Machine Translation, MMT）研究通过引入对齐的视觉信息，将传统的双语翻译框架拓展至多模态场景。然而，多模态数据集普遍要求输入包含对齐的三元组信息——即[图像, 源文本, 目标文本]，这一严格约束严重制约了MMT技术的发展。尤其在推理阶段，当缺乏与源文本对齐的图像时（如标准神经机器翻译NMT场景），该要求带来显著挑战。为此，本文提出IKD-MMT，一种新型的MMT框架，通过引入反演知识蒸馏（Inversion Knowledge Distillation, IKD）机制，实现无需图像输入的推理能力。具体而言，该框架包含一个多模态特征生成器与一个知识蒸馏模块，能够仅以源文本为输入，直接生成多模态特征表示。尽管已有少数研究尝试探索无需图像的机器翻译推理路径，但其性能仍难以与依赖图像的翻译方法相媲美。在实验中，我们首次证明，所提方法能够在不依赖图像的前提下，全面达到甚至超越几乎所有依赖图像的现有框架，在广泛使用的Multi30k基准测试上取得了当前最优（SOTA）性能。相关代码与数据已公开，详见：https://github.com/pengr/IKD-mmt/tree/master。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Ru Peng Yawen Zeng Junbo Zhao

摘要

以往的多模态机器翻译（Multimodal Machine Translation, MMT）研究通过引入对齐的视觉信息，将传统的双语翻译框架拓展至多模态场景。然而，多模态数据集普遍要求输入包含对齐的三元组信息——即[图像, 源文本, 目标文本]，这一严格约束严重制约了MMT技术的发展。尤其在推理阶段，当缺乏与源文本对齐的图像时（如标准神经机器翻译NMT场景），该要求带来显著挑战。为此，本文提出IKD-MMT，一种新型的MMT框架，通过引入反演知识蒸馏（Inversion Knowledge Distillation, IKD）机制，实现无需图像输入的推理能力。具体而言，该框架包含一个多模态特征生成器与一个知识蒸馏模块，能够仅以源文本为输入，直接生成多模态特征表示。尽管已有少数研究尝试探索无需图像的机器翻译推理路径，但其性能仍难以与依赖图像的翻译方法相媲美。在实验中，我们首次证明，所提方法能够在不依赖图像的前提下，全面达到甚至超越几乎所有依赖图像的现有框架，在广泛使用的Multi30k基准测试上取得了当前最优（SOTA）性能。相关代码与数据已公开，详见：https://github.com/pengr/IKD-mmt/tree/master。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

将图像蒸馏至无处：用于多模态机器翻译的反演知识蒸馏 | 论文 | HyperAI超神经