3 个月前

通过视觉与语音实现的多模态机器翻译

通过视觉与语音实现的多模态机器翻译

摘要

多模态机器翻译旨在从多种模态中提取信息,其基本假设是:额外的模态能够为输入数据提供有价值的互补视角。该领域中最突出的任务包括语音翻译(spoken language translation)、图像引导翻译(image-guided translation)以及视频引导翻译(video-guided translation),分别利用音频和视觉模态。这些任务与单模态任务——如语音识别(speech recognition)、图像字幕生成(image captioning)和视频字幕生成(video captioning)——相区别,其核心在于模型需将输入内容翻译为目标语言,而非仅生成同语言的描述。本文综述了上述任务的主要数据资源、围绕这些任务开展的评估竞赛、端到端方法与流水线方法的最新进展,以及性能评估所面临的挑战。最后,文章探讨了未来研究的若干方向:亟需构建更为丰富且具有挑战性的数据集,开展针对模型性能的精细化评估,并在输入与输出空间中进一步引入多模态特性。

基准测试

基准方法指标
multimodal-machine-translation-on-multi30kCaglayan
BLEU (EN-DE): 39.4
Meteor (EN-DE): 58.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过视觉与语音实现的多模态机器翻译 | 论文 | HyperAI超神经