3 个月前

用于联合自动语音识别与多语言语音翻译的双解码器Transformer

用于联合自动语音识别与多语言语音翻译的双解码器Transformer

摘要

我们提出了一种新型模型架构——双解码器Transformer(dual-decoder Transformer),该架构能够联合执行自动语音识别(ASR)与多语言语音翻译(ST)任务。我们的模型基于原始的Transformer架构(Vaswani et al., 2017),但包含两个解码器,分别负责ASR或ST任务。本研究的主要贡献在于两个解码器之间的交互机制:通过一种双注意力(dual-attention)机制,一个解码器能够从另一个解码器获取不同的信息源。我们提出了两种该架构的变体,分别对应解码器之间不同层次的依赖关系,称为并行双解码器Transformer(parallel dual-decoder Transformer)和交叉双解码器Transformer(cross dual-decoder Transformer)。在MuST-C数据集上的大量实验表明,我们的模型在多语言设置下取得了优于此前报告的最高翻译性能,并且在一对一的双语任务中也表现更优。此外,与传统的多任务学习架构相比,我们的并行模型在ASR与ST任务之间未表现出性能权衡。相关代码与预训练模型已开源,可通过 https://github.com/formiel/speech-translation 获取。

代码仓库

formiel/speech-translation
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-to-text-translation-on-must-c-1Dual-decoder Transformer
SacreBLEU: 25.62
speech-to-text-translation-on-must-c-en-deDual-decoder Transformer
Case-sensitive sacreBLEU: 23.63
speech-to-text-translation-on-must-c-en-esDual-decoder Transformer
Case-sensitive sacreBLEU: 28.12
speech-to-text-translation-on-must-c-en-frDual-decoder Transformer
Case-sensitive sacreBLEU: 33.45

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于联合自动语音识别与多语言语音翻译的双解码器Transformer | 论文 | HyperAI超神经