
摘要
本文介绍了巴塞罗那理工大学(UPC)机器翻译团队在 IWSLT 2021 离线语音翻译任务中的参赛方案。该任务要求构建一个系统,能够将来自 TED 演讲的英文语音录音自动翻译为德文文本。参赛系统可采用级联(cascade)或端到端(end-to-end)架构,并可使用自定义或给定的语音分段方式。本团队提交的方案为一种端到端语音翻译系统,该系统融合了预训练模型(Wav2Vec 2.0 与 mBART),并在编码器与解码器之间引入耦合模块,同时采用一种高效的微调技术,仅训练模型总参数的 20%。实验表明,向系统中引入 Adapter 模块并进行预训练,可显著提升模型收敛速度与最终性能,使系统在 MuST-C 测试集上达到 27.3 的 BLEU 分数。最终,通过模型集成(ensemble)策略,系统在相同测试集上进一步提升至 28.22 的 BLEU 分数。此外,本方案还提出了一种自定义语音分段算法,该算法基于预训练的 Wav2Vec 2.0 模型识别无法转录的语音片段,在 IWSLT 2019 测试集上相较使用给定分段方式,性能提升达 2.5 至 3 个 BLEU 分数。
代码仓库
mt-upc/iwslt-2021
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-to-text-translation-on-must-c-en-de | Wav2Vec2.0+mBART+Adaptors | Case-sensitive sacreBLEU: 28.22 |