3 个月前

基于预训练模型与适配器的端到端语音翻译:UPC在IWSLT 2021的实践

基于预训练模型与适配器的端到端语音翻译:UPC在IWSLT 2021的实践

摘要

本文介绍了巴塞罗那理工大学(UPC)机器翻译团队在 IWSLT 2021 离线语音翻译任务中的参赛方案。该任务要求构建一个系统,能够将来自 TED 演讲的英文语音录音自动翻译为德文文本。参赛系统可采用级联(cascade)或端到端(end-to-end)架构,并可使用自定义或给定的语音分段方式。本团队提交的方案为一种端到端语音翻译系统,该系统融合了预训练模型(Wav2Vec 2.0 与 mBART),并在编码器与解码器之间引入耦合模块,同时采用一种高效的微调技术,仅训练模型总参数的 20%。实验表明,向系统中引入 Adapter 模块并进行预训练,可显著提升模型收敛速度与最终性能,使系统在 MuST-C 测试集上达到 27.3 的 BLEU 分数。最终,通过模型集成(ensemble)策略,系统在相同测试集上进一步提升至 28.22 的 BLEU 分数。此外,本方案还提出了一种自定义语音分段算法,该算法基于预训练的 Wav2Vec 2.0 模型识别无法转录的语音片段,在 IWSLT 2019 测试集上相较使用给定分段方式,性能提升达 2.5 至 3 个 BLEU 分数。

代码仓库

mt-upc/iwslt-2021
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-to-text-translation-on-must-c-en-deWav2Vec2.0+mBART+Adaptors
Case-sensitive sacreBLEU: 28.22

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于预训练模型与适配器的端到端语音翻译:UPC在IWSLT 2021的实践 | 论文 | HyperAI超神经