6 个月前

音频和语音处理

自然语言处理

Gerard I. Gállego Ioannis Tsiamas Carlos Escolano José A. R. Fonollosa Marta R. Costa-jussà

摘要

本文介绍了巴塞罗那理工大学（UPC）机器翻译团队在 IWSLT 2021 离线语音翻译任务中的参赛方案。该任务要求构建一个系统，能够将来自 TED 演讲的英文语音录音自动翻译为德文文本。参赛系统可采用级联（cascade）或端到端（end-to-end）架构，并可使用自定义或给定的语音分段方式。本团队提交的方案为一种端到端语音翻译系统，该系统融合了预训练模型（Wav2Vec 2.0 与 mBART），并在编码器与解码器之间引入耦合模块，同时采用一种高效的微调技术，仅训练模型总参数的 20%。实验表明，向系统中引入 Adapter 模块并进行预训练，可显著提升模型收敛速度与最终性能，使系统在 MuST-C 测试集上达到 27.3 的 BLEU 分数。最终，通过模型集成（ensemble）策略，系统在相同测试集上进一步提升至 28.22 的 BLEU 分数。此外，本方案还提出了一种自定义语音分段算法，该算法基于预训练的 Wav2Vec 2.0 模型识别无法转录的语音片段，在 IWSLT 2019 测试集上相较使用给定分段方式，性能提升达 2.5 至 3 个 BLEU 分数。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

自然语言处理

Gerard I. Gállego Ioannis Tsiamas Carlos Escolano José A. R. Fonollosa Marta R. Costa-jussà

摘要

本文介绍了巴塞罗那理工大学（UPC）机器翻译团队在 IWSLT 2021 离线语音翻译任务中的参赛方案。该任务要求构建一个系统，能够将来自 TED 演讲的英文语音录音自动翻译为德文文本。参赛系统可采用级联（cascade）或端到端（end-to-end）架构，并可使用自定义或给定的语音分段方式。本团队提交的方案为一种端到端语音翻译系统，该系统融合了预训练模型（Wav2Vec 2.0 与 mBART），并在编码器与解码器之间引入耦合模块，同时采用一种高效的微调技术，仅训练模型总参数的 20%。实验表明，向系统中引入 Adapter 模块并进行预训练，可显著提升模型收敛速度与最终性能，使系统在 MuST-C 测试集上达到 27.3 的 BLEU 分数。最终，通过模型集成（ensemble）策略，系统在相同测试集上进一步提升至 28.22 的 BLEU 分数。此外，本方案还提出了一种自定义语音分段算法，该算法基于预训练的 Wav2Vec 2.0 模型识别无法转录的语音片段，在 IWSLT 2019 测试集上相较使用给定分段方式，性能提升达 2.5 至 3 个 BLEU 分数。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供