3 个月前

Speechformer:在直接语音翻译中减少信息丢失

Speechformer:在直接语音翻译中减少信息丢失

摘要

基于Transformer的模型在多个研究领域中取得了最先进的性能,尤其在语音翻译任务中备受关注。然而,Transformer模型的计算复杂度与输入序列长度呈二次关系,这使得其直接应用于音频信号时面临挑战,因为音频信号通常以长序列形式表示。当前的解决方案通常依赖于对原始音频特征进行固定采样以实现初步的次优压缩,导致潜在的有用语言信息无法被网络高层有效获取。为解决这一问题,我们提出了Speechformer架构,该架构通过降低注意力层中的内存占用,避免了初始的有损压缩,并基于更具语言学意义的判据,在更高层次上聚合信息。在三个语言对(en→de/es/nl)上的实验表明,该方法具有显著有效性:在标准的MuST-C语料库上,BLEU得分最高提升0.8;在低资源场景下,BLEU得分最高提升达4.0。

代码仓库

基准测试

基准方法指标
speech-to-text-translation-on-must-c-en-deSpeechformer
Case-sensitive sacreBLEU: 23.6
speech-to-text-translation-on-must-c-en-esSpeechformer
Case-sensitive sacreBLEU: 28.5
speech-to-text-translation-on-must-c-en-nlSpeechformer
Case-sensitive sacreBLEU: 27.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Speechformer:在直接语音翻译中减少信息丢失 | 论文 | HyperAI超神经