
摘要
近年来,大型语言模型(LLMs)的进展显著推动了多语言语音翻译与机器翻译的发展,其优势体现在降低表示误差以及融合外部知识方面。然而,当前的翻译任务通常采用束搜索(beam search)解码策略并仅选取最优的单个假设(top-1)作为输出。这类方法难以充分挖掘多样化的N-best候选译文所蕴含的丰富信息,因而对于需要生成单一高质量输出序列的翻译任务而言,其性能并非最优。本文提出一种面向翻译任务的新生成范式——“GenTranslate”,该方法基于大型语言模型,从N-best候选译文列表中整合多样化信息,生成更优的翻译结果。通过充分利用LLMs所具备的丰富语言知识与强大的推理能力,GenTranslate能够有效融合N-best候选结果中的语义与结构信息,从而生成质量更高的翻译输出。此外,为支持LLM的微调训练,我们构建并公开发布了一个名为HypoTranslate的数据集,该数据集包含11种语言的超过59.2万对候选译文-目标译文样本。在多个语音翻译与机器翻译基准测试(如FLEURS、CoVoST-2、WMT等)上的实验结果表明,GenTranslate显著优于现有最先进模型,展现出卓越的翻译性能。
代码仓库
yuchen005/gentranslate
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-flores-200 | GenTranslate-7B | BLEU: 38.5 |
| machine-translation-on-wmt2016-romanian | GenTranslate | BLEU score: 33.5 |
| speech-to-speech-translation-on-fleurs-x-eng | GenTranslateV2 | ASR-BLEU: 32.3 |
| speech-to-speech-translation-on-fleurs-x-eng | GenTranslateV1 | ASR-BLEU: 30.1 |