6 个月前

摘要

神经机器翻译（Neural Machine Translation, NMT）在自然语言处理领域已发展成为一项关键技术，得益于持续深入的研究与开发。然而，高质量双语语料数据的匮乏仍然是制约NMT性能提升的主要瓶颈。近年来，研究者们开始探索利用预训练语言模型（Pre-trained Language Model, PLM）中的上下文信息来缓解这一问题。然而，PLM与NMT模型之间的不兼容性问题尚未得到有效解决。为此，本研究提出了一种融合PLM的NMT模型——PiNMT（PLM-integrated NMT），以应对上述挑战。PiNMT模型包含三个核心组件：PLM多层转换器（PLM Multi Layer Converter）、嵌入融合模块（Embedding Fusion）以及余弦对齐机制（Cosine Alignment），各组件在有效传递PLM信息至NMT模型方面发挥关键作用。此外，本文还引入两种新的训练策略：独立学习率策略（Separate Learning Rates）与双阶段训练策略（Dual Step Training）。通过采用所提出的PiNMT模型及其训练方法，我们在IWSLT'14 En↔De数据集上取得了当前最优的翻译性能。本研究的成果具有重要意义，首次展示了高效融合PLM与NMT的创新路径，有效解决了两者之间的不兼容性问题，显著提升了翻译性能。

源 PDF