3 个月前

BERT、mBERT 还是 BiBERT?面向神经机器翻译的上下文感知嵌入研究

BERT、mBERT 还是 BiBERT?面向神经机器翻译的上下文感知嵌入研究

摘要

双向编码器结合掩码语言模型(如BERT)在众多自然语言处理任务中取得成功,这一进展促使研究人员尝试将此类预训练模型引入神经机器翻译(NMT)系统。然而,现有融合预训练模型的方法通常较为复杂,且主要集中于BERT模型,缺乏对其他预训练模型在翻译性能上影响的系统性比较。本文证明,仅将经过专门设计且适用于双语场景的预训练语言模型(称为BiBERT)的输出(即上下文相关的词向量)直接作为NMT编码器的输入,即可实现当前最优的翻译性能。此外,我们还提出了一种随机层选择策略,并引入“双向翻译模型”的概念,以充分挖掘上下文嵌入的潜力。在不使用反向翻译(back translation)的情况下,我们的最优模型在IWSLT'14数据集上取得了30.45(英译德)和38.61(德译英)的BLEU分数,在WMT'14数据集上分别达到31.26(英译德)和34.94(德译英),均超越了所有已发表的现有结果。

代码仓库

he1ght/BiBERT_CE
pytorch
GitHub 中提及
fe1ixxu/BiBERT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-iwslt2014-germanBiBERT
BLEU score: 38.61
Number of Params: 73.8M
machine-translation-on-wmt2014-english-germanBiBERT
BLEU score: 31.26
machine-translation-on-wmt2014-german-englishBiBERT
BLEU score: 34.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BERT、mBERT 还是 BiBERT?面向神经机器翻译的上下文感知嵌入研究 | 论文 | HyperAI超神经