
摘要
双向编码器表示模型(Bidirectional Encoder Representations from Transformers,简称 BERT)近期在自然语言处理(NLP)的多项任务中取得了最先进水平的性能,涵盖句子分类、机器翻译和问答系统等。BERT 模型架构主要基于 Transformer 结构。在 Transformer 出现之前,双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)是神经机器翻译和问答系统领域占主导地位的建模架构。本文旨在研究如何将这两种建模技术相结合,以构建更具表现力的模型架构。为此,我们提出一种新型架构——Transformer 与 BLSTM 融合模型(TRANS-BLSTM),该架构在每个 Transformer 模块中集成了一层 BLSTM,从而形成一种融合 Transformer 与 BLSTM 的联合建模框架。实验结果表明,在 GLUE 和 SQuAD 1.1 基准测试中,TRANS-BLSTM 模型在准确率方面均持续优于 BERT 基线模型。其中,我们的 TRANS-BLSTM 模型在 SQuAD 1.1 开发集上取得了 94.01% 的 F1 分数,达到当前最先进水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-inference-on-qnli | TRANS-BLSTM | Accuracy: 94.08% |
| paraphrase-identification-on-quora-question | TRANS-BLSTM | Accuracy: 88.28 |
| text-classification-on-glue-mrpc | TRANS-BLSTM | Accuracy: 90.45 |
| text-classification-on-glue-rte | TRANS-BLSTM | Accuracy: 79.78 |
| text-classification-on-glue-sst2 | TRANS-BLSTM | Accuracy: 94.38 |