3 个月前

TRANS-BLSTM:用于语言理解的双向LSTM增强型Transformer

TRANS-BLSTM:用于语言理解的双向LSTM增强型Transformer

摘要

双向编码器表示模型(Bidirectional Encoder Representations from Transformers,简称 BERT)近期在自然语言处理(NLP)的多项任务中取得了最先进水平的性能,涵盖句子分类、机器翻译和问答系统等。BERT 模型架构主要基于 Transformer 结构。在 Transformer 出现之前,双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)是神经机器翻译和问答系统领域占主导地位的建模架构。本文旨在研究如何将这两种建模技术相结合,以构建更具表现力的模型架构。为此,我们提出一种新型架构——Transformer 与 BLSTM 融合模型(TRANS-BLSTM),该架构在每个 Transformer 模块中集成了一层 BLSTM,从而形成一种融合 Transformer 与 BLSTM 的联合建模框架。实验结果表明,在 GLUE 和 SQuAD 1.1 基准测试中,TRANS-BLSTM 模型在准确率方面均持续优于 BERT 基线模型。其中,我们的 TRANS-BLSTM 模型在 SQuAD 1.1 开发集上取得了 94.01% 的 F1 分数,达到当前最先进水平。

基准测试

基准方法指标
natural-language-inference-on-qnliTRANS-BLSTM
Accuracy: 94.08%
paraphrase-identification-on-quora-questionTRANS-BLSTM
Accuracy: 88.28
text-classification-on-glue-mrpcTRANS-BLSTM
Accuracy: 90.45
text-classification-on-glue-rteTRANS-BLSTM
Accuracy: 79.78
text-classification-on-glue-sst2TRANS-BLSTM
Accuracy: 94.38

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TRANS-BLSTM:用于语言理解的双向LSTM增强型Transformer | 论文 | HyperAI超神经