6 个月前

自然语言处理

自然语言处理

Zhiheng Huang Peng Xu Davis Liang Ajay Mishra Bing Xiang

摘要

双向编码器表示模型（Bidirectional Encoder Representations from Transformers，简称 BERT）近期在自然语言处理（NLP）的多项任务中取得了最先进水平的性能，涵盖句子分类、机器翻译和问答系统等。BERT 模型架构主要基于 Transformer 结构。在 Transformer 出现之前，双向长短期记忆网络（Bidirectional Long Short-Term Memory，BLSTM）是神经机器翻译和问答系统领域占主导地位的建模架构。本文旨在研究如何将这两种建模技术相结合，以构建更具表现力的模型架构。为此，我们提出一种新型架构——Transformer 与 BLSTM 融合模型（TRANS-BLSTM），该架构在每个 Transformer 模块中集成了一层 BLSTM，从而形成一种融合 Transformer 与 BLSTM 的联合建模框架。实验结果表明，在 GLUE 和 SQuAD 1.1 基准测试中，TRANS-BLSTM 模型在准确率方面均持续优于 BERT 基线模型。其中，我们的 TRANS-BLSTM 模型在 SQuAD 1.1 开发集上取得了 94.01% 的 F1 分数，达到当前最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Zhiheng Huang Peng Xu Davis Liang Ajay Mishra Bing Xiang

摘要

双向编码器表示模型（Bidirectional Encoder Representations from Transformers，简称 BERT）近期在自然语言处理（NLP）的多项任务中取得了最先进水平的性能，涵盖句子分类、机器翻译和问答系统等。BERT 模型架构主要基于 Transformer 结构。在 Transformer 出现之前，双向长短期记忆网络（Bidirectional Long Short-Term Memory，BLSTM）是神经机器翻译和问答系统领域占主导地位的建模架构。本文旨在研究如何将这两种建模技术相结合，以构建更具表现力的模型架构。为此，我们提出一种新型架构——Transformer 与 BLSTM 融合模型（TRANS-BLSTM），该架构在每个 Transformer 模块中集成了一层 BLSTM，从而形成一种融合 Transformer 与 BLSTM 的联合建模框架。实验结果表明，在 GLUE 和 SQuAD 1.1 基准测试中，TRANS-BLSTM 模型在准确率方面均持续优于 BERT 基线模型。其中，我们的 TRANS-BLSTM 模型在 SQuAD 1.1 开发集上取得了 94.01% 的 F1 分数，达到当前最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供