HyperAI

摘要

在预训练自然语言表示时，增加模型规模通常会提高下游任务的性能。然而，在某个点之后，由于GPU/TPU内存限制和更长的训练时间，进一步扩大模型变得越来越困难。为了解决这些问题，我们提出了两种参数减少技术，以降低内存消耗并加快BERT的训练速度。广泛的实验证据表明，我们提出的方法相比原始的BERT模型具有更好的扩展性。此外，我们还使用了一种专注于建模句间连贯性的自监督损失函数，并证明它对多句子输入的下游任务持续有益。因此，我们的最佳模型在GLUE、RACE和SQuAD基准测试中建立了新的最先进结果，同时其参数量少于BERT-large。代码和预训练模型可在https://github.com/google-research/ALBERT获取。

摘要

Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ALBERT：一种轻量级的BERT用于自监督语言表示学习

Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ALBERT：一种轻量级的BERT用于自监督语言表示学习

Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ALBERT：一种轻量级的BERT用于自监督语言表示学习

Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut

摘要

用 AI 构建 AI

HyperAI Newsletters