4 个月前

ALBERT:一种轻量级的BERT用于自监督语言表示学习

ALBERT:一种轻量级的BERT用于自监督语言表示学习

摘要

在预训练自然语言表示时,增加模型规模通常会提高下游任务的性能。然而,在某个点之后,由于GPU/TPU内存限制和更长的训练时间,进一步扩大模型变得越来越困难。为了解决这些问题,我们提出了两种参数减少技术,以降低内存消耗并加快BERT的训练速度。广泛的实验证据表明,我们提出的方法相比原始的BERT模型具有更好的扩展性。此外,我们还使用了一种专注于建模句间连贯性的自监督损失函数,并证明它对多句子输入的下游任务持续有益。因此,我们的最佳模型在GLUE、RACE和SQuAD基准测试中建立了新的最先进结果,同时其参数量少于BERT-large。代码和预训练模型可在https://github.com/google-research/ALBERT获取。

代码仓库

lyqcom/albert
mindspore
jpablou/Matching-The-Blanks-Ths
pytorch
GitHub 中提及
yahah100/text_summarization
tf
GitHub 中提及
common-english/bert-all
pytorch
GitHub 中提及
benywon/ReCO
pytorch
GitHub 中提及
rajatgermany/qa-nlp
pytorch
GitHub 中提及
kpe/bert-for-tf2
tf
GitHub 中提及
google-research/ALBERT
官方
tf
GitHub 中提及
codegram/calbert
pytorch
GitHub 中提及
cypressd1999/FYP_2021
pytorch
GitHub 中提及
brightmart/albert_zh
tf
GitHub 中提及
KnightZhang625/BERT_TF
tf
GitHub 中提及
Soikonomou/albert_final_infer8
pytorch
GitHub 中提及
CLUEbenchmark/CLUE
tf
GitHub 中提及
facebookresearch/anli
pytorch
GitHub 中提及
benywon/Chinese-GPT-2
pytorch
GitHub 中提及
lucidrains/routing-transformer
pytorch
GitHub 中提及
plkmo/BERT-Relation-Extraction
pytorch
GitHub 中提及
Sanyuan-Chen/RecAdam
pytorch
GitHub 中提及
Tencent/TurboTransformers
pytorch
GitHub 中提及
Soikonomou/albert_final_infer12
pytorch
GitHub 中提及
Soikonomou/albert_final
pytorch
GitHub 中提及
xinyooo/ALBERT4Rec
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
lonePatient/albert_pytorch
pytorch
GitHub 中提及
graykode/ALBERT-Pytorch
pytorch
GitHub 中提及
epfml/collaborative-attention
pytorch
GitHub 中提及
mtzcorporations/nlp_teamjodka
pytorch
GitHub 中提及
Soikonomou/bert_new_new
pytorch
GitHub 中提及
hieudepchai/BERT_IE
pytorch
GitHub 中提及
vvvm23/albert
pytorch
GitHub 中提及
Soikonomou/bert_new
pytorch
GitHub 中提及
lucidrains/sinkhorn-transformer
pytorch
GitHub 中提及
mandubian/codenets
pytorch
GitHub 中提及
appcoreopc/berty
tf
GitHub 中提及

基准测试

基准方法指标
common-sense-reasoning-on-commonsenseqaAlbert Lan et al. (2020) (ensemble)
Accuracy: 76.5
linguistic-acceptability-on-colaALBERT
Accuracy: 69.1%
multi-task-language-understanding-on-mmluALBERT-xxlarge 223M (fine-tuned)
Average (%): 27.1
multimodal-intent-recognition-on-photochatALBERT-base
F1: 52.2
Precision: 44.8
Recall: 62.7
natural-language-inference-on-multinliALBERT
Matched: 91.3
natural-language-inference-on-qnliALBERT
Accuracy: 99.2%
natural-language-inference-on-rteALBERT
Accuracy: 89.2%
natural-language-inference-on-wnliALBERT
Accuracy: 91.8
question-answering-on-multitqALBERT
Hits@1: 10.8
Hits@10: 45.9
question-answering-on-quora-question-pairsALBERT
Accuracy: 90.5%
question-answering-on-squad20ALBERT (single model)
EM: 88.107
F1: 90.902
question-answering-on-squad20ALBERT (ensemble model)
EM: 89.731
F1: 92.215
question-answering-on-squad20-devALBERT base
EM: 76.1
F1: 79.1
question-answering-on-squad20-devALBERT large
EM: 79.0
F1: 82.1
question-answering-on-squad20-devALBERT xlarge
EM: 83.1
F1: 85.9
question-answering-on-squad20-devALBERT xxlarge
EM: 85.1
F1: 88.1
semantic-textual-similarity-on-mrpcALBERT
Accuracy: 93.4%
semantic-textual-similarity-on-sts-benchmarkALBERT
Pearson Correlation: 0.925
sentiment-analysis-on-sst-2-binaryALBERT
Accuracy: 97.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ALBERT:一种轻量级的BERT用于自监督语言表示学习 | 论文 | HyperAI超神经