3 个月前

如何用学术预算训练BERT

如何用学术预算训练BERT

摘要

尽管以BERT为代表的大型语言模型在自然语言处理(NLP)领域被广泛使用,但其预训练过程通常被视为一项只有少数资金雄厚的工业实验室才能承担的奢侈投入。那么,如何在有限预算下实现此类模型的训练?本文提出了一种在单台低端深度学习服务器上,仅用24小时即可完成掩码语言模型预训练的可行方案。我们证明,通过软件优化、架构设计选择以及超参数调优的有机结合,能够在远低于原始预训练成本的情况下,训练出在GLUE基准任务上表现可与BERT-base相媲美的模型。

代码仓库

IntelLabs/academic-budget-bert
官方
pytorch
GitHub 中提及
peteriz/academic-budget-bert
官方
pytorch
GitHub 中提及
octanove/shiba
pytorch
GitHub 中提及

基准测试

基准方法指标
linguistic-acceptability-on-cola24hBERT
Accuracy: 57.1
natural-language-inference-on-multinli24hBERT
Matched: 84.4
Mismatched: 83.8
natural-language-inference-on-qnli24hBERT
Accuracy: 90.6
natural-language-inference-on-rte24hBERT
Accuracy: 57.7%
question-answering-on-quora-question-pairs24hBERT
Accuracy: 70.7
semantic-textual-similarity-on-mrpc24hBERT
Accuracy: 87.5%
semantic-textual-similarity-on-sts-benchmark24hBERT
Pearson Correlation: 0.820
sentiment-analysis-on-sst-2-binary24hBERT
Accuracy: 93.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
如何用学术预算训练BERT | 论文 | HyperAI超神经