8 个月前

Jordan Hoffmann* Sebastian Borgeaud* Arthur Mensch* Elena Buchatskaya Trevor Cai Eliza Rutherford Diego de Las Casas Lisa Anne Hendricks Johannes Welbl Aidan Clark

摘要

我们研究了在给定计算预算下训练 Transformer 语言模型的最佳模型规模和训练令牌数量。研究发现，当前的大规模语言模型显著欠训，这是由于近期研究重点放在扩大语言模型规模的同时保持训练数据量不变所致。通过训练超过400个参数范围从7000万到160亿以上的语言模型，以及50亿到5000亿的训练令牌，我们发现对于计算最优的训练，模型规模和训练令牌数量应该等比例扩展：每次模型规模翻倍时，训练令牌数量也应翻倍。为了验证这一假设，我们使用与Gopher相同的计算预算训练了一个预测的计算最优模型Chinchilla，该模型具有700亿参数和4倍于Gopher的数据量。Chinchilla在广泛的下游评估任务中显著且一致地优于Gopher（280亿参数）、GPT-3（175亿参数）、Jurassic-1（178亿参数）和Megatron-Turing NLG（530亿参数）。这也意味着Chinchilla在微调和推理过程中使用的计算资源大大减少，极大地促进了下游应用。值得一提的是，Chinchilla在MMLU基准测试中达到了67.5%的平均准确率，比Gopher提高了超过7个百分点。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Jordan Hoffmann* Sebastian Borgeaud* Arthur Mensch* Elena Buchatskaya Trevor Cai Eliza Rutherford Diego de Las Casas Lisa Anne Hendricks Johannes Welbl Aidan Clark

摘要

我们研究了在给定计算预算下训练 Transformer 语言模型的最佳模型规模和训练令牌数量。研究发现，当前的大规模语言模型显著欠训，这是由于近期研究重点放在扩大语言模型规模的同时保持训练数据量不变所致。通过训练超过400个参数范围从7000万到160亿以上的语言模型，以及50亿到5000亿的训练令牌，我们发现对于计算最优的训练，模型规模和训练令牌数量应该等比例扩展：每次模型规模翻倍时，训练令牌数量也应翻倍。为了验证这一假设，我们使用与Gopher相同的计算预算训练了一个预测的计算最优模型Chinchilla，该模型具有700亿参数和4倍于Gopher的数据量。Chinchilla在广泛的下游评估任务中显著且一致地优于Gopher（280亿参数）、GPT-3（175亿参数）、Jurassic-1（178亿参数）和Megatron-Turing NLG（530亿参数）。这也意味着Chinchilla在微调和推理过程中使用的计算资源大大减少，极大地促进了下游应用。值得一提的是，Chinchilla在MMLU基准测试中达到了67.5%的平均准确率，比Gopher提高了超过7个百分点。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供