4 个月前

Falcon 系列开放语言模型

Falcon 系列开放语言模型

摘要

我们介绍Falcon系列模型:7B、40B和180B参数的因果解码器模型,这些模型主要基于从网络数据中收集的高质量多样化语料库进行训练。最大的模型Falcon-180B已经接受了超过3.5万亿个文本标记的训练——这是迄今为止公开记录的最大规模预训练运行。Falcon-180B在性能上显著超越了PaLM或Chinchilla等模型,并且在与同期开发的LLaMA 2或Inflection-1等模型相比也有所提升。它以较低的预训练和推理成本接近了PaLM-2-Large的性能,据我们所知,这使它成为世界上性能最佳的三大语言模型之一,与GPT-4和PaLM-2-Large并驾齐驱。我们报告了详细的评估结果,并深入探讨了用于预训练Falcon的方法和自定义工具。特别值得一提的是,我们介绍了我们的自定义分布式训练代码库,该代码库使我们能够在AWS云基础设施上使用多达4,096块A100 GPU(有限互联)高效地进行预训练。我们还发布了包含600亿个标记的网络数据集提取部分,并以宽松许可的方式发布了Falcon-7/40/180B模型,以促进开放科学并加速大型语言模型开放生态系统的开发。

基准测试

基准方法指标
multi-task-language-understanding-on-mmluFalcon 40B
Average (%): 57.0
multi-task-language-understanding-on-mmluFalcon 7B (5-shot)
Average (%): 28.0
multi-task-language-understanding-on-mmluFalcon 180B (5-shot)
Average (%): 70.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Falcon 系列开放语言模型 | 论文 | HyperAI超神经