8 个月前

Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra Cojocaru Mérouane Debbah Etienne Goffinet Daniel Hesslow Julien Launay Quentin Malartic

摘要

我们介绍Falcon系列模型：7B、40B和180B参数的因果解码器模型，这些模型主要基于从网络数据中收集的高质量多样化语料库进行训练。最大的模型Falcon-180B已经接受了超过3.5万亿个文本标记的训练——这是迄今为止公开记录的最大规模预训练运行。Falcon-180B在性能上显著超越了PaLM或Chinchilla等模型，并且在与同期开发的LLaMA 2或Inflection-1等模型相比也有所提升。它以较低的预训练和推理成本接近了PaLM-2-Large的性能，据我们所知，这使它成为世界上性能最佳的三大语言模型之一，与GPT-4和PaLM-2-Large并驾齐驱。我们报告了详细的评估结果，并深入探讨了用于预训练Falcon的方法和自定义工具。特别值得一提的是，我们介绍了我们的自定义分布式训练代码库，该代码库使我们能够在AWS云基础设施上使用多达4,096块A100 GPU（有限互联）高效地进行预训练。我们还发布了包含600亿个标记的网络数据集提取部分，并以宽松许可的方式发布了Falcon-7/40/180B模型，以促进开放科学并加速大型语言模型开放生态系统的开发。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra Cojocaru Mérouane Debbah Etienne Goffinet Daniel Hesslow Julien Launay Quentin Malartic

摘要

我们介绍Falcon系列模型：7B、40B和180B参数的因果解码器模型，这些模型主要基于从网络数据中收集的高质量多样化语料库进行训练。最大的模型Falcon-180B已经接受了超过3.5万亿个文本标记的训练——这是迄今为止公开记录的最大规模预训练运行。Falcon-180B在性能上显著超越了PaLM或Chinchilla等模型，并且在与同期开发的LLaMA 2或Inflection-1等模型相比也有所提升。它以较低的预训练和推理成本接近了PaLM-2-Large的性能，据我们所知，这使它成为世界上性能最佳的三大语言模型之一，与GPT-4和PaLM-2-Large并驾齐驱。我们报告了详细的评估结果，并深入探讨了用于预训练Falcon的方法和自定义工具。特别值得一提的是，我们介绍了我们的自定义分布式训练代码库，该代码库使我们能够在AWS云基础设施上使用多达4,096块A100 GPU（有限互联）高效地进行预训练。我们还发布了包含600亿个标记的网络数据集提取部分，并以宽松许可的方式发布了Falcon-7/40/180B模型，以促进开放科学并加速大型语言模型开放生态系统的开发。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供