HyperAI超神经

摘要

我们介绍了GLM-130B，这是一个具有1300亿参数的双语（英语和汉语）预训练语言模型。该模型旨在开源一个至少与GPT-3（达芬奇）相当的百亿规模模型，并揭示如何成功地预训练如此大规模的模型。在这一过程中，我们遇到了许多意想不到的技术和工程挑战，特别是在损失峰值和发散问题上。本文介绍了GLM-130B的训练过程，包括其设计选择、为提高效率和稳定性而采用的训练策略以及工程努力。最终，GLM-130B在广泛的流行英语基准测试中显著优于GPT-3 1750亿参数（达芬奇），而在OPT-1750亿参数和BLOOM-1760亿参数模型中未观察到这种性能优势。此外，GLM-130B在相关基准测试中也始终显著优于最大的汉语语言模型ERNIE TITAN 3.0 2600亿参数。最后，我们利用了GLM-130B的独特缩放特性，在无需后训练的情况下实现了INT4量化，几乎没有任何性能损失，使其成为首个实现这一目标的百亿规模模型。更重要的是，这使得GLM-130B能够在4×RTX 3090（24GB）或8×RTX 2080 Ti（11GB）GPU上进行有效推理，这些是最经济实惠的用于运行百亿规模模型的GPU。GLM-130B的模型权重已公开访问，其代码、训练日志、相关工具包及经验教训已在\url{https://github.com/THUDM/GLM-130B/} 开源。

摘要

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang

摘要

用 AI 构建 AI

HyperAI Newsletters

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang

摘要

用 AI 构建 AI

HyperAI Newsletters

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GLM-130B：一个开放的双语预训练模型

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GLM-130B：一个开放的双语预训练模型

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GLM-130B：一个开放的双语预训练模型

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang

摘要

用 AI 构建 AI

HyperAI Newsletters