3 个月前

循环神经网络用于参数共享

摘要

大型语言模型（如GPT）的成功在很大程度上归因于其高效预测序列中下一个标记（token）的能力。然而，这类模型在预测任意标记时均需付出恒定的计算开销，无论该标记的复杂程度如何，且缺乏迭代优化的能力。本文提出一种新型的循环神经网络（Loop Neural Network），通过在不增加模型参数量的前提下，延长计算时间，实现了更优的性能表现。该方法通过多次回溯输入，利用带有残差连接的模型子集进行迭代循环，逐步优化预测结果。实验结果表明，将我们的循环模型与GPT-2的不同版本进行对比，在语言建模任务中均取得了显著提升，同时保持了相近的参数规模。尤为重要的是，这些性能改进无需依赖额外的训练数据即可实现。

基准测试

基准	方法	指标
text-generation-on-openwebtext	GPT2-81M-LOOP	eval_loss: 3.11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供