3 个月前

循环神经网络用于参数共享

循环神经网络用于参数共享

摘要

大型语言模型(如GPT)的成功在很大程度上归因于其高效预测序列中下一个标记(token)的能力。然而,这类模型在预测任意标记时均需付出恒定的计算开销,无论该标记的复杂程度如何,且缺乏迭代优化的能力。本文提出一种新型的循环神经网络(Loop Neural Network),通过在不增加模型参数量的前提下,延长计算时间,实现了更优的性能表现。该方法通过多次回溯输入,利用带有残差连接的模型子集进行迭代循环,逐步优化预测结果。实验结果表明,将我们的循环模型与GPT-2的不同版本进行对比,在语言建模任务中均取得了显著提升,同时保持了相近的参数规模。尤为重要的是,这些性能改进无需依赖额外的训练数据即可实现。

基准测试

基准方法指标
text-generation-on-openwebtextGPT2-81M-LOOP
eval_loss: 3.11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
循环神经网络用于参数共享 | 论文 | HyperAI超神经