6 个月前

Tao Lei

摘要

大型语言模型的训练正因计算时间与成本的持续增长而变得愈发困难。在本工作中，我们提出SRU++——一种高效序列建模架构，该架构融合了快速循环机制与注意力机制，兼具强大的建模能力与卓越的训练效率。在Enwik8、Wiki-103和Billion Word等标准语言建模任务上，我们的模型在实现更优的每字符比特数（bits-per-character）与困惑度（perplexity）的同时，训练成本仅为当前表现最优的Transformer模型的1/3至1/10。例如，在8张GPU的设备上仅需1.6天的训练时间，SRU++即在Enwik8数据集上达到了当前最优水平。此外，我们进一步证明，SRU++仅需极少的注意力计算即可接近最优性能。这些结果表明，将快速循环机制与轻量级注意力相结合，是一种极具前景的加速模型训练与推理的有效路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Tao Lei

摘要

大型语言模型的训练正因计算时间与成本的持续增长而变得愈发困难。在本工作中，我们提出SRU++——一种高效序列建模架构，该架构融合了快速循环机制与注意力机制，兼具强大的建模能力与卓越的训练效率。在Enwik8、Wiki-103和Billion Word等标准语言建模任务上，我们的模型在实现更优的每字符比特数（bits-per-character）与困惑度（perplexity）的同时，训练成本仅为当前表现最优的Transformer模型的1/3至1/10。例如，在8张GPU的设备上仅需1.6天的训练时间，SRU++即在Enwik8数据集上达到了当前最优水平。此外，我们进一步证明，SRU++仅需极少的注意力计算即可接近最优性能。这些结果表明，将快速循环机制与轻量级注意力相结合，是一种极具前景的加速模型训练与推理的有效路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供