4 个月前

ByT5:迈向无标记未来的预训练字节到字节模型

ByT5:迈向无标记未来的预训练字节到字节模型

摘要

大多数广泛使用的预训练语言模型都是基于对应于单词或子词单元的标记序列进行操作的。相比之下,直接在原始文本(字节或字符)上运行的无标记模型具有许多优势:它们可以立即处理任何语言的文本,对噪声更加鲁棒,并通过消除复杂且易出错的文本预处理流程来减少技术债务。由于字节或字符序列比标记序列更长,过去关于无标记模型的研究通常引入了新的模型架构,以分摊直接在原始文本上操作的成本。在本文中,我们展示了标准的Transformer架构只需进行少量修改即可用于处理字节序列。我们从参数数量、训练浮点运算次数(FLOPs)和推理速度等方面分析了这些权衡,并表明字节级模型在性能上可与标记级模型相媲美。此外,我们还证明了字节级模型对噪声具有显著更强的鲁棒性,并在对拼写和发音敏感的任务中表现更好。作为我们的贡献之一,我们发布了基于T5架构的一系列新的预训练字节级Transformer模型,以及我们在实验中使用的所有代码和数据。

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ByT5:迈向无标记未来的预训练字节到字节模型 | 论文 | HyperAI超神经