8 个月前

自然语言处理

自然语言处理

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel

摘要

大多数广泛使用的预训练语言模型都是基于对应于单词或子词单元的标记序列进行操作的。相比之下，直接在原始文本（字节或字符）上运行的无标记模型具有许多优势：它们可以立即处理任何语言的文本，对噪声更加鲁棒，并通过消除复杂且易出错的文本预处理流程来减少技术债务。由于字节或字符序列比标记序列更长，过去关于无标记模型的研究通常引入了新的模型架构，以分摊直接在原始文本上操作的成本。在本文中，我们展示了标准的Transformer架构只需进行少量修改即可用于处理字节序列。我们从参数数量、训练浮点运算次数（FLOPs）和推理速度等方面分析了这些权衡，并表明字节级模型在性能上可与标记级模型相媲美。此外，我们还证明了字节级模型对噪声具有显著更强的鲁棒性，并在对拼写和发音敏感的任务中表现更好。作为我们的贡献之一，我们发布了基于T5架构的一系列新的预训练字节级Transformer模型，以及我们在实验中使用的所有代码和数据。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Linting Xue; Aditya Barua; Noah Constant; Rami Al-Rfou; Sharan Narang; Mihir Kale; Adam Roberts; Colin Raffel

摘要

大多数广泛使用的预训练语言模型都是基于对应于单词或子词单元的标记序列进行操作的。相比之下，直接在原始文本（字节或字符）上运行的无标记模型具有许多优势：它们可以立即处理任何语言的文本，对噪声更加鲁棒，并通过消除复杂且易出错的文本预处理流程来减少技术债务。由于字节或字符序列比标记序列更长，过去关于无标记模型的研究通常引入了新的模型架构，以分摊直接在原始文本上操作的成本。在本文中，我们展示了标准的Transformer架构只需进行少量修改即可用于处理字节序列。我们从参数数量、训练浮点运算次数（FLOPs）和推理速度等方面分析了这些权衡，并表明字节级模型在性能上可与标记级模型相媲美。此外，我们还证明了字节级模型对噪声具有显著更强的鲁棒性，并在对拼写和发音敏感的任务中表现更好。作为我们的贡献之一，我们发布了基于T5架构的一系列新的预训练字节级Transformer模型，以及我们在实验中使用的所有代码和数据。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供