
摘要
大多数广泛使用的预训练语言模型都是基于对应于单词或子词单元的标记序列进行操作的。相比之下,直接在原始文本(字节或字符)上运行的无标记模型具有许多优势:它们可以立即处理任何语言的文本,对噪声更加鲁棒,并通过消除复杂且易出错的文本预处理流程来减少技术债务。由于字节或字符序列比标记序列更长,过去关于无标记模型的研究通常引入了新的模型架构,以分摊直接在原始文本上操作的成本。在本文中,我们展示了标准的Transformer架构只需进行少量修改即可用于处理字节序列。我们从参数数量、训练浮点运算次数(FLOPs)和推理速度等方面分析了这些权衡,并表明字节级模型在性能上可与标记级模型相媲美。此外,我们还证明了字节级模型对噪声具有显著更强的鲁棒性,并在对拼写和发音敏感的任务中表现更好。作为我们的贡献之一,我们发布了基于T5架构的一系列新的预训练字节级Transformer模型,以及我们在实验中使用的所有代码和数据。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-lingual-natural-language-inference-on-4 | ByT5 Small | Accuracy: 69.1 |
| cross-lingual-natural-language-inference-on-4 | ByT5 XXL | Accuracy: 83.7 |
| cross-lingual-ner-on-wikiann-ner | ByT5 XXL | F1: 67.7 |
| cross-lingual-question-answering-on-mlqa | ByT5 XXL | EM: 54.9 F1: 71.6 |
| cross-lingual-question-answering-on-tydiqa | ByT5 XXL | EM: 60.0 F1: 75.3 |
| cross-lingual-question-answering-on-tydiqa | ByT5 (fine-tuned) | EM: 81.9 |
| cross-lingual-question-answering-on-xquad | ByT5 XXL | EM: 63.6 F1: 79.7 |
| extreme-summarization-on-gem-xsum | ByT5 | BLEU score: 15.3 |
| extreme-summarization-on-gem-xsum | mT5 | BLEU score: 14.3 |
| question-answering-on-tweetqa | ByT5 | ROUGE-L: 75.7 |
| question-answering-on-tweetqa | ByT5 (small) | BLEU-1: 72.0 |
| question-answering-on-tweetqa | mT5 | BLEU-1: 70.8 ROUGE-L: 74.3 |