
摘要
最近提出的“文本到文本迁移变换器”(Text-to-Text Transfer Transformer, T5)通过采用统一的文本到文本格式并结合大规模模型规模,在多种英语自然语言处理任务中取得了当时最先进的性能。本文中,我们介绍了mT5,即T5的多语言版本,该模型在基于Common Crawl构建的新数据集上进行了预训练,覆盖了101种语言。我们详细阐述了mT5的设计思路及其改进的训练方法,并在多个多语言基准测试中展示了其达到最先进水平的性能表现。此外,我们提出了一种简单有效的技术,可有效防止在零样本(zero-shot)场景下生成模型出现“意外翻译”现象——即模型错误地(部分地)将其预测结果翻译成目标语言之外的其他语言。本文所使用的所有代码和模型检查点均已公开发布,供学术界和工业界自由使用。
代码仓库
KoshiroSato/Flask_NLP_App
GitHub 中提及
MorenoLaQuatra/bart-it
pytorch
GitHub 中提及
manshri/tesum
pytorch
GitHub 中提及
google-research/multilingual-t5
官方
tf
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
pwc-1/Paper-5/tree/main/mt5
mindspore
google-research/byt5
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-parus | MT5 Large | Accuracy: 0.504 |
| common-sense-reasoning-on-rucos | MT5 Large | Average F1: 0.57 EM : 0.562 |
| common-sense-reasoning-on-rwsd | MT5 Large | Accuracy: 0.669 |
| natural-language-inference-on-lidirus | MT5 Large | MCC: 0.061 |
| natural-language-inference-on-rcb | MT5 Large | Accuracy: 0.454 Average F1: 0.366 |
| natural-language-inference-on-terra | MT5 Large | Accuracy: 0.561 |
| question-answering-on-danetqa | MT5 Large | Accuracy: 0.657 |
| reading-comprehension-on-muserc | MT5 Large | Average F1: 0.844 EM : 0.543 |
| zero-shot-cross-lingual-transfer-on-xtreme | mT5 | Avg: 40.9 Question Answering: 73.6 Sentence Retrieval: NA Sentence-pair Classification: 89.8 Structured Prediction: NA |