3 个月前

mT5:一种大规模多语言预训练文本到文本转换器

mT5:一种大规模多语言预训练文本到文本转换器

摘要

最近提出的“文本到文本迁移变换器”(Text-to-Text Transfer Transformer, T5)通过采用统一的文本到文本格式并结合大规模模型规模,在多种英语自然语言处理任务中取得了当时最先进的性能。本文中,我们介绍了mT5,即T5的多语言版本,该模型在基于Common Crawl构建的新数据集上进行了预训练,覆盖了101种语言。我们详细阐述了mT5的设计思路及其改进的训练方法,并在多个多语言基准测试中展示了其达到最先进水平的性能表现。此外,我们提出了一种简单有效的技术,可有效防止在零样本(zero-shot)场景下生成模型出现“意外翻译”现象——即模型错误地(部分地)将其预测结果翻译成目标语言之外的其他语言。本文所使用的所有代码和模型检查点均已公开发布,供学术界和工业界自由使用。

代码仓库

MorenoLaQuatra/bart-it
pytorch
GitHub 中提及
manshri/tesum
pytorch
GitHub 中提及
google-research/multilingual-t5
官方
tf
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
google-research/byt5
tf
GitHub 中提及

基准测试

基准方法指标
common-sense-reasoning-on-parusMT5 Large
Accuracy: 0.504
common-sense-reasoning-on-rucosMT5 Large
Average F1: 0.57
EM : 0.562
common-sense-reasoning-on-rwsdMT5 Large
Accuracy: 0.669
natural-language-inference-on-lidirusMT5 Large
MCC: 0.061
natural-language-inference-on-rcbMT5 Large
Accuracy: 0.454
Average F1: 0.366
natural-language-inference-on-terraMT5 Large
Accuracy: 0.561
question-answering-on-danetqaMT5 Large
Accuracy: 0.657
reading-comprehension-on-musercMT5 Large
Average F1: 0.844
EM : 0.543
zero-shot-cross-lingual-transfer-on-xtrememT5
Avg: 40.9
Question Answering: 73.6
Sentence Retrieval: NA
Sentence-pair Classification: 89.8
Structured Prediction: NA

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
mT5:一种大规模多语言预训练文本到文本转换器 | 论文 | HyperAI超神经