HyperAI

摘要

最近提出的“文本到文本迁移变换器”（Text-to-Text Transfer Transformer, T5）通过采用统一的文本到文本格式并结合大规模模型规模，在多种英语自然语言处理任务中取得了当时最先进的性能。本文中，我们介绍了mT5，即T5的多语言版本，该模型在基于Common Crawl构建的新数据集上进行了预训练，覆盖了101种语言。我们详细阐述了mT5的设计思路及其改进的训练方法，并在多个多语言基准测试中展示了其达到最先进水平的性能表现。此外，我们提出了一种简单有效的技术，可有效防止在零样本（zero-shot）场景下生成模型出现“意外翻译”现象——即模型错误地（部分地）将其预测结果翻译成目标语言之外的其他语言。本文所使用的所有代码和模型检查点均已公开发布，供学术界和工业界自由使用。

摘要

Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel

摘要

用 AI 构建 AI

HyperAI Newsletters

Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel

摘要

用 AI 构建 AI

HyperAI Newsletters

Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

mT5：一种大规模多语言预训练文本到文本转换器

Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

mT5：一种大规模多语言预训练文本到文本转换器

Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

mT5：一种大规模多语言预训练文本到文本转换器

Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel

摘要

用 AI 构建 AI

HyperAI Newsletters