HyperAI

摘要

现有的预训练模型通常针对某一类问题进行设计。迄今为止，关于正确的架构和预训练设置尚未达成共识。本文提出了一种统一的框架，旨在使预训练模型在不同数据集和设置下均能表现出普遍的有效性。我们首先将架构原型与预训练目标这两个常被混淆的概念区分开来。接下来，我们从自然语言处理（NLP）的角度提出了一个广义且统一的自我监督视角，展示了不同的预训练目标如何可以相互转换，以及在不同目标之间插值的有效性。随后，我们提出了混合去噪器（Mixture-of-Denoisers, MoD）这一预训练目标，该目标结合了多种预训练范式。此外，我们引入了模式切换的概念，即下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验，比较了多种预训练目标，并发现我们的方法通过在多个不同的设置中超越T5和GPT类模型而推进了帕累托前沿。通过将模型扩展到200亿参数规模，我们在50个基于监督微调的知名自然语言处理任务上实现了最先进的性能。我们的模型在上下文学习方面也取得了优异的成绩，在零样本SuperGLUE任务上超过了1750亿参数的GPT-3，并在一例摘要任务上的表现是T5-XXL的三倍。在零样本MMLU任务上，UL2 20B优于T0和T5模型。UL2 20B还在链式思维提示和推理方面表现出色，使其成为研究小至中等规模（200亿参数）推理问题的理想选择。最后，我们将FLAN指令调优应用于UL2 20B模型，在MMLU和Big-Bench评分上达到了与FLAN-PaLM 62B相当的竞争水平。我们发布了基于Flax的T5X检查点，包括UL2 20B和Flan-UL2 20B。关键词：预训练模型、架构原型、预训练目标、自我监督、混合去噪器（MoD）、模式切换、帕累托前沿、自然语言处理（NLP）、上下文学习、SuperGLUE、MMLU、链式思维提示、推理、FLAN指令调优、Flax、T5X检查点

摘要

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster

摘要

用 AI 构建 AI

HyperAI Newsletters

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster

摘要

用 AI 构建 AI

HyperAI Newsletters

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

UL2：统一语言学习范式

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

UL2：统一语言学习范式

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

UL2：统一语言学习范式

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster

Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason Wei Xuezhi Wang Hyung Won Chung Siamak Shakeri Dara Bahri Tal Schuster