8 个月前

监督式微调

多任务学习

Liang Hou Yingqian Zhang Zhenyu Liu Zhengwei Yang Yiming Xiong Li-Jia Li Yao Lu Yonghui Xiao

摘要

通过在一系列以指令形式表述的数据集上对语言模型进行微调，已被证明可以提高模型性能并增强其对未见过任务的泛化能力。本文特别探讨了指令微调的三个方面：（1）扩展任务数量，（2）扩展模型规模，以及（3）基于链式思维数据的微调。研究发现，结合上述方面的指令微调显著提升了多种模型类别（PaLM、T5、U-PaLM）、提示设置（零样本、少样本、CoT）和评估基准（MMLU、BBH、TyDiQA、MGSM、开放式生成）上的性能。例如，经过1.8K个任务指令微调的Flan-PaLM 540B在多个评估指标上大幅超越了PaLM 540B（平均提升9.4%）。Flan-PaLM 540B在五次提示的MMLU基准测试中达到了75.2%的准确率，实现了当前最佳性能。此外，我们还公开发布了Flan-T5检查点，这些检查点即使与更大规模的模型（如PaLM 62B）相比也表现出强大的少样本性能。总体而言，指令微调是一种普遍适用的方法，能够有效提升预训练语言模型的性能和可用性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

监督式微调

多任务学习

Liang Hou Yingqian Zhang Zhenyu Liu Zhengwei Yang Yiming Xiong Li-Jia Li Yao Lu Yonghui Xiao

摘要

通过在一系列以指令形式表述的数据集上对语言模型进行微调，已被证明可以提高模型性能并增强其对未见过任务的泛化能力。本文特别探讨了指令微调的三个方面：（1）扩展任务数量，（2）扩展模型规模，以及（3）基于链式思维数据的微调。研究发现，结合上述方面的指令微调显著提升了多种模型类别（PaLM、T5、U-PaLM）、提示设置（零样本、少样本、CoT）和评估基准（MMLU、BBH、TyDiQA、MGSM、开放式生成）上的性能。例如，经过1.8K个任务指令微调的Flan-PaLM 540B在多个评估指标上大幅超越了PaLM 540B（平均提升9.4%）。Flan-PaLM 540B在五次提示的MMLU基准测试中达到了75.2%的准确率，实现了当前最佳性能。此外，我们还公开发布了Flan-T5检查点，这些检查点即使与更大规模的模型（如PaLM 62B）相比也表现出强大的少样本性能。总体而言，指令微调是一种普遍适用的方法，能够有效提升预训练语言模型的性能和可用性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供