6 个月前

监督式微调

自然语言处理

Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright Pamela Mishkin Chong Zhang Sandhini Agarwal Katarina Slama Alex Ray

摘要

单纯增大语言模型的规模，并不能使其更好地遵循用户的意图。例如，大型语言模型可能生成不真实、具有攻击性或对用户无益的内容，也就是说，这些模型与用户的需求并未对齐。本文提出了一种通过人类反馈进行微调的方法，以在多种任务上实现语言模型与用户意图的有效对齐。我们首先收集由标注者编写以及通过 OpenAI API 提交的提示（prompts），并基于这些提示构建了一个标注者示范数据集，用以展示期望的模型行为。随后，我们利用监督学习对 GPT-3 模型进行微调。接着，我们进一步收集了对模型输出结果的排序数据集，并基于此采用人类反馈的强化学习方法对已有的监督模型进行二次微调。由此产生的模型被称为 InstructGPT。在我们所定义的提示分布上的人类评估中，尽管 InstructGPT 模型参数量仅为 13 亿（1.3B），仅为 GPT-3（1750 亿参数）的 1/100，其输出仍被人类用户更偏好。此外，InstructGPT 模型在提升回答的真实性方面表现显著，同时大幅减少了有毒内容的生成，且在公开的自然语言处理（NLP）数据集上的性能退化极小。尽管 InstructGPT 仍会犯一些简单错误，但我们的实验结果表明，基于人类反馈进行微调是一种极具前景的路径，能够有效实现语言模型与人类意图的对齐。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

自然语言处理

Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright Pamela Mishkin Chong Zhang Sandhini Agarwal Katarina Slama Alex Ray

摘要

单纯增大语言模型的规模，并不能使其更好地遵循用户的意图。例如，大型语言模型可能生成不真实、具有攻击性或对用户无益的内容，也就是说，这些模型与用户的需求并未对齐。本文提出了一种通过人类反馈进行微调的方法，以在多种任务上实现语言模型与用户意图的有效对齐。我们首先收集由标注者编写以及通过 OpenAI API 提交的提示（prompts），并基于这些提示构建了一个标注者示范数据集，用以展示期望的模型行为。随后，我们利用监督学习对 GPT-3 模型进行微调。接着，我们进一步收集了对模型输出结果的排序数据集，并基于此采用人类反馈的强化学习方法对已有的监督模型进行二次微调。由此产生的模型被称为 InstructGPT。在我们所定义的提示分布上的人类评估中，尽管 InstructGPT 模型参数量仅为 13 亿（1.3B），仅为 GPT-3（1750 亿参数）的 1/100，其输出仍被人类用户更偏好。此外，InstructGPT 模型在提升回答的真实性方面表现显著，同时大幅减少了有毒内容的生成，且在公开的自然语言处理（NLP）数据集上的性能退化极小。尽管 InstructGPT 仍会犯一些简单错误，但我们的实验结果表明，基于人类反馈进行微调是一种极具前景的路径，能够有效实现语言模型与人类意图的对齐。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

使用人类反馈训练语言模型以遵循指令 | 论文 | HyperAI超神经