3 个月前

使用人类反馈训练语言模型以遵循指令

使用人类反馈训练语言模型以遵循指令

摘要

单纯增大语言模型的规模,并不能使其更好地遵循用户的意图。例如,大型语言模型可能生成不真实、具有攻击性或对用户无益的内容,也就是说,这些模型与用户的需求并未对齐。本文提出了一种通过人类反馈进行微调的方法,以在多种任务上实现语言模型与用户意图的有效对齐。我们首先收集由标注者编写以及通过 OpenAI API 提交的提示(prompts),并基于这些提示构建了一个标注者示范数据集,用以展示期望的模型行为。随后,我们利用监督学习对 GPT-3 模型进行微调。接着,我们进一步收集了对模型输出结果的排序数据集,并基于此采用人类反馈的强化学习方法对已有的监督模型进行二次微调。由此产生的模型被称为 InstructGPT。在我们所定义的提示分布上的人类评估中,尽管 InstructGPT 模型参数量仅为 13 亿(1.3B),仅为 GPT-3(1750 亿参数)的 1/100,其输出仍被人类用户更偏好。此外,InstructGPT 模型在提升回答的真实性方面表现显著,同时大幅减少了有毒内容的生成,且在公开的自然语言处理(NLP)数据集上的性能退化极小。尽管 InstructGPT 仍会犯一些简单错误,但我们的实验结果表明,基于人类反馈进行微调是一种极具前景的路径,能够有效实现语言模型与人类意图的对齐。

代码仓库

tatsu-lab/alpaca_farm
pytorch
GitHub 中提及
hiyouga/llama-efficient-tuning
pytorch
GitHub 中提及
laion-ai/open-assistant
GitHub 中提及
daniel-furman/sft-demos
pytorch
GitHub 中提及
ggml-org/llama.cpp
pytorch
GitHub 中提及
ggerganov/llama.cpp
pytorch
GitHub 中提及
grantslatton/llama.cpp
GitHub 中提及
longhao-chen/aicas2024
pytorch
GitHub 中提及
tatsu-lab/linguistic_calibration
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-timequestionsInstructGPT
P@1: 22.4
question-answering-on-tiqInstructGpt
P@1: 23.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用人类反馈训练语言模型以遵循指令 | 论文 | HyperAI超神经