3 个月前

问我任何问题:一种简单的LLM提示策略

问我任何问题:一种简单的LLM提示策略

摘要

大型语言模型(LLMs)仅通过提供一个自然语言提示(prompt)来演示任务的执行方式,即可无需额外训练便直接迁移到新任务上。然而,提示工程(prompting)过程极为脆弱:提示的微小改动可能导致模型输出产生显著波动。因此,研究者们往往投入大量精力,致力于设计出“完美”的提示。为减轻提示设计所带来的高成本,我们提出一个新思路:与其追求单一“完美”提示,不如生成多个有效但不完美的提示,并通过聚合这些提示的结果,形成高质量的提示策略。我们的观察促使我们提出了名为“ASK ME ANYTHING”(AMA)的新型提示方法。首先,我们深入分析了有效提示的格式,发现鼓励开放生成的问答类提示(如“谁去了公园?”)通常优于限制模型输出形式的提示(如“约翰去了公园。请输出真或假。”)。在此基础上,我们的方法递归地利用大语言模型自身,将原始任务输入自动转换为高效的问答格式。随后,我们使用这些生成的提示对输入样本进行多次预测,获得多个带有噪声的预测结果。我们发现,不同提示的准确率差异显著,且预测之间存在复杂的依赖关系,因此我们引入弱监督(weak supervision)机制——一种用于融合噪声预测结果的通用方法——以生成最终的预测输出。我们在多个开源模型系列(包括EleutherAI、BLOOM、OPT和T0)以及不同模型规模(参数量从1.25亿到1750亿)上对AMA方法进行了评估。结果表明,AMA在平均性能上相比少样本(few-shot)基线提升了10.2%。该简单而有效的策略使得开源的GPT-J-6B模型在20个主流基准测试中的15个上达到甚至超越了少样本调优的GPT-3-175B模型的表现。在这些任务的平均性能上,GPT-J-6B已全面超越少样本GPT-3-175B。我们已将相关代码开源,欢迎查阅:https://github.com/HazyResearch/ama_prompting

代码仓库

hazyresearch/ama_prompting
官方
GitHub 中提及
simran-arora/focus
pytorch
GitHub 中提及
simran-arora/privacy_fm
pytorch
GitHub 中提及

基准测试

基准方法指标
coreference-resolution-on-winograd-schemaNeo-6B (few-shot)
Accuracy: 36.5
coreference-resolution-on-winograd-schemaNeo-6B (QA)
Accuracy: 74.7
coreference-resolution-on-winograd-schemaNeo-6B (QA + WS)
Accuracy: 77.9
natural-language-inference-on-rteNeo-6B (QA + WS)
Accuracy: 75.1%
natural-language-inference-on-rteNeo-6B (few-shot)
Accuracy: 58.8%
natural-language-inference-on-rteNeo-6B (QA)
Accuracy: 61.7%
question-answering-on-boolqNeo-6B (QA)
Accuracy: 64.9
question-answering-on-boolqNeo-6B (few-shot)
Accuracy: 66.5
question-answering-on-boolqNeo-6B (QA + WS)
Accuracy: 67.2
question-answering-on-copaNeo-6B (few-shot)
Accuracy: 77.0
question-answering-on-copaNeo-6B (QA)
Accuracy: 58.2
question-answering-on-copaNeo-6B (QA + WS)
Accuracy: 84.0
question-answering-on-multircNeo-6B (QA)
F1: 58.8
question-answering-on-multircNeo-6B (few-shot)
F1: 60.8
question-answering-on-multircNeo-6B (QA + WS)
F1: 63.8
question-answering-on-natural-questionsNeo-6B (QA + WS)
EM: 19.6
question-answering-on-natural-questionsNeo-6B (Few-Shot)
EM: 13.7
question-answering-on-natural-questionsNeo-6B (QA)
EM: 19.7
question-answering-on-story-clozeNeo-6B (QA)
Accuracy: 76.3
question-answering-on-story-clozeNeo-6B (QA + WS)
Accuracy: 87.8
question-answering-on-story-clozeNeo-6B (few-shot)
Accuracy: 51.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
问我任何问题:一种简单的LLM提示策略 | 论文 | HyperAI超神经