摘要

大型语言模型（LLMs）仅通过提供一个自然语言提示（prompt）来演示任务的执行方式，即可无需额外训练便直接迁移到新任务上。然而，提示工程（prompting）过程极为脆弱：提示的微小改动可能导致模型输出产生显著波动。因此，研究者们往往投入大量精力，致力于设计出“完美”的提示。为减轻提示设计所带来的高成本，我们提出一个新思路：与其追求单一“完美”提示，不如生成多个有效但不完美的提示，并通过聚合这些提示的结果，形成高质量的提示策略。我们的观察促使我们提出了名为“ASK ME ANYTHING”（AMA）的新型提示方法。首先，我们深入分析了有效提示的格式，发现鼓励开放生成的问答类提示（如“谁去了公园？”）通常优于限制模型输出形式的提示（如“约翰去了公园。请输出真或假。”）。在此基础上，我们的方法递归地利用大语言模型自身，将原始任务输入自动转换为高效的问答格式。随后，我们使用这些生成的提示对输入样本进行多次预测，获得多个带有噪声的预测结果。我们发现，不同提示的准确率差异显著，且预测之间存在复杂的依赖关系，因此我们引入弱监督（weak supervision）机制——一种用于融合噪声预测结果的通用方法——以生成最终的预测输出。我们在多个开源模型系列（包括EleutherAI、BLOOM、OPT和T0）以及不同模型规模（参数量从1.25亿到1750亿）上对AMA方法进行了评估。结果表明，AMA在平均性能上相比少样本（few-shot）基线提升了10.2%。该简单而有效的策略使得开源的GPT-J-6B模型在20个主流基准测试中的15个上达到甚至超越了少样本调优的GPT-3-175B模型的表现。在这些任务的平均性能上，GPT-J-6B已全面超越少样本GPT-3-175B。我们已将相关代码开源，欢迎查阅：https://github.com/HazyResearch/ama_prompting

源 PDF