
摘要
无分类器引导(Classifier-Free Guidance, CFG)最近在文本到图像生成中作为一种轻量级技术出现,旨在促进生成过程中对提示的遵循。在这项工作中,我们展示了CFG可以广泛应用于纯语言模型中的推理阶段。我们的研究表明,CFG(1)提高了Pythia、GPT-2和LLaMA系列模型在多种任务上的性能,包括问答、推理、代码生成和机器翻译,并且在LAMBADA数据集上,使用7B参数的LLaMA模型超过了540B参数的PaLM模型;(2)带来的性能提升相当于参数量翻倍的模型;(3)可以与其他推理时间方法如思维链和自一致性结合使用,从而在困难任务中进一步提高性能;(4)可以在具有挑战性的表单驱动和内容驱动提示中提高助手的一致性和连贯性:在人类评估中,我们显示了使用CFG的GPT4All相比基线模型有75%的偏好度。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-arc-easy | LLaMA 13B + CFG (0-shot) | Accuracy: 79.1 |
| common-sense-reasoning-on-arc-easy | LLaMA 65B + CFG (0-shot) | Accuracy: 84.2 |
| common-sense-reasoning-on-arc-easy | LLaMA 30B + CFG (0-shot) | Accuracy: 83.2 |
| common-sense-reasoning-on-arc-easy | LLaMA 7B + CFG (0-shot) | Accuracy: 58.9 |
| language-modelling-on-lambada | LLaMA-30B+CFG (zero-shot) | Accuracy: 83.9 |
| language-modelling-on-lambada | LLaMA-13B+CFG (zero-shot) | Accuracy: 82.2 |
| language-modelling-on-lambada | LLaMA-65B+CFG (Zero-Shot) | Accuracy: 84.0 |
| text-generation-on-sciq | LLaMA-13B+CFG (zero-shot) | Accuracy: 95.1 |
| text-generation-on-sciq | LLaMA-30B+CFG (zero-shot) | Accuracy: 96.4 |
| text-generation-on-sciq | LLaMA-65B+CFG (zero-shot) | Accuracy: 96.6 |