
摘要
我们提出了一项基准测试,用于评估语言模型在生成问题答案时是否具有真实性。该基准测试包括817个问题,涵盖了38个类别,如健康、法律、金融和政治。我们设计了一些问题,这些问题由于错误的信念或误解,部分人类可能会给出错误的答案。为了表现良好,模型必须避免生成从模仿人类文本中学习到的错误答案。我们测试了GPT-3、GPT-Neo/J、GPT-2以及一个基于T5的模型。最好的模型在58%的问题上表现出真实性,而人类的表现为94%。这些模型生成了许多模仿流行误解的错误答案,有可能误导人类。通常情况下,最大的模型是最不真实的。这与其他自然语言处理任务形成对比,在其他任务中,性能随着模型规模的增大而提高。然而,如果错误答案是从训练数据分布中学习到的,则这一结果是可以预期的。我们建议,仅通过扩大模型规模来提高真实性的前景不如使用除模仿网络文本之外的其他训练目标进行微调更有希望。
代码仓库
lurosenb/sass
GitHub 中提及
yizhongw/truthfulqa_reeval
pytorch
GitHub 中提及
sylinrl/truthfulqa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-truthfulqa | GPT-2 1.5B | % info: 89.84 % true: 29.50 % true (GPT-judge): 29.87 BLEU: -4.91 BLEURT: -0.25 MC1: 0.22 MC2: 0.39 ROUGE: -9.41 |
| question-answering-on-truthfulqa | UnifiedQA 3B | % info: 64.50 % true: 53.86 % true (GPT-judge): 53.24 BLEU: -0.16 BLEURT: 0.08 MC1: 0.19 MC2: 0.35 ROUGE: 1.76 |
| question-answering-on-truthfulqa | GPT-3 175B | % info: 97.55 % true: 20.44 % true (GPT-judge): 20.56 BLEU: -17.38 BLEURT: -0.56 MC1: 0.21 MC2: 0.33 ROUGE: -17.75 |
| question-answering-on-truthfulqa | GPT-J 6B | % info: 89.96 % true: 26.68 % true (GPT-judge): 27.17 BLEU: -7.58 BLEURT: -0.31 MC1: 0.20 MC2: 0.36 ROUGE: -11.35 |