4 个月前

TruthfulQA:评估模型如何模仿人类的虚假信息

TruthfulQA:评估模型如何模仿人类的虚假信息

摘要

我们提出了一项基准测试,用于评估语言模型在生成问题答案时是否具有真实性。该基准测试包括817个问题,涵盖了38个类别,如健康、法律、金融和政治。我们设计了一些问题,这些问题由于错误的信念或误解,部分人类可能会给出错误的答案。为了表现良好,模型必须避免生成从模仿人类文本中学习到的错误答案。我们测试了GPT-3、GPT-Neo/J、GPT-2以及一个基于T5的模型。最好的模型在58%的问题上表现出真实性,而人类的表现为94%。这些模型生成了许多模仿流行误解的错误答案,有可能误导人类。通常情况下,最大的模型是最不真实的。这与其他自然语言处理任务形成对比,在其他任务中,性能随着模型规模的增大而提高。然而,如果错误答案是从训练数据分布中学习到的,则这一结果是可以预期的。我们建议,仅通过扩大模型规模来提高真实性的前景不如使用除模仿网络文本之外的其他训练目标进行微调更有希望。

代码仓库

lurosenb/sass
GitHub 中提及
yizhongw/truthfulqa_reeval
pytorch
GitHub 中提及
sylinrl/truthfulqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-truthfulqaGPT-2 1.5B
% info: 89.84
% true: 29.50
% true (GPT-judge): 29.87
BLEU: -4.91
BLEURT: -0.25
MC1: 0.22
MC2: 0.39
ROUGE: -9.41
question-answering-on-truthfulqaUnifiedQA 3B
% info: 64.50
% true: 53.86
% true (GPT-judge): 53.24
BLEU: -0.16
BLEURT: 0.08
MC1: 0.19
MC2: 0.35
ROUGE: 1.76
question-answering-on-truthfulqaGPT-3 175B
% info: 97.55
% true: 20.44
% true (GPT-judge): 20.56
BLEU: -17.38
BLEURT: -0.56
MC1: 0.21
MC2: 0.33
ROUGE: -17.75
question-answering-on-truthfulqaGPT-J 6B
% info: 89.96
% true: 26.68
% true (GPT-judge): 27.17
BLEU: -7.58
BLEURT: -0.31
MC1: 0.20
MC2: 0.36
ROUGE: -11.35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TruthfulQA:评估模型如何模仿人类的虚假信息 | 论文 | HyperAI超神经