5 个月前

摘要

正如面对难题的学生有时会猜测一样，大型语言模型在不确定时也会做出猜测，生成看似合理但实际错误的陈述，而非坦承自身的不确定性。这类“幻觉”现象即使在最先进的系统中依然存在，严重损害了人们对模型的信任。我们认为，语言模型产生幻觉的根本原因在于，其训练与评估机制倾向于奖励猜测行为，而非承认不确定性；我们进一步分析了现代训练流程中导致幻觉的统计学根源。幻觉并不神秘——它们本质上只是二分类任务中的错误。当错误陈述无法与真实事实区分开来时，预训练语言模型便会因自然的统计压力而产生幻觉。随后我们指出，幻觉之所以持续存在，是因为大多数评估方式的评分机制存在问题：语言模型被优化为“优秀的应试者”，在不确定时猜测反而能提升测试表现。这种对不确定回答的系统性惩罚，只能通过一种社会技术协同的解决方案来应对——即修改当前主流但存在偏差的基准测试的评分方式，而非引入额外的幻觉评估指标。这一变革有望引导人工智能领域走向更加可信的系统发展方向。

源 PDF