
摘要
尽管大型语言模型(LLMs)在语法知识和泛化能力方面已展现出一定水平,但在自然语言处理中至关重要的否定理解方面仍表现不佳。本文旨在揭示LLMs在理解否定时表现欠佳的根本原因。为此,我们构建了一个规模约为40万条的半自动生成语料库,包含关于常识知识的描述性句子,其中约三分之二的语句包含以不同形式出现的否定表达。这些句子在语义上可为真或为假,具有明确的语义对立性。我们采用该语料库,基于目前可用的最大规模开源LLMs,以零样本(zero-shot)方式评估其泛化与推理能力;同时,我们也对部分模型进行了微调,以检验否定理解能力是否可通过训练获得。研究结果表明,尽管LLMs在判断肯定句方面表现出色,但在处理否定句时仍存在显著困难,且缺乏对否定的深层语义理解,往往依赖表面线索进行判断。尽管在否定句上进行微调能够提升模型性能,但其在否定理解方面的泛化能力依然薄弱,表明当前大型语言模型在否定理解与跨情境泛化方面仍面临持续挑战。该研究构建的语料库及配套代码已公开发布,供学术界共享与进一步研究使用。
代码仓库
hitz-zentroa/this-is-not-a-dataset
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-classification-on-this-is-not-a-dataset | Vicuna13B v1.1 | Accuracy: 95.7 Coherence: 81.2 |
| text-classification-on-this-is-not-a-dataset | Flan-T5-xxl | Accuracy: 94.1 Coherence: 51.8 |