3 个月前

这不是一个数据集:一个大规模否定基准以挑战大语言模型

这不是一个数据集:一个大规模否定基准以挑战大语言模型

摘要

尽管大型语言模型(LLMs)在语法知识和泛化能力方面已展现出一定水平,但在自然语言处理中至关重要的否定理解方面仍表现不佳。本文旨在揭示LLMs在理解否定时表现欠佳的根本原因。为此,我们构建了一个规模约为40万条的半自动生成语料库,包含关于常识知识的描述性句子,其中约三分之二的语句包含以不同形式出现的否定表达。这些句子在语义上可为真或为假,具有明确的语义对立性。我们采用该语料库,基于目前可用的最大规模开源LLMs,以零样本(zero-shot)方式评估其泛化与推理能力;同时,我们也对部分模型进行了微调,以检验否定理解能力是否可通过训练获得。研究结果表明,尽管LLMs在判断肯定句方面表现出色,但在处理否定句时仍存在显著困难,且缺乏对否定的深层语义理解,往往依赖表面线索进行判断。尽管在否定句上进行微调能够提升模型性能,但其在否定理解方面的泛化能力依然薄弱,表明当前大型语言模型在否定理解与跨情境泛化方面仍面临持续挑战。该研究构建的语料库及配套代码已公开发布,供学术界共享与进一步研究使用。

代码仓库

hitz-zentroa/this-is-not-a-dataset
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-classification-on-this-is-not-a-datasetVicuna13B v1.1
Accuracy: 95.7
Coherence: 81.2
text-classification-on-this-is-not-a-datasetFlan-T5-xxl
Accuracy: 94.1
Coherence: 51.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
这不是一个数据集:一个大规模否定基准以挑战大语言模型 | 论文 | HyperAI超神经