3 个月前

KAMEL:语言模型中的多标记实体知识分析

KAMEL:语言模型中的多标记实体知识分析

摘要

大型语言模型(LMs)已被证明能够从预训练语料库中捕捉大量关系型知识。通过使用填空式提示(cloze-style prompts),可在LAMA基准测试中对这些模型的事实知识进行探测。然而,近期研究发现,此类测试结果表现良好,主要归因于模型擅长进行合理推测或从训练数据中回忆事实,而非真正掌握深层知识。为此,本文提出一种基于Wikidata的新型基准数据集KAMEL,用于更精准地探测语言模型中的关系知识。与以往数据集相比,KAMEL覆盖了更广泛的知识领域,能够探测单标记和多标记实体,并包含具有具体取值(literal values)的事实。此外,其评估机制更为精确:数据集提供了实体的替代标签,并支持高基数关系(higher-cardinality relations)的测试。不同于以往在掩码语言模型上进行评估的做法,本文在少量示例(few-shot)设置下,对多种近期因果语言模型进行了评估。结果表明,尽管新模型在LAMA基准上表现优异,F1分数达到52.90%,但在KAMEL上的表现却仅达到17.62%。分析显示,即使大型语言模型在关系知识的掌握方面已取得显著进展,仍远未达到能够完全记忆知识图谱中所有类型关系知识的程度。

基准测试

基准方法指标
probing-language-models-on-kamelOPT-13b
Average F1: 17.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
KAMEL:语言模型中的多标记实体知识分析 | 论文 | HyperAI超神经