
摘要
大型语言模型(LLMs)结合指令调优在泛化到未见过的任务方面取得了显著进展。然而,它们在信息抽取(IE)领域的表现却不如专门针对特定任务的模型,存在一定的滞后。通常,信息抽取任务的特点是具有复杂的注释指南,这些指南不仅描述了任务本身,还为人类提供了示例。以往尝试利用此类信息的努力即使在最大的模型上也未能成功,因为这些模型无法直接遵循指南。本文提出了一种名为GoLLIE(遵循指南的大型语言模型用于信息抽取)的方法,该方法通过微调以遵守注释指南,从而提高了对未见过的信息抽取任务的零样本性能。全面评估实验证明,GoLLIE能够泛化并遵循未见过的指南,在零样本信息抽取方面优于之前的尝试。消融研究显示,详细的指南对于取得良好结果至关重要。
代码仓库
hitz-zentroa/gollie
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-bc5cdr | GoLLIE | F1: 88.4 |
| named-entity-recognition-ner-on-conll-2003 | GoLLIE | F1: 93.1 |
| named-entity-recognition-ner-on-ncbi-disease | GoLLIE | F1: 86.5 |
| named-entity-recognition-on-ace-2005 | GoLLIE | F1: 89.6 |
| named-entity-recognition-on-wnut-2017 | GoLLIE | F1: 54.3 |
| relation-extraction-on-ace-2005 | GoLLIE | RE Micro F1: 70.1 |
| zero-shot-named-entity-recognition-ner-on | GoLLIE | Entity F1: 51.4 |
| zero-shot-named-entity-recognition-ner-on-1 | GoLLIE | AI: 61.6 Literature: 62.7 Music: 68.4 Politics: 60.2 Science: 56.3 |
| zero-shot-named-entity-recognition-ner-on-2 | GoLLIE | Entity F1: 41.3 |
| zero-shot-named-entity-recognition-ner-on-3 | GoLLIE | Entity F1: 81.3 |