
摘要
近期的研究表明,通过使用语言化方法(verbalizations),可以将自然语言处理(NLP)任务如关系抽取(Relation Extraction, RE)重新表述为文本蕴含任务(Textual Entailment),并在零样本和少样本设置中取得优异表现,这得益于预训练的蕴含模型。然而,当前RE数据集中关系易于语言化的事实引发了对其在更复杂任务中有效性的质疑。在这项工作中,我们展示了蕴含在事件论元抽取(Event Argument Extraction, EAE)中的有效性,分别在ACE和WikiEvents数据集上将手动标注的需求减少了50%和20%,同时达到了与完全训练相同的性能。更重要的是,我们将EAE重新表述为蕴含任务,减轻了对模式的依赖,这是跨域转移注释的一个主要障碍。借助蕴含模型,ACE和WikiEvents之间的多源转移进一步将标注需求减少到完全训练时的10%和5%(分别为)。我们的分析显示,获得良好结果的关键在于使用多个蕴含数据集来预训练蕴含模型。类似于先前的方法,我们的方法需要少量的手动语言化工作:每种事件论元类型仅需不到15分钟的时间,且不同水平的用户可以实现相当的结果。
代码仓库
osainz59/Ask2Transformers
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-named-entity-recognition-ner-on-3 | NLI | Entity F1: 49.1 |