3 个月前

标签文本化与蕴含关系用于高效的零样本与少样本关系抽取

标签文本化与蕴含关系用于高效的零样本与少样本关系抽取

摘要

关系抽取系统通常需要大量标注样本,而人工标注成本高昂。在本研究中,我们将关系抽取任务重新定义为文本蕴含任务,仅需每种关系花费不到15分钟即可手工构建简洁的语义化表达(verbalizations)。该系统基于一个预训练的文本蕴含模型,可在无需任何训练样本(零样本)的情况下直接使用,也可在少量标注数据上进一步微调(少样本或全监督训练)。在TACRED数据集上的实验表明,该方法在零样本设置下达到63%的F1值;当每类关系仅有16个标注样本时,F1提升至69%,较相同条件下表现最佳的监督系统高出17个百分点;仅比当前最优水平低4个百分点(后者使用了20倍的训练数据)。此外,我们还发现,采用更大规模的蕴含模型可显著提升性能,零样本情形下最高可提升12个百分点,使得在完全训练后,该方法在TACRED数据集上取得了迄今最优的结果。分析表明,该方法在少样本条件下尤其擅长区分不同关系类型,而在低数据场景下性能差异主要源于对“无关系”样本的准确识别能力。

代码仓库

osainz59/Ask2Transformers
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
relation-extraction-on-tacredNLI_RoBERTa
F1: 71.0
relation-extraction-on-tacredNLI_DeBERTa
F1: 73.9
F1 (1% Few-Shot): 63.7
F1 (10% Few-Shot): 67.9
F1 (5% Few-Shot): 69.0
F1 (Zero-Shot): 62.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
标签文本化与蕴含关系用于高效的零样本与少样本关系抽取 | 论文 | HyperAI超神经