4 个月前

UCPhrase: 无监督上下文感知高质量短语标注

UCPhrase: 无监督上下文感知高质量短语标注

摘要

从上下文中识别和理解高质量短语是文本挖掘中的一个基本任务。这一任务中最具挑战性的部分在于罕见、新兴和领域特定的短语。这些短语的低频特性极大地影响了依赖输入语料库中足够短语出现次数的短语挖掘方法的性能。虽然上下文感知标记模型不受频率限制,但它们严重依赖领域专家提供大量的句子级黄金标签或手工构建的词汇表。在本研究中,我们提出了一种新的无监督上下文感知高质量短语标记器——UCPhrase。具体而言,我们在每个文档内从一致共现的词序列中诱导出高质量短语范围作为银色标签(silver labels)。与基于现有知识库(KBs)的典型上下文无关远监督相比,我们的银色标签深深植根于输入领域和上下文中,因此在保持上下文完整性以及捕捉新兴、超出知识库范围的短语方面具有独特的优势。基于银色标签训练传统的神经标记器通常会面临过度拟合短语表面名称的风险。相反,我们观察到,从基于变换器的神经语言模型生成的情境化注意力图谱能够有效地揭示词语之间的联系,而无需关注其表面形式。因此,我们将这种注意力图谱与银色标签结合,训练一个轻量级的范围预测模型,该模型可以应用于新输入以识别(未见过的)高质量短语,无论其表面名称或频率如何。通过在多个任务和数据集上进行彻底实验,包括语料库级别的短语排名、文档级别的关键短语提取和句子级别的短语标记,结果证明了我们的设计优于最先进的预训练、无监督和远监督方法。

代码仓库

xgeric/UCPhrase-exp
官方
pytorch
GitHub 中提及
xgeric/UCPhrase-reproduce
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
keyphrase-extraction-on-kp20kStanfordNLP
F1@10: 13.9
Recall: 51.7
keyphrase-extraction-on-kp20kWiki+RoBERTa
F1@10: 19.2
Recall: 73.0
keyphrase-extraction-on-kp20kSpacy
F1@10: 15.3
Recall: 59.5
keyphrase-extraction-on-kp20kAutoPhrase
F1@10: 18.2
Recall: 62.9
keyphrase-extraction-on-kp20kUCPhrase
F1@10: 19.7
Recall: 72.9
keyphrase-extraction-on-kp20kPKE
F1@10: 12.6
Recall: 57.1
keyphrase-extraction-on-kp20kTopMine
F1@10: 15.0
Recall: 53.3
keyphrase-extraction-on-kptimesAutoPhrase
F1@10: 10.3
Recall: 77.8
keyphrase-extraction-on-kptimesWiki+RoBERTa
F1@10: 9.4
Recall: 64.5
keyphrase-extraction-on-kptimesUCPhrase
F1@10: 10.9
Recall: 83.4
keyphrase-extraction-on-kptimesTopMine
F1@10: 8.5
Recall: 63.4
phrase-ranking-on-kp20kTopMine
P@50K: 78.0
P@5K: 81.5
phrase-ranking-on-kp20kWiki+RoBERTa
P@50K: 98.5
P@5K: 100.0
phrase-ranking-on-kp20kUCPhrase
P@50K: 96.5
P@5K: 96.5
phrase-ranking-on-kptimesUCPhrase
P@50K: 95.5
P@5K: 96.5
phrase-ranking-on-kptimesWiki+RoBERTa
P@50K: 96.5
P@5K: 99.0
phrase-ranking-on-kptimesAutoPhrase
P@50K: 95.5
P@5K: 96.5
phrase-ranking-on-kptimesTopMine
P@50K: 71.0
P@5K: 85.5
phrase-tagging-on-kp20kAutoPhrase
F1: 49.7
Precision: 55.2
Recall: 45.2
phrase-tagging-on-kp20kWiki+RoBERTa
F1: 61.0
Precision: 58.1
Recall: 64.2
phrase-tagging-on-kp20kTopMine
F1: 40.6
Precision: 39.8
Recall: 41.4
phrase-tagging-on-kp20kUCPhrase
F1: 73.9
Precision: 69.9
Recall: 78.3
phrase-tagging-on-kptimesAutoPhrase
F1: 45.9
Precision: 44.2
Recall: 47.7
phrase-tagging-on-kptimesWiki+RoBERTa
F1: 63.2
Precision: 60.9
Recall: 65.6
phrase-tagging-on-kptimesUCPhrase
F1: 73.5
Precision: 69.1
Recall: 78.9
phrase-tagging-on-kptimesTopMine
F1: 34.0
Precision: 32.0
Recall: 36.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UCPhrase: 无监督上下文感知高质量短语标注 | 论文 | HyperAI超神经