Narjes Nikzad-KhasmakhiMohammad-Reza Feizi-DerakhshiMeysam Asgari-ChenaghluMohammad-Ali BalafarAli-Reza Feizi-DerakhshiTaymaz Rahkar-FarshiMajid RamezaniZoleikha Jahanbakhsh-NagadehElnaz Zafarani-MoattarMehrdad Ranjbar-Khadivi

摘要
背景:关键词提取是自然语言处理领域的一个热门研究课题。关键词是指能够最准确反映文档核心信息的术语。当前研究人员面临的主要挑战是如何高效且准确地从文档中提取出关键信息。尽管以往的关键词提取方法已尝试融合文本特征与图结构特征,但仍缺乏能够有效学习并最优结合这两类特征的模型。方法:本文提出一种基于多模态的关键词提取方法——Phraseformer,该方法结合了Transformer架构与图嵌入技术。在Phraseformer中,每个候选关键词均通过一个向量表示,该向量由文本特征表示与结构学习表示拼接而成。Phraseformer充分利用了近期研究成果(如BERT与ExEm)的优势,以同时保留文本语义与图结构信息。此外,该方法将关键词提取任务建模为序列标注问题,并通过分类器进行求解。结果:我们在Inspec、SemEval2010与SemEval2017三个数据集上,基于F1分数对Phraseformer的性能进行了评估。同时,针对Inspec数据集,我们进一步比较了不同分类器在Phraseformer框架下的表现。实验结果表明,Phraseformer在三个数据集上均表现出显著优越性。此外,在所有对比的分类器中,随机森林(Random Forest)取得了最高的F1分数。结论:由于BERT与ExEm的融合能够更有效地捕捉词语的语义信息,从而提供更具表达力的联合表示,因此Phraseformer在性能上显著优于单一模态方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keyword-extraction-on-inspec | Phraseformer(BERT, DeepWalk) | F1 score: 68.44 |
| keyword-extraction-on-inspec | Phraseformer(BERT, Node2vec) | F1 score: 68.68 |
| keyword-extraction-on-inspec | Phraseformer(BERT, ExEm(w2v)) | F1 score: 69.70 |
| keyword-extraction-on-inspec | Phraseformer(BERT, ExEm(ft)) | F1 score: 69.87 |
| keyword-extraction-on-semeval-2010-task-8 | Phraseformer(BERT, ExEm(ft)) | F1 score: 48.65 |
| keyword-extraction-on-semeval-2010-task-8 | Phraseformer(BERT, ExEm(w2v)) | F1 score: 48.48 |
| keyword-extraction-on-semeval-2010-task-8 | Phraseformer(BERT, Node2vec) | F1 score: 47.46 |
| keyword-extraction-on-semeval-2010-task-8 | Phraseformer(BERT, DeepWalk) | F1 score: 47.22 |
| keyword-extraction-on-semeval2017 | Phraseformer(BERT, ExEm(ft)) | F1 score: 67.13 |
| keyword-extraction-on-semeval2017 | Phraseformer(BERT, ExEm(w2v)) | F1 score: 66.96 |
| keyword-extraction-on-semeval2017 | Phraseformer(BERT, Node2vec) | F1 score: 65.94 |
| keyword-extraction-on-semeval2017 | Phraseformer(BERT, DeepWalk) | F1 score: 65.70 |