
摘要
本研究提出了一种基于表格表示的新方法,用于从非结构化文本中提取命名实体及实体间关系。该方法利用上下文相关的词嵌入(contextualized word embeddings),在无需复杂手工特征或复杂神经网络架构的情况下,有效计算实体提及项的表示以及长距离依赖关系。此外,我们引入一种张量点积(tensor dot-product)机制,一次性预测所有关系标签,避免了依赖历史信息的预测过程或搜索策略。上述改进显著简化了命名实体与关系抽取的模型结构与算法设计。尽管模型结构简洁,实验结果表明,该方法在CoNLL04和ACE05英文数据集上均优于当前最先进的方法。此外,在提供多句上下文进行信息聚合的情况下,该方法在ACE05数据集上的命名实体识别(NER)性能也达到了与当前最先进NER模型相当的水平。
代码仓库
YoumiMa/TablERT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| relation-extraction-on-ace-2005 | TablERT | Cross Sentence: No NER Micro F1: 88.0 RE Micro F1: 66.1 RE+ Micro F1: 62.4 Sentence Encoder: BERT base |
| relation-extraction-on-conll04 | TablERT | NER Micro F1: 90.2 RE+ Micro F1: 72.6 |