
摘要
自然语言处理涵盖了多种任务,包括预测句法、语义和信息内容,通常每种输出都是通过专门设计的架构生成的。在本文中,我们提供了一个简单的见解,即大量任务可以表示为一个统一的格式,该格式由标记片段及其之间的关系组成,因此可以使用一个与任务无关的模型来处理不同的任务。我们进行了广泛的实验,以验证这一见解在涵盖句法(依存句法分析)、语义(语义角色标注)、信息内容(关系抽取)、情感(基于方面的 sentiment analysis)等 10 个不同任务上的表现,结果表明其性能可与最先进的专用模型相媲美。此外,我们还展示了多任务学习的优势,并证明了所提出的方法使得分析模型在处理不同任务时的差异和相似之处变得容易。最后,我们将这些数据集转换为统一格式,构建了一个基准测试平台,为未来评估用于泛化自然语言分析的模型提供了全面的测试环境。
代码仓库
jzbjyb/SpanRel
官方
pytorch
GitHub 中提及
jiachengli1995/jointie
pytorch
GitHub 中提及
neulab/cmu-multinlp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| constituency-parsing-on-penn-treebank | SpanRel | F1 score: 95.5 |
| dependency-parsing-on-penn-treebank | SpanRel | LAS: 94.70 UAS: 96.44 |
| named-entity-recognition-ner-on-conll-2003 | SpanRel | F1: 92.2 |
| named-entity-recognition-on-wlpc | SpanRel | F1: 79.2 |
| part-of-speech-tagging-on-penn-treebank | SpanRel | Accuracy: 97.7 |
| relation-extraction-on-semeval-2010-task-8 | SpanRel | F1: 87.4 |
| relation-extraction-on-wlpc | SpanRel | F1: 65.5 |
| semantic-role-labeling-predicted-predicates-1 | SpanRel | F1: 82.4 |