
摘要
主驱动短语结构语法(Head-driven Phrase Structure Grammar, HPSG)以其统一的形式表示丰富的上下文句法甚至语义信息而受到青睐。本文首次尝试通过将成分和依存关系的形式表示整合到主驱动短语结构中来简化HPSG。随后,针对两种转换后的树形表示——划分跨度(division span)和联合跨度(joint span),分别提出了两种解析算法。由于HPSG编码了成分和依存结构信息,所提出的HPSG解析器可以被视为这两种结构的联合解码器,因此它们在提取或转换的成分和依存关系解析树方面进行了评估。我们的解析器在宾夕法尼亚树库(Penn Treebank, PTB)和中文宾夕法尼亚树库上对这两种解析任务均达到了新的最先进性能,验证了联合学习成分和依存结构的有效性。具体而言,我们在PTB上的成分解析F1得分为96.33%,依存关系解析的未标记弧正确率(Unlabeled Attachment Score, UAS)为97.20%。
代码仓库
DoodleJZ/HPSG-Neural-Parser
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| constituency-parsing-on-ctb5 | Zhou etal. 2019 | F1 score: 89.40 |
| constituency-parsing-on-penn-treebank | Head-Driven Phrase Structure Grammar Parsing (Joint) + XLNet | F1 score: 96.33 |
| constituency-parsing-on-penn-treebank | Head-Driven Phrase Structure Grammar Parsing (Joint) + BERT | F1 score: 95.84 |
| dependency-parsing-on-penn-treebank | HPSG Parser (Joint) + XLNet | LAS: 95.72 POS: 97.3 UAS: 97.20 |