
摘要
以往大多数修辞结构理论(Rhetorical Structure Theory, RST)解析方法基于监督学习,例如神经网络模型,这类方法依赖于规模足够大且质量较高的标注语料库。然而,作为英语RST解析任务基准的RST话语树库(RST-DT),由于RST树结构标注成本高昂,其规模相对较小。标注数据的匮乏导致模型在关系分类任务上表现不佳,尤其在关系标签预测方面性能受限。为此,本文提出一种通过利用“银级数据”(silver data,即自动标注的数据)来提升神经网络RST解析模型性能的方法。我们采用当前最先进的RST解析器,从无标注语料中构建大规模银级数据;为确保银级数据的质量,从多个RST解析器生成的文档树中提取一致的子树结构作为高质量银级样本。随后,使用这些银级数据对神经RST解析器进行预训练,并在RST-DT上进行微调。实验结果表明,所提方法在核性(Nuclearity)和关系(Relation)分类任务上的微平均F1分数分别达到75.0和63.2,取得了当前最佳性能。尤其值得注意的是,关系分类的F1分数相较此前最先进方法提升了3.0个百分点,展现出显著的性能增益。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| discourse-parsing-on-rst-dt | Top-down Span-based Parser with Silver Agreement Subtrees | RST-Parseval (Full): 61.8 RST-Parseval (Nuclearity): 74.7 RST-Parseval (Relation): 62.5 RST-Parseval (Span): 86.8 |
| discourse-parsing-on-rst-dt | Top-down Span-based Parser with Silver Agreement Subtrees (ensemble) | RST-Parseval (Full): 62.6 RST-Parseval (Nuclearity): 75.0 RST-Parseval (Relation): 63.2 RST-Parseval (Span): 87.1 |