
摘要
基于RST(Rhetorical Structure Theory)的篇章解析是自然语言处理中一项重要的任务,具有广泛的应用前景,如文本摘要、机器翻译和观点挖掘等。本文提出了一种简单但精度极高的篇章解析器,该解析器融合了近期的上下文语言模型。我们的方法在两个关键的RST数据集——RST-DT与Instr-DT上,均在结构预测与核性(nuclearity)判断任务中取得了新的最先进(SOTA)性能。此外,我们进一步验证了在最新发布的大型“银标准”篇章树库MEGA-DT上对解析器进行预训练,能够带来更显著的性能提升,表明该方向为篇章分析领域开辟了一条新颖且极具潜力的研究路径。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| discourse-parsing-on-instructional-dt-instr | Guz et al. (2020) | Standard Parseval (Nuclearity): 44.41 Standard Parseval (Span): 64.55 |
| discourse-parsing-on-instructional-dt-instr | Guz et al. (2020) (pretrained) | Standard Parseval (Nuclearity): 46.59 Standard Parseval (Span): 65.41 |
| discourse-parsing-on-rst-dt | Guz et al. (2020) | Standard Parseval (Nuclearity): 61.38 Standard Parseval (Span): 72.43 |
| discourse-parsing-on-rst-dt | Guz et al. (2020) (pretrained) | Standard Parseval (Nuclearity): 61.86 Standard Parseval (Span): 72.94 |