
摘要
文本篇章分析在理解自然语言中的信息流动和论证结构方面具有重要意义,对下游任务也大有裨益。尽管先前的研究显著提高了RST(修辞结构理论)篇章分析的性能,但这些方法在实际应用中仍存在一些问题:(1) 话语单元(EDU)切分尚未集成到大多数现有的树形解析框架中,因此将这些模型应用于新数据并不直接;(2) 大多数解析器仅限于英语环境,无法用于多语言场景;(3) 从单一领域树库训练的解析器在处理跨领域输入时泛化能力较差。在这项工作中,我们提出了一种文档级别的多语言RST篇章分析框架,该框架联合执行EDU切分和篇章树解析。此外,我们还提出了一种跨翻译增强策略,以支持框架的多语言解析并提高其领域的泛化能力。实验结果表明,我们的模型在所有子任务中均实现了文档级别多语言RST篇章分析的最先进性能。
代码仓库
seq-to-mind/DMRST_Parser
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| end-to-end-rst-parsing-on-rst-dt-1 | DMRST (2021) | Standard Parseval (Full): 48.6 Standard Parseval (Nuclearity): 59.4 Standard Parseval (Relation): 49.4 Standard Parseval (Span): 69.8 |
| end-to-end-rst-parsing-on-rst-dt-1 | DMRST (2021) + Cross-translation | Standard Parseval (Full): 50.1 Standard Parseval (Nuclearity): 60.6 Standard Parseval (Relation): 51.6 Standard Parseval (Span): 70.4 |