
摘要
话语分析是自然语言处理中的一个重要任务,旨在揭示文本中的高层次关系。尽管跨语言话语分析的兴趣日益增长,但由于平行数据有限以及修辞结构理论(Rhetorical Structure Theory, RST)在不同语言和语料库中的应用存在不一致性,仍面临诸多挑战。为了解决这些问题,我们为大型且多样的英语GUM RST语料库引入了平行的俄语注释。借助近期的技术进展,我们的端到端RST解析器在英语和俄语文本上均取得了最先进的结果。该解析器在单语和双语环境中均表现出有效性,即使在第二语言注释有限的情况下也能成功迁移。据我们所知,这是首次在人工标注的平行语料库上评估跨语言端到端RST解析的潜力。
代码仓库
tchewik/bilingualrsp
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| discourse-parsing-on-rst-dt | DMRST | Standard Parseval (Full): 55.7 ± 0.3 Standard Parseval (Nuclearity): 68.0 ± 0.6 Standard Parseval (Relation): 57.3 ± 0.2 Standard Parseval (Span): 78.7 ± 0.4 |
| end-to-end-rst-parsing-on-rst-dt-1 | DMRST + ToNy + E-BiLSTM | Standard Parseval (Full): 53.0 ± 0.7 Standard Parseval (Nuclearity): 64.5 ± 0.8 Standard Parseval (Relation): 54.5 ± 0.7 Standard Parseval (Span): 74.8 ± 0.5 |