3 个月前

基于银级一致子树提升神经RST解析模型

基于银级一致子树提升神经RST解析模型

摘要

以往大多数修辞结构理论(Rhetorical Structure Theory, RST)解析方法基于监督学习,例如神经网络模型,这类方法依赖于规模足够大且质量较高的标注语料库。然而,作为英语RST解析任务基准的RST话语树库(RST-DT),由于RST树结构标注成本高昂,其规模相对较小。标注数据的匮乏导致模型在关系分类任务上表现不佳,尤其在关系标签预测方面性能受限。为此,本文提出一种通过利用“银级数据”(silver data,即自动标注的数据)来提升神经网络RST解析模型性能的方法。我们采用当前最先进的RST解析器,从无标注语料中构建大规模银级数据;为确保银级数据的质量,从多个RST解析器生成的文档树中提取一致的子树结构作为高质量银级样本。随后,使用这些银级数据对神经RST解析器进行预训练,并在RST-DT上进行微调。实验结果表明,所提方法在核性(Nuclearity)和关系(Relation)分类任务上的微平均F1分数分别达到75.0和63.2,取得了当前最佳性能。尤其值得注意的是,关系分类的F1分数相较此前最先进方法提升了3.0个百分点,展现出显著的性能增益。

基准测试

基准方法指标
discourse-parsing-on-rst-dtTop-down Span-based Parser with Silver Agreement Subtrees
RST-Parseval (Full): 61.8
RST-Parseval (Nuclearity): 74.7
RST-Parseval (Relation): 62.5
RST-Parseval (Span): 86.8
discourse-parsing-on-rst-dtTop-down Span-based Parser with Silver Agreement Subtrees (ensemble)
RST-Parseval (Full): 62.6
RST-Parseval (Nuclearity): 75.0
RST-Parseval (Relation): 63.2
RST-Parseval (Span): 87.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于银级一致子树提升神经RST解析模型 | 论文 | HyperAI超神经