3 个月前

基于跨度注意力的成分句法分析性能提升

基于跨度注意力的成分句法分析性能提升

摘要

句法成分分析(Constituency Parsing)是自然语言理解中的基础且关键任务,其中对上下文信息的有效表征能够显著提升该任务的性能。N-gram作为传统上用于描述上下文信息的特征类型,在众多自然语言处理任务中已被证明具有实用性。因此,若能对N-gram信息进行恰当建模,其同样有望为句法成分分析带来收益。本文提出一种基于跨度注意力(span attention)的神经网络图表式句法成分分析方法,以有效利用N-gram信息。考虑到当前基于Transformer编码器的图表式解析器通过减去跨度两端隐藏状态来表征跨度,这一方式在处理长跨度时容易造成信息损失,本文通过根据N-gram在解析过程中的贡献程度对其进行加权,将N-gram信息融入跨度表征中。此外,我们进一步提出类别化跨度注意力(categorical span attention),对不同长度类别内的N-gram进行差异化加权,从而更有效地支持长句的句法分析。在三个广泛使用的基准数据集上的实验结果表明,所提方法在阿拉伯语、中文和英语的句法成分分析任务中均表现出色,且在所有数据集上均达到了当前最优(state-of-the-art)性能。

代码仓库

cuhksz-nlp/SAPar
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
constituency-parsing-on-atbSAPar
F1: 83.26
constituency-parsing-on-ctb5SAPar + BERT
F1 score: 92.66
constituency-parsing-on-penn-treebankSAPar + XLNet
F1 score: 96.40

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于跨度注意力的成分句法分析性能提升 | 论文 | HyperAI超神经