
摘要
本文介绍了一个新的自然语言处理数据集和基准测试,用于从书面文本中预测韵律重音。据我们所知,这将是最大的公开可用的带有韵律标签的数据集。我们详细描述了数据集的构建过程以及由此产生的基准数据集,并训练了多种模型,包括基于特征的分类器到神经网络系统,以预测离散化的韵律重音。实验结果表明,即使在训练数据量不足10%的情况下,BERT预训练的上下文词表示仍优于其他模型。最后,我们根据实验结果讨论了该数据集,并指出了未来的研究方向及进一步改进数据集和文本韵律重音预测方法的计划。该数据集和模型代码已公开发布。
代码仓库
Helsinki-NLP/prosody
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| prosody-prediction-on-helsinki-prosody-corpus | CRF (MarMoT) | Accuracy: 81.8 |
| prosody-prediction-on-helsinki-prosody-corpus | BERT | Accuracy: 83.2 |
| prosody-prediction-on-helsinki-prosody-corpus | SVN (Minitagger) | Accuracy: 80.8 |
| prosody-prediction-on-helsinki-prosody-corpus | BiLSTM | Accuracy: 82.1 |