
摘要
我们介绍了UDify,这是一种多语言多任务模型,能够同时为75种语言中的124个通用依存树库准确预测通用词性(UPOS)、形态特征(UFeats)、词元(Lemmas)和依存树。通过利用在104种语言上预训练的多语言BERT自注意力模型,我们发现,在所有数据集上进行微调并为每个通用依存任务使用简单的softmax分类器,可以实现最先进的UPOS、UFeats、Lemmas、UAS和LAS分数,而无需任何递归或特定于语言的组件。我们对UDify进行了多语言学习评估,结果显示低资源语言从跨语言注释中受益最大。此外,我们还对其进行了零样本学习评估,结果表明,即使对于UDify和BERT从未训练过的语言,多语言训练也能提供强大的通用依存预测。UDify的代码可在https://github.com/hyperparticle/udify 获取。
代码仓库
hyperparticle/udify
官方
pytorch
GitHub 中提及
ahmetustun/udapter
pytorch
GitHub 中提及
idiap/g2g-transformer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dependency-parsing-on-french-gsd | UDify | LAS: 91.45 UAS: 93.60 |
| dependency-parsing-on-partut | UDify | LAS: 88.06 UAS: 90.55 |
| dependency-parsing-on-sequoia-treebank | UDify | LAS: 90.05 UAS: 92.53 |
| dependency-parsing-on-spoken-corpus | UDify | LAS: 80.01 UAS: 85.24 |
| dependency-parsing-on-universal-dependencies | UDify | LAS: 80.43 UAS: 85.69 |