4 个月前

在54种语言的词性标注、词形还原和依存句法分析中评估上下文化嵌入

在54种语言的词性标注、词形还原和依存句法分析中评估上下文化嵌入

摘要

我们对三种最近提出的上下文嵌入方法在Universal Dependencies 2.3的54种语言的89个语料库上进行了广泛的评估,涉及三项任务:词性标注(POS tagging)、词形还原(lemmatization)和依存句法分析(dependency parsing)。通过将BERT、Flair和ELMo作为预训练嵌入输入,应用于UDPipe 2.0这一强大的基线系统中,该系统是CoNLL 2018共享任务中表现最佳的系统之一,并且是EPE 2018的总体优胜者,我们对这三种上下文词嵌入方法进行了逐一比较,同时与word2vec类预训练嵌入及端到端字符级词嵌入进行了对比。我们在所有三项任务中报告了相较于CoNLL 2018共享任务中UD 2.2结果的最先进水平。

基准测试

基准方法指标
dependency-parsing-on-universal-dependenciesUDPipe 2.0 + mBERT + FLAIR
LAS: 84.60
UAS: 87.64

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在54种语言的词性标注、词形还原和依存句法分析中评估上下文化嵌入 | 论文 | HyperAI超神经