7 个月前

摘要

本文介绍了图尔库自然语言处理（TurkuNLP）团队在2018年CoNLL共享任务——“从原始文本到通用依存句法（Universal Dependencies）的多语言句法分析”中的参赛方案。与去年相比，本届共享任务新增了两项主要评估指标，用于衡量形态标注（morphological tagging）和词形还原（lemmatization）的准确率，除原有的句法树结构评估外，形成了更全面的评价体系。基于对这些新指标的重视，我们设计并实现了一套端到端的句法分析流水线，特别聚焦于开发一种新颖且处于当前最先进水平的词形还原模块。在参与的26支队伍中，我们的系统在三项主要指标上取得了最高综合排名：在词形还原相关指标中获得第一名，在形态标注和句法分析两项指标中均位列第二。

源 PDF