
摘要
我们研究了使用通用依存关系(Universal Dependencies, UD)分析推文的问题。为了涵盖影响分词、词性标注和带标签依存关系的推文中的特殊结构,我们扩展了UD指南。利用这些扩展的指南,我们创建了一个新的英语推文树库(Tweebank v2),其规模是Kong等人(2014年)引入的(未标注)Tweebank v1的四倍。我们描述了注释者之间的分歧,并指出由于对推文的理解和解释存在模糊性,提供一致的注释具有挑战性。尽管如此,借助新的树库,我们构建了一个管道系统,用于将原始推文解析为UD格式。为了在不牺牲计算效率的前提下克服注释噪声问题,我们提出了一种新方法,将20个基于转移的解析器集成到一个单一解析器中。我们的解析器在标记附加准确率(Labeled Attachment Score, LAS)上比未集成的基线模型提高了2.2个百分点,并且在准确性和速度方面均优于其他树库上的最先进解析器。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dependency-parsing-on-tweebank | Ensemble (20) | Labelled Attachment Score: 79.4 Unlabeled Attachment Score: 83.4 |