4 个月前

将推文解析为通用依存关系

将推文解析为通用依存关系

摘要

我们研究了使用通用依存关系(Universal Dependencies, UD)分析推文的问题。为了涵盖影响分词、词性标注和带标签依存关系的推文中的特殊结构,我们扩展了UD指南。利用这些扩展的指南,我们创建了一个新的英语推文树库(Tweebank v2),其规模是Kong等人(2014年)引入的(未标注)Tweebank v1的四倍。我们描述了注释者之间的分歧,并指出由于对推文的理解和解释存在模糊性,提供一致的注释具有挑战性。尽管如此,借助新的树库,我们构建了一个管道系统,用于将原始推文解析为UD格式。为了在不牺牲计算效率的前提下克服注释噪声问题,我们提出了一种新方法,将20个基于转移的解析器集成到一个单一解析器中。我们的解析器在标记附加准确率(Labeled Attachment Score, LAS)上比未集成的基线模型提高了2.2个百分点,并且在准确性和速度方面均优于其他树库上的最先进解析器。

代码仓库

基准测试

基准方法指标
dependency-parsing-on-tweebankEnsemble (20)
Labelled Attachment Score: 79.4
Unlabeled Attachment Score: 83.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将推文解析为通用依存关系 | 论文 | HyperAI超神经