3 个月前

DaCy:丹麦语自然语言处理的统一框架

DaCy:丹麦语自然语言处理的统一框架

摘要

近年来,丹麦语自然语言处理(NLP)领域取得了显著进展,得益于多个新数据集和模型的引入。然而,目前尚缺乏一个统一的框架来应用最先进的丹麦语NLP模型。为此,我们提出了DaCy:一个基于SpaCy构建的丹麦语NLP统一框架。DaCy采用高效的多任务模型,在命名实体识别、词性标注和依存句法分析等任务上均达到了当前最优性能。该框架还集成了多种工具,便于集成现有模型,例如用于情感极性、情绪识别或主观性检测的模型。此外,我们通过增强DaNE测试集,对丹麦语NLP流水线的偏见性和鲁棒性开展了一系列评估。结果显示,DaCy-large模型在各项指标上表现优异,尤其在处理长输入序列以及拼写变体和错误时展现出更强的鲁棒性。除DaCy-large外,其余所有模型均表现出与种族相关的显著偏见,而仅有Polyglot模型显示出显著的性别偏见。我们认为,对于基准数据集有限的语言而言,数据增强在获取更真实、更细粒度的性能评估方面具有特别重要的价值。为此,我们提供了一系列数据增强工具,作为迈向低资源和中资源语言模型更全面评估的初步步骤,并鼓励后续研究在该方向上进一步发展。

基准测试

基准方法指标
dependency-parsing-on-daneda_dacy_large_tft
LAS: 88.44
UAS: 90.85
named-entity-recognition-on-daneDaCy-large
Micro-average F1: 84.39
part-of-speech-tagging-on-daneda_dacy_large_tft-0.0.0
Accuracy (%): 98.37

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DaCy:丹麦语自然语言处理的统一框架 | 论文 | HyperAI超神经