3 个月前

在命名实体识别上对Tweebank语料库进行标注并构建用于社交媒体分析的NLP模型

在命名实体识别上对Tweebank语料库进行标注并构建用于社交媒体分析的NLP模型

摘要

社交媒体数据(如推文)因其短小、嘈杂且口语化的特点,给自然语言处理(NLP)系统带来了特殊挑战。命名实体识别(NER)与句法分析等任务需要高度领域匹配的训练数据才能取得良好性能。迄今为止,尚无一个完整且同时支持NER与句法分析(如词性标注、依存句法分析)的推文标注语料库。尽管已有部分公开的推文标注NLP数据集,但它们通常仅针对单一任务设计。在本研究中,我们旨在构建Tweebank-NER——一个基于Tweebank V2(TB2)的英文命名实体识别语料库,基于TB2训练当前最先进的(SOTA)推文NLP模型,并发布一个名为Twitter-Stanza的NLP处理流水线。我们利用亚马逊Mechanical Turk对TB2中的命名实体进行了标注,并评估了标注质量。在TB2上训练Stanza流水线,并与多种替代性NLP框架(如FLAIR、spaCy)以及基于Transformer的模型进行对比。结果显示,Stanza的分词器与词形还原器在TB2上达到了SOTA性能;而其命名实体标注器、词性标注器(POS)及依存句法分析器在非Transformer模型中表现具有竞争力。基于Transformer的模型在Tweebank-NER上建立了强有力的基线性能,并在TB2的词性标注与依存句法分析任务中实现了新的SOTA结果。我们已公开发布该语料库,并提供可“开箱即用”的Stanza流水线及基于BERTweet的预训练模型,以支持未来推文NLP研究。相关源代码、数据集及预训练模型均可在以下链接获取:\url{https://github.com/social-machines/TweebankNLP}。

代码仓库

social-machines/tweebanknlp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dependency-parsing-on-tweebankspaCy-XLM-RoBERTa
Labelled Attachment Score: 79.39
Unlabeled Attachment Score: 83.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在命名实体识别上对Tweebank语料库进行标注并构建用于社交媒体分析的NLP模型 | 论文 | HyperAI超神经