4 个月前

COVID-19 越南语命名实体识别

COVID-19 越南语命名实体识别

摘要

当前的COVID-19大流行已促使许多语料库的创建,这些语料库有助于自然语言处理(NLP)研究和下游应用,以助力抗击大流行。然而,大多数这些语料库仅限于英语。鉴于大流行是一个全球性问题,为其他语言创建COVID-19相关数据集是值得的。在本文中,我们介绍了首个针对越南语的手动标注COVID-19领域特定数据集。特别是,我们的数据集针对命名实体识别(NER)任务进行了标注,并定义了新的实体类型,这些类型可以在未来的疫情中使用。与现有的越南语NER数据集相比,我们的数据集包含最多的实体数量。我们在该数据集上使用强大的基线模型进行了实证实验,并发现:自动越南语分词有助于提高NER结果,通过微调预训练语言模型获得的最佳性能中,单语模型PhoBERT(Nguyen和Nguyen, 2020)的表现优于多语言模型XLM-R(Conneau等, 2020)。我们已公开发布该数据集,地址为:https://github.com/VinAIResearch/PhoNER_COVID19

代码仓库

VinAIResearch/PhoNER_COVID19
官方
GitHub 中提及

基准测试

基准方法指标
named-entity-recognition-in-vietnamese-on-1PhoBERT
F1 (%): 94.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
COVID-19 越南语命名实体识别 | 论文 | HyperAI超神经