3 个月前

上下文与非上下文词嵌入模型在印地语命名实体识别中的分析及用于数据收集的网络应用程序

上下文与非上下文词嵌入模型在印地语命名实体识别中的分析及用于数据收集的网络应用程序

摘要

命名实体识别(Named Entity Recognition, NER)是指从一段文本中识别出相关专有名词的过程。本文报告了基于多种嵌入模型开发印地语(Hindi)命名实体识别系统的研究成果,该系统采用天城文(Devanagari)书写形式。我们将嵌入模型分为上下文相关(Contextual)与非上下文相关(Non-contextual)两类,并在此基础上进行类内与类间的对比分析。在非上下文相关嵌入模型中,我们实验了Word2Vec与FastText;在上下文相关嵌入模型中,则采用了BERT及其多种变体,包括RoBERTa、ELECTRA、CamemBERT、Distil-BERT以及XLM-RoBERTa。针对非上下文相关嵌入模型,我们结合五种机器学习算法——高斯朴素贝叶斯(Gaussian NB)、Adaboost分类器、多层感知机分类器(Multi-layer Perceptron Classifier)、随机森林分类器(Random Forest Classifier)和决策树分类器(Decision Tree Classifier),分别构建了十套印地语NER系统:每套系统分别使用FastText和Gensim Word2Vec两种词嵌入模型。随后,将上述基于传统机器学习方法的模型与基于Transformer架构的上下文嵌入NER模型(以BERT及其变体为基础)进行对比。对所有这些NER模型进行了系统性的比较研究。最终,选取表现最优的模型进行部署,并开发了一个Web应用程序。该应用可接收任意长度的印地语文本输入,自动为每个词语标注命名实体标签,并允许用户对标注结果的准确性提供反馈。这些用户反馈将有助于我们后续开展更广泛的数据收集与模型优化工作。

基准测试

基准方法指标
named-entity-recognition-on-iecsil-fire-2018XLM-RoBERTa
Average F1: 90.8419

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
上下文与非上下文词嵌入模型在印地语命名实体识别中的分析及用于数据收集的网络应用程序 | 论文 | HyperAI超神经