3 个月前

AraBERT:基于Transformer的阿拉伯语理解模型

AraBERT:基于Transformer的阿拉伯语理解模型

摘要

阿拉伯语是一种形态丰富的语言,相较于英语,其资源相对匮乏,语法研究也相对不足。在这一背景下,诸如情感分析(Sentiment Analysis, SA)、命名实体识别(Named Entity Recognition, NER)以及问答系统(Question Answering, QA)等阿拉伯语自然语言处理(Natural Language Processing, NLP)任务面临极大挑战。近年来,随着基于Transformer架构的模型迅速发展,针对特定语言的BERT类模型在大规模语料库上进行预训练后,展现出卓越的语言理解能力,显著提升了各类NLP任务的性能,并在多数任务中达到当时最先进的水平。本文旨在为阿拉伯语专门开发并预训练BERT模型,以期在阿拉伯语NLP领域取得与英文BERT相同的成功。我们提出的模型名为AraBERT,其性能与谷歌发布的多语言BERT(mBERT)及其他先进方法进行了对比。实验结果表明,AraBERT在大多数测试的阿拉伯语NLP任务中均达到了当前最优(state-of-the-art)水平。为促进阿拉伯语自然语言处理领域的研究与应用,我们已将预训练的AraBERT模型公开发布于GitHub平台:https://github.com/aub-mind/arabert。

基准测试

基准方法指标
sentiment-analysis-on-ajgt-1AraBERTv1
Accuracy: 93.8
sentiment-analysis-on-hard-1AraBERTv1
Accuracy: 96.1
sentiment-analysis-on-labr-2-class-unbalanced-1AraBERTv1
Accuracy: 86.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AraBERT:基于Transformer的阿拉伯语理解模型 | 论文 | HyperAI超神经