HyperAIHyperAI

Command Palette

Search for a command to run...

大型预训练模型与超大词汇表:希伯来语BERT模型的对比分析及一种新的超越所有模型的方法

Eylon Gueta Avi Shmidman Shaltiel Shmidman Cheyn Shmuel Shmidman Joshua Guedalia Moshe Koppel Dan Bareket Amit Seker Reut Tsarfaty

摘要

我们介绍了一种新的现代希伯来语预训练语言模型(PLM),命名为AlephBERTGimmel,该模型采用了比以往标准希伯来语PLM更大的词汇表(128K词条)。我们对这一模型与所有先前的希伯来语PLM(包括mBERT、heBERT和AlephBERT)进行了对比分析,并评估了更大词汇表对任务性能的影响。实验结果表明,更大的词汇表可以减少分词次数,而减少分词次数在不同任务中均有利于模型性能的提升。总体而言,这一新模型在所有可用的希伯来语基准测试中均达到了新的最先进水平(SOTA),包括形态学切分、词性标注、完整形态学分析、命名实体识别和情感分析。因此,我们主张未来的PLM不仅应在层数或训练数据量上更大,还应在词汇表规模上有所扩展。我们已公开发布该新模型,供无限制使用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大型预训练模型与超大词汇表:希伯来语BERT模型的对比分析及一种新的超越所有模型的方法 | 论文 | HyperAI超神经