
摘要
我们介绍了一种新的现代希伯来语预训练语言模型(PLM),命名为AlephBERTGimmel,该模型采用了比以往标准希伯来语PLM更大的词汇表(128K词条)。我们对这一模型与所有先前的希伯来语PLM(包括mBERT、heBERT和AlephBERT)进行了对比分析,并评估了更大词汇表对任务性能的影响。实验结果表明,更大的词汇表可以减少分词次数,而减少分词次数在不同任务中均有利于模型性能的提升。总体而言,这一新模型在所有可用的希伯来语基准测试中均达到了新的最先进水平(SOTA),包括形态学切分、词性标注、完整形态学分析、命名实体识别和情感分析。因此,我们主张未来的PLM不仅应在层数或训练数据量上更大,还应在词汇表规模上有所扩展。我们已公开发布该新模型,供无限制使用。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-nemo-corpus | AlephBERTGimmel-base MTL | F1: 80.39 |