HyperAIHyperAI

Command Palette

Search for a command to run...

AraLingBench:用于评估大型语言模型阿拉伯语语言能力的人工标注基准

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

Abstract

我们提出AraLingBench:一个全面由人工标注的基准测试,用于评估大语言模型(LLMs)在阿拉伯语语言能力方面的表现。该基准涵盖五个核心类别:语法、形态学、拼写、阅读理解和句法,包含150道由专家精心设计的多项选择题,直接评估模型对语言结构的理解能力。对35个阿拉伯语及双语大语言模型的评估结果显示,当前模型在表层语言能力上表现优异,但在深层语法与句法推理方面仍存在显著困难。AraLingBench揭示了知识型基准测试中高分表现与真正语言掌握能力之间的持续差距,表明许多模型的成功主要依赖于记忆或模式识别,而非真正的语言理解。通过分离并量化基础语言技能,AraLingBench为阿拉伯语大语言模型的开发提供了诊断性框架。完整的评估代码已公开发布于GitHub。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供