
摘要
本文介绍了LingOly基准测试,这是一种针对大型语言模型高级推理能力的新颖基准测试。通过使用具有挑战性的语言奥林匹克竞赛谜题,我们评估了(i)在极低资源或已灭绝的语言中进行上下文内识别和泛化语言模式的能力,以及(ii)遵循复杂任务指令的能力。LingOly基准测试涵盖了90多种主要为低资源的语言,减少了数据污染的问题,并包含1,133个问题,涉及6种格式和5个难度等级。我们通过直接准确率和与无上下文基线的比较来评估性能,以惩罚记忆化行为。来自11个最先进大型语言模型的得分表明该基准测试具有相当大的挑战性,且模型在高难度问题上的表现较差。在较难的问题上,即使是顶级模型也仅达到了38.7%的准确率,相比无上下文基线提高了24.7%。大型封闭模型通常优于开放模型,总体而言,语言资源越丰富,得分越高。这些结果表明,在排除记忆化的情况下,真正的多步骤跨域推理仍然是当前语言模型面临的一个挑战。
代码仓库
am-bean/lingOly
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| logical-reasoning-on-lingoly | Gemini 1.5 Pro | Delta_NoContext: 23.4% Exact Match Accuracy: 32.1% |
| logical-reasoning-on-lingoly | GPT-4 | Delta_NoContext: 21.5% Exact Match Accuracy: 33.4% |
| logical-reasoning-on-lingoly | GPT-3.5 | Delta_NoContext: 11.2% Exact Match Accuracy: 21.2% |
| logical-reasoning-on-lingoly | Claude Opus | Delta_NoContext: 28.8% Exact Match Accuracy: 46.3% |
| logical-reasoning-on-lingoly | Command R+ | Delta_NoContext: 11.6% Exact Match Accuracy: 21.5% |
| logical-reasoning-on-lingoly | Llama 3 8B | Delta_NoContext: 4.9% Exact Match Accuracy: 11.4% |
| logical-reasoning-on-lingoly | Llama 3 70B | Delta_NoContext: 2.9% Exact Match Accuracy: 10.3% |
| logical-reasoning-on-lingoly | Llama 2 70B | Delta_NoContext: 1.1% Exact Match Accuracy: 6.4% |
| logical-reasoning-on-lingoly | GPT-4o | Delta_NoContext: 25.1% Exact Match Accuracy: 37.6% |
| logical-reasoning-on-lingoly | Mixtral 8x7B | Delta_NoContext: 6.4% Exact Match Accuracy: 14.2% |
| logical-reasoning-on-lingoly | Gemma 7B | Delta_NoContext: 2.2% Exact Match Accuracy: 4.9% |