4 个月前

EconLogicQA:一个用于评估大型语言模型在经济序列推理中表现的问题回答基准测试

EconLogicQA:一个用于评估大型语言模型在经济序列推理中表现的问题回答基准测试

摘要

在本文中,我们介绍了EconLogicQA,这是一个严格的标准,旨在评估大型语言模型(LLMs)在经济学、商业和供应链管理等复杂领域的顺序推理能力。与传统的逐个预测后续事件的基准不同,EconLogicQA提出了更具挑战性的任务:它要求模型识别并排列多个相互关联的事件,以捕捉经济逻辑的复杂性。EconLogicQA包含一系列从经济文章中提取的多事件场景,这些场景需要对时间关系和逻辑关系有深刻的理解。通过全面的评估,我们展示了EconLogicQA能够有效衡量大型语言模型在经济背景下的顺序推理能力。我们详细描述了EconLogicQA数据集,并展示了在各种前沿大型语言模型上评估该基准的结果,从而提供了它们在经济背景下顺序推理潜力的全面视角。我们的基准数据集可在https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa 获取。

代码仓库

基准测试

基准方法指标
sentence-ordering-on-econlogicqaGemma-7B-IT
Accuracy: 0.0231
sentence-ordering-on-econlogicqaMistral-7B-Instruct-v0.1
Accuracy: 0.1538
sentence-ordering-on-econlogicqaYi-6B-Chat
Accuracy: 0.2077
sentence-ordering-on-econlogicqaMistral-7B-Instruct-v0.2
Accuracy: 0.3154
sentence-ordering-on-econlogicqaLlama-2-7B
Accuracy: 0.0077
sentence-ordering-on-econlogicqaZephyr-7B-Alpha
Accuracy: 0.2308
sentence-ordering-on-econlogicqaYi-6B
Accuracy: 0.0385
sentence-ordering-on-econlogicqaLlama-3-8B
Accuracy: 0.2385
sentence-ordering-on-econlogicqaMistral-7B-v0.2
Accuracy: 0.2615
sentence-ordering-on-econlogicqaMistral-7B-v0.1
Accuracy: 0.2615
sentence-ordering-on-econlogicqaZephyr-7B-Beta
Accuracy: 0.1769
sentence-ordering-on-econlogicqaLlama-2-13B-Chat
Accuracy: 0.1462
sentence-ordering-on-econlogicqaLlama-2-7B-Chat
Accuracy: 0.0923
sentence-ordering-on-econlogicqaLlama-3-8B-Instruct
Accuracy: 0.3462
sentence-ordering-on-econlogicqaGemma-2B-IT
Accuracy: 0.0846
sentence-ordering-on-econlogicqaGPT-3.5-Turbo
Accuracy: 0.3769
sentence-ordering-on-econlogicqaGPT-4
Accuracy: 0.5538
sentence-ordering-on-econlogicqaGPT-4-Turbo
Accuracy: 0.5692

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供