
摘要
在本文中,我们介绍了EconLogicQA,这是一个严格的标准,旨在评估大型语言模型(LLMs)在经济学、商业和供应链管理等复杂领域的顺序推理能力。与传统的逐个预测后续事件的基准不同,EconLogicQA提出了更具挑战性的任务:它要求模型识别并排列多个相互关联的事件,以捕捉经济逻辑的复杂性。EconLogicQA包含一系列从经济文章中提取的多事件场景,这些场景需要对时间关系和逻辑关系有深刻的理解。通过全面的评估,我们展示了EconLogicQA能够有效衡量大型语言模型在经济背景下的顺序推理能力。我们详细描述了EconLogicQA数据集,并展示了在各种前沿大型语言模型上评估该基准的结果,从而提供了它们在经济背景下顺序推理潜力的全面视角。我们的基准数据集可在https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa 获取。
代码仓库
yinzhu-quan/lm-evaluation-harness
官方
pytorch