8 个月前

自然语言处理

Yinzhu Quan Zefang Liu

摘要

在本文中，我们介绍了EconLogicQA，这是一个严格的标准，旨在评估大型语言模型（LLMs）在经济学、商业和供应链管理等复杂领域的顺序推理能力。与传统的逐个预测后续事件的基准不同，EconLogicQA提出了更具挑战性的任务：它要求模型识别并排列多个相互关联的事件，以捕捉经济逻辑的复杂性。EconLogicQA包含一系列从经济文章中提取的多事件场景，这些场景需要对时间关系和逻辑关系有深刻的理解。通过全面的评估，我们展示了EconLogicQA能够有效衡量大型语言模型在经济背景下的顺序推理能力。我们详细描述了EconLogicQA数据集，并展示了在各种前沿大型语言模型上评估该基准的结果，从而提供了它们在经济背景下顺序推理潜力的全面视角。我们的基准数据集可在https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

Yinzhu Quan Zefang Liu

摘要

在本文中，我们介绍了EconLogicQA，这是一个严格的标准，旨在评估大型语言模型（LLMs）在经济学、商业和供应链管理等复杂领域的顺序推理能力。与传统的逐个预测后续事件的基准不同，EconLogicQA提出了更具挑战性的任务：它要求模型识别并排列多个相互关联的事件，以捕捉经济逻辑的复杂性。EconLogicQA包含一系列从经济文章中提取的多事件场景，这些场景需要对时间关系和逻辑关系有深刻的理解。通过全面的评估，我们展示了EconLogicQA能够有效衡量大型语言模型在经济背景下的顺序推理能力。我们详细描述了EconLogicQA数据集，并展示了在各种前沿大型语言模型上评估该基准的结果，从而提供了它们在经济背景下顺序推理潜力的全面视角。我们的基准数据集可在https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供