4 个月前

FinanceBench:金融问答的新基准

FinanceBench:金融问答的新基准

摘要

FinanceBench 是一种开创性的测试套件,用于评估大语言模型(LLM)在开放书本金融问答(QA)中的性能。该套件包含 10,231 个关于上市公司的问题及其对应的答案和证据字符串。FinanceBench 中的问题具有生态有效性,涵盖了多种场景,并且设计得明确而直接,旨在作为最低性能标准。我们对 16 种最先进的模型配置(包括 GPT-4-Turbo、Llama2 和 Claude2,以及向量存储和长上下文提示)进行了测试,选取了 FinanceBench 中的 150 个案例样本,并对其回答进行了人工审查(共 2,400 条)。这些案例以开源形式提供。研究结果表明,现有的大语言模型在金融问答方面存在明显局限性。特别是,当使用检索系统时,GPT-4-Turbo 错误回答或拒绝回答了 81% 的问题。虽然使用较长上下文窗口输入相关证据等增强技术可以提高性能,但在企业环境中由于延迟增加而不切实际,并且无法支持更大的金融文档。我们发现所有被测试的模型都表现出了一些弱点,如产生幻觉(hallucinations),这限制了它们在企业中的适用性。

代码仓库

SuperpoweredAI/spRAG
GitHub 中提及
patronus-ai/financebench
官方
GitHub 中提及

基准测试

基准方法指标
how-to-refund-a-wrong-transaction-in-phonepePhonePe
PhonePe wrong transaction refund money : 25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FinanceBench:金融问答的新基准 | 论文 | HyperAI超神经