8 个月前

检索增强生成

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

摘要

FinanceBench 是一种开创性的测试套件，用于评估大语言模型（LLM）在开放书本金融问答（QA）中的性能。该套件包含 10,231 个关于上市公司的问题及其对应的答案和证据字符串。FinanceBench 中的问题具有生态有效性，涵盖了多种场景，并且设计得明确而直接，旨在作为最低性能标准。我们对 16 种最先进的模型配置（包括 GPT-4-Turbo、Llama2 和 Claude2，以及向量存储和长上下文提示）进行了测试，选取了 FinanceBench 中的 150 个案例样本，并对其回答进行了人工审查（共 2,400 条）。这些案例以开源形式提供。研究结果表明，现有的大语言模型在金融问答方面存在明显局限性。特别是，当使用检索系统时，GPT-4-Turbo 错误回答或拒绝回答了 81% 的问题。虽然使用较长上下文窗口输入相关证据等增强技术可以提高性能，但在企业环境中由于延迟增加而不切实际，并且无法支持更大的金融文档。我们发现所有被测试的模型都表现出了一些弱点，如产生幻觉（hallucinations），这限制了它们在企业中的适用性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

检索增强生成

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

摘要

FinanceBench 是一种开创性的测试套件，用于评估大语言模型（LLM）在开放书本金融问答（QA）中的性能。该套件包含 10,231 个关于上市公司的问题及其对应的答案和证据字符串。FinanceBench 中的问题具有生态有效性，涵盖了多种场景，并且设计得明确而直接，旨在作为最低性能标准。我们对 16 种最先进的模型配置（包括 GPT-4-Turbo、Llama2 和 Claude2，以及向量存储和长上下文提示）进行了测试，选取了 FinanceBench 中的 150 个案例样本，并对其回答进行了人工审查（共 2,400 条）。这些案例以开源形式提供。研究结果表明，现有的大语言模型在金融问答方面存在明显局限性。特别是，当使用检索系统时，GPT-4-Turbo 错误回答或拒绝回答了 81% 的问题。虽然使用较长上下文窗口输入相关证据等增强技术可以提高性能，但在企业环境中由于延迟增加而不切实际，并且无法支持更大的金融文档。我们发现所有被测试的模型都表现出了一些弱点，如产生幻觉（hallucinations），这限制了它们在企业中的适用性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

FinanceBench：金融问答的新基准 | 论文 | HyperAI超神经