6 个月前

Mohammadreza Pourreza Davood Rafiei

摘要

在文本到SQL（text-to-SQL）这一具有挑战性的任务上，基于Spider等数据集的评估表明，当前微调模型与提示（prompting）方法在大型语言模型（LLMs）上的性能之间仍存在显著差距。为提升LLMs在推理过程中的表现，我们研究了将复杂任务分解为更小子任务的有效性。具体而言，我们证明：将生成问题分解为若干子问题，并将这些子问题的求解结果作为输入反馈给LLMs，是一种能够显著提升其性能的高效策略。在三种不同LLMs上的实验结果表明，该方法可使模型的简单少样本（few-shot）性能平均提升约10%，并使其准确率逼近或超越当前最优水平（SOTA）。在Spider数据集的保留测试集上，此前的SOTA执行准确率为79.9%，而本文所提出方法在撰写时达到的新SOTA为85.3。此外，该基于上下文学习（in-context learning）的方法在性能上超越了大量经过深度微调的模型，提升幅度至少达5%。在BIRD基准测试中，该方法亦取得了55.9%的执行准确率，刷新了该基准测试集上的SOTA记录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Mohammadreza Pourreza Davood Rafiei

摘要

在文本到SQL（text-to-SQL）这一具有挑战性的任务上，基于Spider等数据集的评估表明，当前微调模型与提示（prompting）方法在大型语言模型（LLMs）上的性能之间仍存在显著差距。为提升LLMs在推理过程中的表现，我们研究了将复杂任务分解为更小子任务的有效性。具体而言，我们证明：将生成问题分解为若干子问题，并将这些子问题的求解结果作为输入反馈给LLMs，是一种能够显著提升其性能的高效策略。在三种不同LLMs上的实验结果表明，该方法可使模型的简单少样本（few-shot）性能平均提升约10%，并使其准确率逼近或超越当前最优水平（SOTA）。在Spider数据集的保留测试集上，此前的SOTA执行准确率为79.9%，而本文所提出方法在撰写时达到的新SOTA为85.3。此外，该基于上下文学习（in-context learning）的方法在性能上超越了大量经过深度微调的模型，提升幅度至少达5%。在BIRD基准测试中，该方法亦取得了55.9%的执行准确率，刷新了该基准测试集上的SOTA记录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供