3 个月前

DIN-SQL:基于自校正的文本到SQL分解式上下文学习

DIN-SQL:基于自校正的文本到SQL分解式上下文学习

摘要

在文本到SQL(text-to-SQL)这一具有挑战性的任务上,基于Spider等数据集的评估表明,当前微调模型与提示(prompting)方法在大型语言模型(LLMs)上的性能之间仍存在显著差距。为提升LLMs在推理过程中的表现,我们研究了将复杂任务分解为更小子任务的有效性。具体而言,我们证明:将生成问题分解为若干子问题,并将这些子问题的求解结果作为输入反馈给LLMs,是一种能够显著提升其性能的高效策略。在三种不同LLMs上的实验结果表明,该方法可使模型的简单少样本(few-shot)性能平均提升约10%,并使其准确率逼近或超越当前最优水平(SOTA)。在Spider数据集的保留测试集上,此前的SOTA执行准确率为79.9%,而本文所提出方法在撰写时达到的新SOTA为85.3。此外,该基于上下文学习(in-context learning)的方法在性能上超越了大量经过深度微调的模型,提升幅度至少达5%。在BIRD基准测试中,该方法亦取得了55.9%的执行准确率,刷新了该基准测试集上的SOTA记录。

基准测试

基准方法指标
text-to-sql-on-bird-big-bench-for-large-scaleDIN-SQL + GPT-4
Execution Accuracy % (Dev): 50.72
Execution Accuracy % (Test): 55.90
text-to-sql-on-spiderDIN-SQL + GPT-4
Exact Match Accuracy (Test): 60
Execution Accuracy (Test): 85.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DIN-SQL:基于自校正的文本到SQL分解式上下文学习 | 论文 | HyperAI超神经