
摘要
大规模语言模型(LLMs)已成为文本到SQL(Text-to-SQL)任务的新范式。然而,由于缺乏系统性的评估基准,现有研究在设计高效、经济且有效的基于LLM的Text-to-SQL解决方案方面面临阻碍。为应对这一挑战,本文首先对现有的提示工程(prompt engineering)方法进行了系统且全面的比较,涵盖问题表示、示例选择与示例组织三个关键环节,并基于实验结果深入分析了各类方法的优缺点。在此基础上,我们提出一种全新的集成式解决方案——DAIL-SQL,该方法在Spider基准测试中取得了86.6%的执行准确率,刷新了该榜单的最新纪录,树立了新的性能标杆。为进一步探索开源大语言模型在Text-to-SQL任务中的潜力,我们系统考察了其在多种应用场景下的表现,并通过监督微调(supervised fine-tuning)进一步提升了模型性能。实验结果表明,开源LLM在Text-to-SQL任务中展现出巨大潜力,同时揭示了监督微调在提升性能方面的优势与局限性。此外,为实现高效且经济的基于LLM的Text-to-SQL解决方案,本文特别强调了提示工程中的令牌效率(token efficiency),并在此指标下对先前研究进行了系统性对比。我们希望本工作能够深化对LLM在Text-to-SQL任务中应用机制的理解,激发后续研究的深入探索,并推动该技术在更广泛场景中的落地应用。
代码仓库
beachwang/dail-sql
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-sql-on-bird-big-bench-for-large-scale | DAIL-SQL + GPT-4 | Execution Accuracy % (Dev): 54.76 Execution Accuracy % (Test): 57.41 |
| text-to-sql-on-spider | DAIL-SQL + GPT-4 + Self-Consistency | Exact Match Accuracy (Dev): 74.4 Execution Accuracy (Dev): 84.4 Execution Accuracy (Test): 86.6 |