Zhishuai LiXiang WangJingjing ZhaoSun YangGuoqing DuXiaoru HuBin ZhangYuxiao YeZiyue LiRui ZhaoHangyu Mao

摘要
近年来,文本到SQL(Text-to-SQL)技术的发展重点在于通过上下文学习(in-context learning)激发大语言模型(LLM)的潜力,取得了显著进展。然而,当面对冗长的数据库信息和复杂的用户意图时,现有方法仍面临挑战。本文提出一种两阶段框架,以提升当前基于大语言模型的自然语言到SQL系统性能。首先,我们引入一种新型提示表示方法,称为参考增强表示(reference-enhanced representation),该方法融合了数据库模式信息以及从表中随机采样的单元格值,用以指导LLM生成更准确的SQL查询。在第一阶段,系统通过检索与问题匹配的“问题-SQL”对作为少样本示例(few-shot demonstrations),引导LLM生成初步SQL语句(PreSQL)。随后,对PreSQL中提及的实体进行解析,完成模式链接(schema linking),从而大幅压缩并提炼出关键有用信息。在第二阶段,基于已链接的模式信息,我们对提示中的模式描述进行简化,并进一步指导LLM生成最终的SQL语句。最后,本文提出一种后处理优化模块,采用跨不同LLM的一致性验证(cross-consistency)策略,而非传统的单个LLM内部自一致性(self-consistency),以提升结果的可靠性。实验结果表明,所提出的方法在Spider基准测试上取得了新的最先进(SOTA)性能,执行准确率达到87.6%。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-sql-on-spider | PET-SQL | Exact Match Accuracy (Test): 66.6 Execution Accuracy (Test): 87.6 |