摘要

近年来，文本到SQL（Text-to-SQL）技术的发展重点在于通过上下文学习（in-context learning）激发大语言模型（LLM）的潜力，取得了显著进展。然而，当面对冗长的数据库信息和复杂的用户意图时，现有方法仍面临挑战。本文提出一种两阶段框架，以提升当前基于大语言模型的自然语言到SQL系统性能。首先，我们引入一种新型提示表示方法，称为参考增强表示（reference-enhanced representation），该方法融合了数据库模式信息以及从表中随机采样的单元格值，用以指导LLM生成更准确的SQL查询。在第一阶段，系统通过检索与问题匹配的“问题-SQL”对作为少样本示例（few-shot demonstrations），引导LLM生成初步SQL语句（PreSQL）。随后，对PreSQL中提及的实体进行解析，完成模式链接（schema linking），从而大幅压缩并提炼出关键有用信息。在第二阶段，基于已链接的模式信息，我们对提示中的模式描述进行简化，并进一步指导LLM生成最终的SQL语句。最后，本文提出一种后处理优化模块，采用跨不同LLM的一致性验证（cross-consistency）策略，而非传统的单个LLM内部自一致性（self-consistency），以提升结果的可靠性。实验结果表明，所提出的方法在Spider基准测试上取得了新的最先进（SOTA）性能，执行准确率达到87.6%。

源 PDF