
摘要
模式链接(Schema linking)是文本到SQL(Text-to-SQL)流水线中的关键步骤,其目标是在用户查询时从目标数据库中准确检索出相关的表和列,同时忽略无关的元素。然而,不完善的模式链接常常会导致必要列被错误排除,从而影响查询生成的准确性。在本研究中,我们重新审视了在最新一代大语言模型(LLMs)背景下模式链接的作用。实证结果表明,尽管存在大量无关模式元素,新型模型在生成过程中仍能有效利用相关模式信息。基于这一发现,我们提出在模式结构能够完整容纳于模型上下文窗口的情况下,完全跳过模式链接步骤,以避免因误过滤必要模式元素而引发的问题。此外,我们不再依赖于对上下文信息的简单过滤,而是引入并采用增强(augmentation)、选择(selection)和修正(correction)等技术,以提升文本到SQL生成的准确性。基于该方法,我们在BIRD基准测试中取得第一名,准确率达到71.83%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-sql-on-bird-big-bench-for-large-scale | Distillery + GPT-4o | Execution Accuracy % (Dev): 67.21 Execution Accuracy % (Test): 71.83 |