
摘要
近年来,文本到SQL解析任务——即将自然语言问题转化为可执行SQL查询——受到越来越多关注,因其能够帮助终端用户在无需技术背景的情况下高效地从数据库中提取关键信息。该任务面临的主要挑战之一是领域泛化能力,即模型如何有效适应未见过的数据库。尽管预训练的文本到文本Transformer模型T5并非专为文本到SQL解析设计,但其在面向领域泛化能力的标准基准测试中已取得了当前最优性能。在本研究中,我们探索了进一步增强预训练T5模型的方法,通过引入针对文本到SQL解析任务专门设计的组件,以提升模型性能。这些组件旨在为文本到SQL解析器引入结构化的归纳偏置(inductive bias),从而增强模型在(可能涉及多跳推理的)复杂逻辑推理方面的能力,这对于生成结构复杂的SQL语句至关重要。为此,我们提出了一种新型架构——GRAPHIX-T5,该模型为混合架构,基于标准预训练Transformer模型,并通过引入若干专门设计的图感知(graph-aware)层进行增强。大量实验与分析表明,GRAPHIX-T5在四个主流文本到SQL基准数据集(SPIDER、SYN、REALISTIC和DK)上均展现出显著有效性。在所有基于T5的解析器中,GRAPHIX-T5以显著优势超越其他方法,达到了新的最先进水平。特别地,GRAPHIX-T5-large在精确匹配(Exact Match, EM)准确率上较原始T5-large提升了5.7%,在执行准确率(Execution Accuracy, EX)上提升了6.6%;其性能甚至超过T5-3B模型,EM准确率高出1.2%,EX准确率高出1.5%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-parsing-on-spider | Graphix-3B + PICARD | Accuracy: 74.0 |
| text-to-sql-on-spider | Graphix-3B+PICARD | Exact Match Accuracy (Dev): 77.1 Execution Accuracy (Dev): 81.0 Execution Accuracy (Test): 77.6 |