
摘要
关系结构(如模式链接和模式编码)已被证实是将自然语言高质量地转化为SQL查询的关键组件。然而,引入这些结构关系也带来了代价:通常会导致模型结构高度专用化,从而严重限制了大型预训练模型在文本到SQL任务中的应用。为解决这一问题,我们提出RASAT——一种基于关系感知自注意力机制增强的Transformer序列到序列架构,能够在有效继承T5模型预训练参数的同时,灵活利用多种关系结构。该模型可整合文献中几乎全部类型的关系,并进一步提出在多轮对话场景中引入共指关系(co-reference relations)以提升表现。在三个广泛使用的文本到SQL数据集上的实验结果表明,RASAT在所有三个基准测试中均取得了当前最优性能:在Spider数据集上达到75.5%的执行准确率(EX),在SParC数据集上达到52.6%的独立执行准确率(IEX),在CoSQL数据集上达到37.4%的IEX。
代码仓库
lumia-group/rasat
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dialogue-state-tracking-on-cosql | RASAT+PICARD | interaction match accuracy: 26.5 question match accuracy: 55.7 |
| semantic-parsing-on-spider | RASAT+PICARD | Accuracy: 75.5 |
| text-to-sql-on-sparc | RASAT+PICARD | interaction match accuracy: 45.2 question match accuracy: 67.7 |
| text-to-sql-on-spider-1 | RASAT | Exact Match Accuracy (in Dev): 72.6 Execution Accuracy (in Dev): 76.6 |
| text-to-sql-on-spider-1 | RASAT+PICARD | Exact Match Accuracy (in Dev): 75.3 Execution Accuracy (in Dev): 80.5 |