3 个月前

CoSQL:面向跨领域数据库自然语言接口的对话式文本到SQL挑战

CoSQL:面向跨领域数据库自然语言接口的对话式文本到SQL挑战

摘要

我们提出 CoSQL,这是一个用于构建跨领域、通用型数据库(DB)查询对话系统的大规模语料库。该语料库包含超过3万次对话轮次及超过1万条人工标注的SQL查询语句,数据来源于3000场通过“巫师之 Oz(Wizard-of-Oz, WOZ)”方法收集的对话,这些对话针对200个涵盖138个不同领域的复杂数据库进行查询。每场对话模拟真实的数据库查询场景:一名众包工作者扮演用户,探索数据库;一位SQL专家则负责通过执行SQL语句获取答案、澄清模糊问题,或说明某些问题无法回答。当用户的问题可通过SQL求解时,专家会向用户解释相应的SQL语句及其执行结果,从而维持自然流畅的交互流程。与现有的任务导向型对话数据集相比,CoSQL引入了若干新挑战:(1)对话状态基于SQL这一与领域无关的可执行表示形式,而非特定领域的槽位-值对;(2)由于测试阶段使用的是未见过的数据库,系统的成功依赖于对新领域的泛化能力。CoSQL包含三个核心任务:基于SQL的对话状态追踪、从查询结果生成响应,以及用户对话行为(dialogue act)预测。我们为每一项任务设置了若干强基线模型,并验证表明,CoSQL为未来的研究带来了显著挑战。该数据集、基线模型及排行榜将公开发布于 https://yale-lily.github.io/cosql。

代码仓库

ryanzhumich/sparc_atis_pytorch
pytorch
GitHub 中提及
amolk/editsql
pytorch
GitHub 中提及
ryanzhumich/editsql
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
dialogue-state-tracking-on-cosqlSyntaxSQL-con
interaction match accuracy: 2.2
question match accuracy: 14.1
dialogue-state-tracking-on-cosqlCD-Seq2seq
interaction match accuracy: 2.6
question match accuracy: 13.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoSQL:面向跨领域数据库自然语言接口的对话式文本到SQL挑战 | 论文 | HyperAI超神经