4 个月前

评估和增强多轮文本到SQL转换中的LLM模型以处理多种问题类型

评估和增强多轮文本到SQL转换中的LLM模型以处理多种问题类型

摘要

近期在大型语言模型(LLMs)方面的进展显著推动了文本到SQL系统的进步。然而,大多数基于LLM的方法往往仅关注SQL生成,忽视了现实世界对话查询的复杂性。这种疏忽可能导致对模糊问题的回答不可靠,特别是那些无法直接通过SQL解决的问题。为了解决这一差距,我们提出了MMSQL,一个全面的测试套件,旨在通过模拟包含多种问题类型和多轮问答交互的真实场景来评估LLM的问题分类和SQL生成能力。利用MMSQL,我们评估了包括开源和闭源模型在内的热门LLM的表现,并识别出影响其在这些场景中性能的关键因素。此外,我们介绍了一种基于LLM的多代理框架,该框架使用专门的代理来识别问题类型并确定合适的回答策略。实验结果表明,这种方法显著增强了模型应对对话动态复杂性的能力,有效处理了用户查询的多样性和复杂性。我们的数据集和代码已公开发布于https://mcxiaoxiao.github.io/MMSQL。

代码仓库

mcxiaoxiao/MMSQL
官方
GitHub 中提及

基准测试

基准方法指标
mmsql-performance-on-mmsqlSQLCoder-8B
TDEX: 30.7
mmsql-performance-on-mmsqlGemini-1.5 Flash
TDEX: 65.8
mmsql-performance-on-mmsqlLlama3-8B
TDEX: 64.0
mmsql-performance-on-mmsqlGPT-4 Turbo
TDEX: 67.0
mmsql-performance-on-mmsqlLlama3-70B
TDEX: 62.8
mmsql-performance-on-mmsqlGPT-3.5 Turbo
TDEX: 64.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供