8 个月前

摘要

近期在大型语言模型（LLMs）方面的进展显著推动了文本到SQL系统的进步。然而，大多数基于LLM的方法往往仅关注SQL生成，忽视了现实世界对话查询的复杂性。这种疏忽可能导致对模糊问题的回答不可靠，特别是那些无法直接通过SQL解决的问题。为了解决这一差距，我们提出了MMSQL，一个全面的测试套件，旨在通过模拟包含多种问题类型和多轮问答交互的真实场景来评估LLM的问题分类和SQL生成能力。利用MMSQL，我们评估了包括开源和闭源模型在内的热门LLM的表现，并识别出影响其在这些场景中性能的关键因素。此外，我们介绍了一种基于LLM的多代理框架，该框架使用专门的代理来识别问题类型并确定合适的回答策略。实验结果表明，这种方法显著增强了模型应对对话动态复杂性的能力，有效处理了用户查询的多样性和复杂性。我们的数据集和代码已公开发布于https://mcxiaoxiao.github.io/MMSQL。

源 PDF