6 个月前

摘要

表格推理是一项具有挑战性的任务，要求同时理解自然语言问题与结构化表格数据。大型语言模型（LLMs）在自然语言理解与生成方面展现出卓越能力，但在处理大型表格时往往受限于其有限的输入长度。本文提出了一种名为TabSQLify的新方法，该方法利用文本到SQL的生成技术，将原始表格分解为更小且相关的子表格，仅保留回答问题或验证陈述所必需的关键信息，随后在这些精简后的子表格上执行推理任务。在四个具有挑战性的数据集上的综合评估表明，我们的方法在性能上可与现有依赖完整表格作为输入的方法相媲美，甚至更优。此外，该方法显著降低了输入上下文的长度，从而提升了在大规模表格推理应用中的可扩展性与效率。在WikiTQ基准测试中，TabSQLify取得了64.7%的准确率，表现优异；在TabFact基准测试中，准确率高达79.5%，超越了基于gpt-3.5-turbo（ChatGPT）的其他LLM基线模型。实验结果表明，TabSQLify能够在大幅缩减表格规模的同时，有效缓解大型表格处理对LLM带来的计算负担，且不损害推理性能，展现出良好的实用价值与推广潜力。

源 PDF