3 个月前

CABINET：基于内容相关性的噪声消除用于表格问答

Sohan Patnaik Heril Changwal Milan Aggarwal Sumit Bhatia Yaman Kumar Balaji Krishnamurthy

摘要

大型语言模型（LLMs）在表格理解方面的能力已通过表格问答（Table Question Answering, QA）任务得到了广泛研究。通常情况下，仅表格中的一小部分信息与特定问题相关，而其余部分则构成噪声，成为干扰信息，导致LLM因对噪声敏感而表现不佳。为缓解这一问题，我们提出CABINET（基于内容相关性的噪声抑制框架，Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering），旨在通过抑制无关信息，使LLM能够聚焦于与问题相关的表格内容。CABINET框架包含一个无监督相关性评分模块（Unsupervised Relevance Scorer, URS），该模块与问答LLM（QA LLM）联合微调，能够在将表格输入QA LLM之前，根据其与输入问题的相关性对表格内容进行加权。为进一步提升相关性评分的准确性，CABINET引入了一个弱监督模块，该模块生成描述与问题相关的行和列的解析语句，并高亮对应表格单元格中的内容，从而增强模型对关键信息的识别能力。实验结果表明，CABINET显著优于多种表格专用LLM基线模型，以及基于GPT-3的上下文学习方法，在不同规模的表格上均表现出更强的鲁棒性，并在WikiTQ、FeTaQA和WikiSQL三个主流数据集上取得了新的最先进（SoTA）性能。相关代码与数据集已开源，地址为：https://github.com/Sohanpatnaik106/CABINET_QA。

代码仓库

sohanpatnaik106/cabinet_qa

官方

pytorch

基准测试

基准	方法	指标
semantic-parsing-on-wikisql-1	CABINET	Denotation accuracy (test): 89.5
semantic-parsing-on-wikitablequestions	CABINET	Accuracy (Dev): / Accuracy (Test): 69.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供