3 个月前

将数值推理能力注入语言模型

将数值推理能力注入语言模型

摘要

大规模预训练语言模型(Language Models, LMs)已知能够编码丰富的语言信息。然而,诸如数值推理等高级推理能力,仅通过语言建模目标难以有效习得。因此,现有的数值推理模型多采用专用架构,灵活性受限。在本研究中,我们证明了数值推理任务可通过自动数据生成实现,从而能够通过生成大量训练数据,并在多任务学习框架下对预训练语言模型进行微调,将该能力注入模型中。我们提出的方法——GenBERT,在此类数据上进行预训练后,显著提升了在DROP数据集上的表现(F1值从49.3提升至72.3),达到与同规模先进模型相当的水平,且仅采用简单而通用的编码器-解码器架构。此外,GenBERT在数学应用题数据集上展现出良好的泛化能力,同时在标准阅读理解任务上仍保持高性能。本方法为将各类可自动增强的数据驱动技能注入大规模预训练语言模型提供了一种通用范式,尤其适用于可通过自动化手段生成训练数据的技能。

代码仓库

lesterpjy/numeric-t5
GitHub 中提及
ag1988/injecting_numeracy
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-drop-testGenBERT (+ND+TD)
F1: 72.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将数值推理能力注入语言模型 | 论文 | HyperAI超神经