6 个月前

多任务学习

Mor Geva Ankit Gupta Jonathan Berant

摘要

大规模预训练语言模型（Language Models, LMs）已知能够编码丰富的语言信息。然而，诸如数值推理等高级推理能力，仅通过语言建模目标难以有效习得。因此，现有的数值推理模型多采用专用架构，灵活性受限。在本研究中，我们证明了数值推理任务可通过自动数据生成实现，从而能够通过生成大量训练数据，并在多任务学习框架下对预训练语言模型进行微调，将该能力注入模型中。我们提出的方法——GenBERT，在此类数据上进行预训练后，显著提升了在DROP数据集上的表现（F1值从49.3提升至72.3），达到与同规模先进模型相当的水平，且仅采用简单而通用的编码器-解码器架构。此外，GenBERT在数学应用题数据集上展现出良好的泛化能力，同时在标准阅读理解任务上仍保持高性能。本方法为将各类可自动增强的数据驱动技能注入大规模预训练语言模型提供了一种通用范式，尤其适用于可通过自动化手段生成训练数据的技能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

Mor Geva Ankit Gupta Jonathan Berant

摘要

大规模预训练语言模型（Language Models, LMs）已知能够编码丰富的语言信息。然而，诸如数值推理等高级推理能力，仅通过语言建模目标难以有效习得。因此，现有的数值推理模型多采用专用架构，灵活性受限。在本研究中，我们证明了数值推理任务可通过自动数据生成实现，从而能够通过生成大量训练数据，并在多任务学习框架下对预训练语言模型进行微调，将该能力注入模型中。我们提出的方法——GenBERT，在此类数据上进行预训练后，显著提升了在DROP数据集上的表现（F1值从49.3提升至72.3），达到与同规模先进模型相当的水平，且仅采用简单而通用的编码器-解码器架构。此外，GenBERT在数学应用题数据集上展现出良好的泛化能力，同时在标准阅读理解任务上仍保持高性能。本方法为将各类可自动增强的数据驱动技能注入大规模预训练语言模型提供了一种通用范式，尤其适用于可通过自动化手段生成训练数据的技能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供