4 个月前

通过生成问题陈述的语言变体来解决数学文字题

Syed Rifat Raiyan; Md. Nafis Faiyaz; Shah Md. Jawad Kabir; Mohsinul Kabir; Hasan Mahmud; Md Kamrul Hasan

摘要

数学推理的艺术是智力进步的基础支柱之一，也是培养人类创造力的核心催化剂。研究人员最近发表了大量关于解决数学文字题（Math Word Problems, MWP）的工作，这是向通用人工智能迈进的重要一步。现有的模型在求解过程中容易依赖浅层启发式方法和虚假相关性来推导解表达式。为了解决这一问题，本文提出了一种基于生成问题文本语言变体的MWP求解框架。该方法包括求解每个变体问题，并选择得票最多的预测表达式。我们使用DeBERTa（具有解耦注意力机制的增强型BERT）作为编码器，以利用其丰富的文本表示能力和增强的掩码解码器来构建解表达式。此外，我们引入了一个具有挑战性的数据集$\mathrm{P\small{ARA}\normalsize{MAWPS}}$，该数据集包含从基准数据集$\mathrm{M\small{AWPS}}$中精心挑选的数学文字题的同义改写、对抗性和逆向变体。我们在该数据集以及其他基准数据集上进行了广泛的实验，使用了一些基线MWP求解模型。结果表明，对问题陈述的语言变体进行训练并在候选预测中投票可以提高模型的数学推理能力和鲁棒性。我们已将代码和数据公开。注释：- “Math Word Problems (MWP)” 翻译为“数学文字题”，这是常见的术语翻译。- “DeBERTa (Decoding-enhanced BERT with disentangled attention)” 翻译为“具有解耦注意力机制的增强型BERT”，并保留了英文缩写。- 数据集名称 $\mathrm{P\small{ARA}\normalsize{MAWPS}}$ 和 $\mathrm{M\small{AWPS}}$ 保持了原文的形式，并在首次出现时给出了中文解释。- 其他专业术语如“启发式方法”、“虚假相关性”、“编码器”、“文本表示能力”、“掩码解码器”等均采用了通用译法。

代码仓库

starscream-11813/variational-mathematical-reasoning

官方

GitHub 中提及

基准测试

基准	方法	指标
math-word-problem-solving-on-mawps	GPT-3.5 turbo (175B)	Accuracy (%): 80.3
math-word-problem-solving-on-mawps	DeBERTa (PM + VM)	Accuracy (%): 91.0
math-word-problem-solving-on-mawps	GPT-J	Accuracy (%): 9.9
math-word-problem-solving-on-mawps	GPT-3 text-babbage-001 (6.7B)	Accuracy (%): 2.76
math-word-problem-solving-on-mawps	GPT-3 text-curie-001 (13B)	Accuracy (%): 4.09
math-word-problem-solving-on-paramawps	GPT-3 text-babbage-001 (6.7B)	Accuracy (%): 3.21
math-word-problem-solving-on-paramawps	GPT-3.5 Turbo (175B)	Accuracy (%): 73.0
math-word-problem-solving-on-paramawps	DeBERTa (VM)	Accuracy (%): 79.1
math-word-problem-solving-on-paramawps	GPT-J (6B)	Accuracy (%): 5.9
math-word-problem-solving-on-paramawps	GPT-3 text-curie-001 (13B)	Accuracy (%): 4.20
math-word-problem-solving-on-svamp	DeBERTa	Accuracy: 63.5 Execution Accuracy: 63.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供