
摘要
数学推理的艺术是智力进步的基础支柱之一,也是培养人类创造力的核心催化剂。研究人员最近发表了大量关于解决数学文字题(Math Word Problems, MWP)的工作,这是向通用人工智能迈进的重要一步。现有的模型在求解过程中容易依赖浅层启发式方法和虚假相关性来推导解表达式。为了解决这一问题,本文提出了一种基于生成问题文本语言变体的MWP求解框架。该方法包括求解每个变体问题,并选择得票最多的预测表达式。我们使用DeBERTa(具有解耦注意力机制的增强型BERT)作为编码器,以利用其丰富的文本表示能力和增强的掩码解码器来构建解表达式。此外,我们引入了一个具有挑战性的数据集$\mathrm{P\small{ARA}\normalsize{MAWPS}}$,该数据集包含从基准数据集$\mathrm{M\small{AWPS}}$中精心挑选的数学文字题的同义改写、对抗性和逆向变体。我们在该数据集以及其他基准数据集上进行了广泛的实验,使用了一些基线MWP求解模型。结果表明,对问题陈述的语言变体进行训练并在候选预测中投票可以提高模型的数学推理能力和鲁棒性。我们已将代码和数据公开。注释:- “Math Word Problems (MWP)” 翻译为“数学文字题”,这是常见的术语翻译。- “DeBERTa (Decoding-enhanced BERT with disentangled attention)” 翻译为“具有解耦注意力机制的增强型BERT”,并保留了英文缩写。- 数据集名称 $\mathrm{P\small{ARA}\normalsize{MAWPS}}$ 和 $\mathrm{M\small{AWPS}}$ 保持了原文的形式,并在首次出现时给出了中文解释。- 其他专业术语如“启发式方法”、“虚假相关性”、“编码器”、“文本表示能力”、“掩码解码器”等均采用了通用译法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| math-word-problem-solving-on-mawps | GPT-3.5 turbo (175B) | Accuracy (%): 80.3 |
| math-word-problem-solving-on-mawps | DeBERTa (PM + VM) | Accuracy (%): 91.0 |
| math-word-problem-solving-on-mawps | GPT-J | Accuracy (%): 9.9 |
| math-word-problem-solving-on-mawps | GPT-3 text-babbage-001 (6.7B) | Accuracy (%): 2.76 |
| math-word-problem-solving-on-mawps | GPT-3 text-curie-001 (13B) | Accuracy (%): 4.09 |
| math-word-problem-solving-on-paramawps | GPT-3 text-babbage-001 (6.7B) | Accuracy (%): 3.21 |
| math-word-problem-solving-on-paramawps | GPT-3.5 Turbo (175B) | Accuracy (%): 73.0 |
| math-word-problem-solving-on-paramawps | DeBERTa (VM) | Accuracy (%): 79.1 |
| math-word-problem-solving-on-paramawps | GPT-J (6B) | Accuracy (%): 5.9 |
| math-word-problem-solving-on-paramawps | GPT-3 text-curie-001 (13B) | Accuracy (%): 4.20 |
| math-word-problem-solving-on-svamp | DeBERTa | Accuracy: 63.5 Execution Accuracy: 63.5 |