
摘要
本文提出了一种神经网络模型EPT-X(带解释的表达-指针Transformer),该模型利用自然语言解释来求解代数应用题。为增强神经模型编码过程的可解释性,EPT-X借鉴了人类解决数学应用题时所采用的“合理性”与“忠实性”概念。其中,“合理性”指解释应包含问题中出现的数字与变量的相关上下文信息;“忠实性”则指解释需准确反映模型求解方程背后的推理过程。在我们构建的PEN数据集上,EPT-X模型取得了平均69.59%的基准性能,并生成的解释质量可与人类输出相媲美。本研究的贡献主要体现在两个方面:(1)提出EPT-X模型:一个具备可解释性的神经模型,为代数应用题求解任务设立了基准,涵盖模型准确性、解释合理性与忠实性三个维度;(2)发布新数据集:我们公开了一个名为PEN(数字解释问题数据集)的新型数据集,该数据集在现有数据集的基础上,为每个数字或变量附加了相应的自然语言解释,从而显著扩展了数据的可解释性维度。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| math-word-problem-solving-on-alg514 | EPT-X | Accuracy (%): 67.07 |
| math-word-problem-solving-on-alg514 | EPT | Accuracy (%): 73.91 |
| math-word-problem-solving-on-draw-1k | EPT-X | Accuracy (%): 56 |
| math-word-problem-solving-on-draw-1k | EPT | Accuracy (%): 63.5 |
| math-word-problem-solving-on-mawps | EPT | Accuracy (%): 88.7 |
| math-word-problem-solving-on-mawps | EPT-X | Accuracy (%): 84.57 |
| math-word-problem-solving-on-pen | EPT-X | Accuracy (%): 69.59 |