
摘要
编码器-解码器模型在手写数学表达式识别方面取得了显著进展。然而,现有的方法在准确分配图像特征的注意力上仍然面临挑战。此外,这些编码器-解码器模型通常在其解码器部分采用基于RNN(循环神经网络)的模型,这使得它们在处理长$\LaTeX{}$序列时效率较低。本文中,我们采用基于Transformer的解码器替代了基于RNN的解码器,从而使整个模型架构变得非常简洁。此外,我们引入了一种新的训练策略,以充分利用Transformer在双向语言建模中的潜力。实验结果表明,与几种不使用数据增强的方法相比,我们的模型在CROHME 2014数据集上的ExpRate(表达式识别率)提高了2.23%。同样,在CROHME 2016和CROHME 2019数据集上,我们的模型分别将ExpRate提高了1.92%和2.28%。
代码仓库
qingzhenduyu/ical
pytorch
GitHub 中提及
Green-Wood/BTTR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| handwritten-mathmatical-expression | BTTR | ExpRate: 53.96 |
| handwritten-mathmatical-expression-1 | BTTR | ExpRate: 52.31 |
| handwritten-mathmatical-expression-2 | BTTR | ExpRate: 52.96 |
| handwritten-mathmatical-expression-3 | BTTR | ExpRate: 64.1 |