8 个月前

摘要

编码器-解码器模型在手写数学表达式识别方面取得了显著进展。然而，现有的方法在准确分配图像特征的注意力上仍然面临挑战。此外，这些编码器-解码器模型通常在其解码器部分采用基于RNN（循环神经网络）的模型，这使得它们在处理长 $\LaTeX{}$ 序列时效率较低。本文中，我们采用基于Transformer的解码器替代了基于RNN的解码器，从而使整个模型架构变得非常简洁。此外，我们引入了一种新的训练策略，以充分利用Transformer在双向语言建模中的潜力。实验结果表明，与几种不使用数据增强的方法相比，我们的模型在CROHME 2014数据集上的ExpRate（表达式识别率）提高了2.23%。同样，在CROHME 2016和CROHME 2019数据集上，我们的模型分别将ExpRate提高了1.92%和2.28%。