4 个月前

PosFormer:使用位置森林变换器识别复杂的 handwritten 数学表达式

PosFormer:使用位置森林变换器识别复杂的 handwritten 数学表达式

摘要

手写数学表达式识别(HMER)在人机交互场景中有着广泛的应用,例如数字化教育和自动化办公。近期,基于序列的模型采用编码器-解码器架构直接预测表达式图像的LaTeX序列,已成为解决这一任务的常用方法。然而,这些方法仅隐式学习了LaTeX提供的语法规则,由于复杂的结构关系和多样的书写风格,可能无法准确描述符号之间的位置和层次关系。为了解决这一挑战,我们提出了一种位置森林变换器(PosFormer),用于HMER任务,该模型联合优化两个任务:表达式识别和位置识别,从而显式地实现位置感知的符号特征表示学习。具体而言,我们首先设计了一个位置森林结构,将数学表达式建模为森林结构,并解析符号之间的相对位置关系。无需额外注释,每个符号在森林中都被分配了一个位置标识符,以表示其相对的空间位置。其次,我们提出了一种隐式注意力校正模块,在基于序列的解码器架构中准确捕捉HMER的注意力。大量实验验证了PosFormer的优势,在单行CROHME 2014/2016/2019、多行M2E以及复杂MNE数据集上分别取得了2.03%、1.22%、2.00%、1.83%和4.62%的性能提升,且没有增加额外的延迟或计算成本。代码已发布在https://github.com/SJTU-DeepVisionLab/PosFormer。

代码仓库

sjtu-deepvisionlab/posformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
handwritten-mathmatical-expressionPosFormer
ExpRate: 60.45
handwritten-mathmatical-expression-1PosFormer
ExpRate: 60.94
handwritten-mathmatical-expression-2PosFormer
ExpRate: 62.22
handwritten-mathmatical-expression-3PosFormer
ExpRate: 69.51

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PosFormer:使用位置森林变换器识别复杂的 handwritten 数学表达式 | 论文 | HyperAI超神经