3 个月前

TDv2:一种用于离线数学表达式识别的新型树结构解码器

TDv2:一种用于离线数学表达式识别的新型树结构解码器

摘要

近年来,在手写数学表达式识别(Handwritten Mathematical Expression Recognition, HMER)领域,树解码器(tree decoder)逐渐取代了传统的LaTeX字符串解码器,因其能够有效捕捉数学表达式的层次化树状结构。然而,以往的树解码器在处理树结构标签时,通常将其转换为固定且有序的序列,这限制了对树标签多样化表达形式的充分利用。为此,本文提出一种新型树解码器(TDv2),旨在充分挖掘树结构标签的表达潜力。与以往方法不同,该模型在训练和推理过程中无需为节点的不同分支设定固定的优先级,从而显著提升了模型的泛化能力。本模型在输入与输出设计中均充分融合了树结构标签的语义信息,使得解码过程无需显式查找父节点,简化了解码流程,并引入先验信息以辅助节点预测。通过系统的消融实验和注意力可视化分析,我们验证了模型各组件的有效性。在权威的CROHME 14/16/19数据集上,所提方法取得了当前最优的识别性能,达到了该领域的最新水平。

基准测试

基准方法指标
handwritten-mathmatical-expressionTDv2
ExpRate: 53.62
handwritten-mathmatical-expression-1TDv2
ExpRate: 55.18
handwritten-mathmatical-expression-2TDv2
ExpRate: 58.72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TDv2:一种用于离线数学表达式识别的新型树结构解码器 | 论文 | HyperAI超神经