6 个月前

摘要

上下文感知的文本识别（STR）方法通常采用内部自回归（AR）语言模型（LM）。然而，AR模型固有的局限性促使研究者提出两阶段方法，该方法引入外部语言模型以提升性能。然而，外部语言模型与输入图像之间的条件独立性可能导致其错误修正本已正确的预测，从而造成显著的效率损失。为此，本文提出PARSeq方法，该方法通过排列语言建模（Permutation Language Modeling）学习一组共享权重的内部自回归语言模型，构建模型集成。PARSeq统一了无上下文的非自回归（non-AR）推理与上下文感知的自回归推理，并支持利用双向上下文进行迭代优化。在合成数据上训练时，PARSeq在标准STR基准测试中取得了当前最优（SOTA）性能（准确率达91.9%），并在更具挑战性的数据集上表现优异；当在真实数据上训练时，进一步刷新了SOTA记录（准确率达96.0%）。得益于其简洁统一的架构和并行化的词元处理机制，PARSeq在准确率与参数量、浮点运算量（FLOPS）及推理延迟之间的权衡上表现最优。由于其广泛使用注意力机制，该方法对现实图像中常见的任意方向文本具有良好的鲁棒性。相关代码、预训练权重及数据集均已开源，地址为：https://github.com/baudm/parseq。

源 PDF