3 个月前

SRFormer:融合分割与回归的文本检测Transformer

SRFormer:融合分割与回归的文本检测Transformer

摘要

现有的文本检测技术可大致分为两大类:基于分割的方法与基于回归的方法。基于分割的模型在应对字体变化方面具有更强的鲁棒性,但通常需要复杂的后处理步骤,导致计算开销较高;而基于回归的方法虽能实现实例级的直接预测,但由于依赖高层语义表示,其在鲁棒性与数据效率方面存在局限。在本研究中,我们提出SRFormer——一种基于DETR架构的统一模型,融合了分割与回归的优势,旨在协同利用分割表示固有的鲁棒性,以及实例级回归所带来的简洁后处理特性。我们的实验分析表明,初始解码层即可获得性能良好的分割预测结果。基于此观察,我们仅在前几层解码器中引入分割分支,并在后续层中采用渐进式的回归精修机制,从而在显著降低掩码相关计算负担的同时,实现性能的提升。此外,我们提出一种基于掩码的查询增强模块(Mask-informed Query Enhancement)。该模块将分割结果作为自然的软区域感兴趣区域(soft-ROI),用于池化并提取具有鲁棒性的像素特征,进而用于增强和丰富实例查询。在多个主流基准上的大量实验验证表明,所提方法展现出卓越的鲁棒性、优异的训练效率与数据利用效率,并达到了当前最先进的检测性能。相关代码已开源,地址为:https://github.com/retsuh-bqw/SRFormer-Text-Det。

代码仓库

opendrivelab/elm
pytorch
GitHub 中提及
retsuh-bqw/SRFormer-Text-Det
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-ic19-artSRFormer (ResNet-50)
H-Mean: 79.3
scene-text-detection-on-scut-ctw1500SRFormer (ResNet-50)
F-Measure: 89.6
Precision: 91.6
Recall: 87.7
scene-text-detection-on-total-textSRFormer (ResNet-50)
F-Measure: 90.0%
Precision: 92.2%
Recall: 87.9%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SRFormer:融合分割与回归的文本检测Transformer | 论文 | HyperAI超神经