3 个月前

DPText-DETR:基于Transformer中动态点的更优场景文本检测

DPText-DETR:基于Transformer中动态点的更优场景文本检测

摘要

近年来,基于Transformer的方法在场景文本检测中广受关注,这类方法通过预测多边形顶点或贝塞尔曲线控制点来实现文本定位。然而,这些基于检测Transformer框架的方法由于采用粗粒度的位置查询建模,可能导致训练效率和性能均不理想。此外,以往研究中采用的点标注形式隐含了人类的阅读顺序,根据我们的观察,这种形式会削弱检测的鲁棒性。为应对上述挑战,本文提出一种简洁高效的动态点文本检测Transformer网络,命名为DPText-DETR。具体而言,DPText-DETR直接利用显式的点坐标生成位置查询,并以渐进式方式动态更新这些查询。为进一步增强Transformer中非局部自注意力机制的空间归纳偏置,我们设计了一种增强型分解自注意力模块(Enhanced Factorized Self-Attention),为每个实例内的点查询提供环形结构引导。此外,我们提出一种简单而有效的新型位置标注形式,以缓解原有标注方式带来的副作用。为进一步评估不同标注形式在真实场景下对检测鲁棒性的影响,我们构建了一个名为Inverse-Text的测试集,包含500张人工标注的图像。大量实验结果表明,所提方法在主流基准数据集上具备高效的训练效率、优异的鲁棒性以及领先的检测性能。代码及Inverse-Text测试集已开源,地址为:https://github.com/ymy-k/DPText-DETR。

代码仓库

ymy-k/dptext-detr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-ic19-artDPText-DETR (ResNet-50)
H-Mean: 78.1
scene-text-detection-on-scut-ctw1500DPText-DETR (ResNet50)
F-Measure: 88.8
Precision: 91.7
Recall: 86.2
scene-text-detection-on-total-textDPText-DETR (ResNet-50)
F-Measure: 89.0%
FPS: 17
Precision: 91.8%
Recall: 86.4%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供