3 个月前

Star-net:一种用于场景文本识别的空域注意力残差网络。

Star-net:一种用于场景文本识别的空域注意力残差网络。

摘要

本文提出了一种新型的时空注意力残差网络(Spatial Attention Residue Network, STAR-Net),用于场景文本识别。STAR-Net 配备了空间注意力机制,该机制利用空间变换器(spatial transformer)消除自然图像中文本的形变扭曲,使后续的特征提取器能够专注于校正后的文本区域,而不受形变干扰。此外,STAR-Net 采用残差卷积块构建了极深的特征提取网络,这对于细粒度的文本识别任务中有效提取具有判别性的文本特征至关重要。通过将空间注意力机制与残差卷积块相结合,STAR-Net 成为目前用于场景文本识别任务中深度最深且端到端可训练的神经网络。我们在五个公开的基准数据集上进行了实验,结果表明:对于形变较小的场景文本,STAR-Net 的性能可与当前最优方法相媲美;而对于存在显著形变的场景文本,其性能则显著优于现有方法。

基准测试

基准方法指标
scene-text-recognition-on-icdar-2003STAR-Net
Accuracy: 89.9
scene-text-recognition-on-icdar2013STAR-Net
Accuracy: 89.1
scene-text-recognition-on-svtSTAR-Net
Accuracy: 83.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Star-net:一种用于场景文本识别的空域注意力残差网络。 | 论文 | HyperAI超神经