4 个月前

AON:面向任意方向的文本识别

AON:面向任意方向的文本识别

摘要

从自然图像中识别文本是计算机视觉领域的一个热门研究课题,因其广泛的应用而备受关注。尽管光学字符识别(OCR)已经经历了数十年的研究,但从自然图像中识别文本仍然是一个具有挑战性的任务。这是因为场景中的文本通常以不规则的方式排列(例如弯曲、任意方向或严重扭曲),而这些问题在现有文献中尚未得到充分解决。现有的文本识别方法主要适用于规则(水平和正面)文本,无法简单地推广到处理不规则文本。本文提出了一种任意方向网络(Arbitrary Orientation Network, AON),直接提取不规则文本的深层特征,并将其与基于注意力机制的解码器结合,生成字符序列。整个网络仅使用图像和单词级别的注释即可进行端到端训练。在包括CUTE80、SVT-Perspective、IIIT5k、SVT和ICDAR数据集在内的多个基准测试上的大量实验表明,所提出的基于AON的方法在不规则数据集上达到了最先进的性能,在规则数据集上的表现也与现有的主要方法相当。

代码仓库

基准测试

基准方法指标
scene-text-recognition-on-icdar-2003AON
Accuracy: 91.5
scene-text-recognition-on-icdar2015AON
Accuracy: 73.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AON:面向任意方向的文本识别 | 论文 | HyperAI超神经