4 个月前

自监督字符到字符蒸馏用于文本识别

自监督字符到字符蒸馏用于文本识别

摘要

在处理复杂的文本图像(例如,不规则结构、低分辨率、严重遮挡和不均匀光照)时,现有的监督文本识别方法对数据的需求量很大。尽管这些方法通过使用大规模合成文本图像来减少对标注真实图像的依赖,但域差距仍然限制了识别性能。因此,通过自监督学习探索未标注真实图像上的鲁棒文本特征表示是一种很好的解决方案。然而,现有的自监督文本识别方法通过对视觉特征进行粗略的水平分割来进行序列到序列的表征学习,这限制了增强方法的灵活性,因为基于几何的大规模增强可能会导致序列到序列特征的一致性问题。为了解决这一问题,我们提出了一种新颖的自监督字符到字符蒸馏方法(Character-to-Character Distillation, CCD),该方法能够实现多样化的增强以促进通用文本表征学习。具体而言,我们设计了一个自监督字符分割模块来描绘未标注真实图像中的字符结构。随后,CCD利用两个增强视图之间的变换矩阵,在保持字符对齐的同时轻松增加局部字符的多样性。实验结果表明,CCD在文本识别、文本分割和文本超分辨率方面均取得了最先进的成果,平均性能提升分别为1.38%、1.7%、0.24 dB(PSNR)和0.0321(SSIM)。代码已发布在 https://github.com/TongkunGuan/CCD。

代码仓库

tongkunguan/ccd
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-cute80CCD-ViT-Base(ARD_2.8M)
Accuracy: 98.3
scene-text-recognition-on-cute80CCD-ViT-Small(ARD_2.8M)
Accuracy: 98.3
scene-text-recognition-on-cute80CCD-ViT-Tiny(ARD_2.8M)
Accuracy: 95.8
scene-text-recognition-on-hostCCD-ViT-Base
1:1 Accuracy: 77.3
scene-text-recognition-on-icdar2013CCD-ViT-Tiny(ARD_2.8M)
Accuracy: 97.5
scene-text-recognition-on-icdar2013CCD-ViT-Base(ARD_2.8M)
Accuracy: 98.3
scene-text-recognition-on-icdar2013CCD-ViT-Small(ARD_2.8M)
Accuracy: 98.3
scene-text-recognition-on-iiit5kCCD-ViT-Small(ARD_2.8M)
Accuracy: 98.0
scene-text-recognition-on-iiit5kCCD-ViT-Tiny(ARD_2.8M)
Accuracy: 97.1
scene-text-recognition-on-iiit5kCCD-ViT-Base(ARD_2.8M)
Accuracy: 98.0
scene-text-recognition-on-svtCCD-ViT-Base(ARD_2.8M)
Accuracy: 97.8
scene-text-recognition-on-svtCCD-ViT-Small(ARD_2.8M)
Accuracy: 96.4
scene-text-recognition-on-svtCCD-ViT-Tiny(ARD_2.8M)
Accuracy: 96.0
scene-text-recognition-on-svtpCCD-ViT-Base
Accuracy: 96.1
scene-text-recognition-on-svtpCCD-ViT-Small
Accuracy: 92.7
scene-text-recognition-on-svtpCCD-ViT-Tiny
Accuracy: 91.6
scene-text-recognition-on-wostCCD-ViT-Base
1:1 Accuracy: 86.0
self-supervised-scene-text-recognition-onCCD-ViT-Small
Average PSNR (dB): 21.84
SSIM: 0.7843
self-supervised-scene-text-recognition-on-1CCD-ViT-Small
IoU (%): 84.8
self-supervised-scene-text-recognition-on-2CCD-ViT-Small
Average Accuracy: 84.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督字符到字符蒸馏用于文本识别 | 论文 | HyperAI超神经