
摘要
在处理复杂的文本图像(例如,不规则结构、低分辨率、严重遮挡和不均匀光照)时,现有的监督文本识别方法对数据的需求量很大。尽管这些方法通过使用大规模合成文本图像来减少对标注真实图像的依赖,但域差距仍然限制了识别性能。因此,通过自监督学习探索未标注真实图像上的鲁棒文本特征表示是一种很好的解决方案。然而,现有的自监督文本识别方法通过对视觉特征进行粗略的水平分割来进行序列到序列的表征学习,这限制了增强方法的灵活性,因为基于几何的大规模增强可能会导致序列到序列特征的一致性问题。为了解决这一问题,我们提出了一种新颖的自监督字符到字符蒸馏方法(Character-to-Character Distillation, CCD),该方法能够实现多样化的增强以促进通用文本表征学习。具体而言,我们设计了一个自监督字符分割模块来描绘未标注真实图像中的字符结构。随后,CCD利用两个增强视图之间的变换矩阵,在保持字符对齐的同时轻松增加局部字符的多样性。实验结果表明,CCD在文本识别、文本分割和文本超分辨率方面均取得了最先进的成果,平均性能提升分别为1.38%、1.7%、0.24 dB(PSNR)和0.0321(SSIM)。代码已发布在 https://github.com/TongkunGuan/CCD。
代码仓库
tongkunguan/ccd
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-cute80 | CCD-ViT-Base(ARD_2.8M) | Accuracy: 98.3 |
| scene-text-recognition-on-cute80 | CCD-ViT-Small(ARD_2.8M) | Accuracy: 98.3 |
| scene-text-recognition-on-cute80 | CCD-ViT-Tiny(ARD_2.8M) | Accuracy: 95.8 |
| scene-text-recognition-on-host | CCD-ViT-Base | 1:1 Accuracy: 77.3 |
| scene-text-recognition-on-icdar2013 | CCD-ViT-Tiny(ARD_2.8M) | Accuracy: 97.5 |
| scene-text-recognition-on-icdar2013 | CCD-ViT-Base(ARD_2.8M) | Accuracy: 98.3 |
| scene-text-recognition-on-icdar2013 | CCD-ViT-Small(ARD_2.8M) | Accuracy: 98.3 |
| scene-text-recognition-on-iiit5k | CCD-ViT-Small(ARD_2.8M) | Accuracy: 98.0 |
| scene-text-recognition-on-iiit5k | CCD-ViT-Tiny(ARD_2.8M) | Accuracy: 97.1 |
| scene-text-recognition-on-iiit5k | CCD-ViT-Base(ARD_2.8M) | Accuracy: 98.0 |
| scene-text-recognition-on-svt | CCD-ViT-Base(ARD_2.8M) | Accuracy: 97.8 |
| scene-text-recognition-on-svt | CCD-ViT-Small(ARD_2.8M) | Accuracy: 96.4 |
| scene-text-recognition-on-svt | CCD-ViT-Tiny(ARD_2.8M) | Accuracy: 96.0 |
| scene-text-recognition-on-svtp | CCD-ViT-Base | Accuracy: 96.1 |
| scene-text-recognition-on-svtp | CCD-ViT-Small | Accuracy: 92.7 |
| scene-text-recognition-on-svtp | CCD-ViT-Tiny | Accuracy: 91.6 |
| scene-text-recognition-on-wost | CCD-ViT-Base | 1:1 Accuracy: 86.0 |
| self-supervised-scene-text-recognition-on | CCD-ViT-Small | Average PSNR (dB): 21.84 SSIM: 0.7843 |
| self-supervised-scene-text-recognition-on-1 | CCD-ViT-Small | IoU (%): 84.8 |
| self-supervised-scene-text-recognition-on-2 | CCD-ViT-Small | Average Accuracy: 84.9 |