8 个月前

多任务学习

计算机视觉

Tongkun Guan extsuperscript1 Wei Shen extsuperscript1 extsuperscript* Xue Yang extsuperscript1 Qi Feng extsuperscript2 Zekun Jiang extsuperscript1 Xiaokang Yang extsuperscript1

摘要

在处理复杂的文本图像（例如，不规则结构、低分辨率、严重遮挡和不均匀光照）时，现有的监督文本识别方法对数据的需求量很大。尽管这些方法通过使用大规模合成文本图像来减少对标注真实图像的依赖，但域差距仍然限制了识别性能。因此，通过自监督学习探索未标注真实图像上的鲁棒文本特征表示是一种很好的解决方案。然而，现有的自监督文本识别方法通过对视觉特征进行粗略的水平分割来进行序列到序列的表征学习，这限制了增强方法的灵活性，因为基于几何的大规模增强可能会导致序列到序列特征的一致性问题。为了解决这一问题，我们提出了一种新颖的自监督字符到字符蒸馏方法（Character-to-Character Distillation, CCD），该方法能够实现多样化的增强以促进通用文本表征学习。具体而言，我们设计了一个自监督字符分割模块来描绘未标注真实图像中的字符结构。随后，CCD利用两个增强视图之间的变换矩阵，在保持字符对齐的同时轻松增加局部字符的多样性。实验结果表明，CCD在文本识别、文本分割和文本超分辨率方面均取得了最先进的成果，平均性能提升分别为1.38%、1.7%、0.24 dB（PSNR）和0.0321（SSIM）。代码已发布在 https://github.com/TongkunGuan/CCD。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

Tongkun Guan extsuperscript1 Wei Shen extsuperscript1 extsuperscript* Xue Yang extsuperscript1 Qi Feng extsuperscript2 Zekun Jiang extsuperscript1 Xiaokang Yang extsuperscript1

摘要

在处理复杂的文本图像（例如，不规则结构、低分辨率、严重遮挡和不均匀光照）时，现有的监督文本识别方法对数据的需求量很大。尽管这些方法通过使用大规模合成文本图像来减少对标注真实图像的依赖，但域差距仍然限制了识别性能。因此，通过自监督学习探索未标注真实图像上的鲁棒文本特征表示是一种很好的解决方案。然而，现有的自监督文本识别方法通过对视觉特征进行粗略的水平分割来进行序列到序列的表征学习，这限制了增强方法的灵活性，因为基于几何的大规模增强可能会导致序列到序列特征的一致性问题。为了解决这一问题，我们提出了一种新颖的自监督字符到字符蒸馏方法（Character-to-Character Distillation, CCD），该方法能够实现多样化的增强以促进通用文本表征学习。具体而言，我们设计了一个自监督字符分割模块来描绘未标注真实图像中的字符结构。随后，CCD利用两个增强视图之间的变换矩阵，在保持字符对齐的同时轻松增加局部字符的多样性。实验结果表明，CCD在文本识别、文本分割和文本超分辨率方面均取得了最先进的成果，平均性能提升分别为1.38%、1.7%、0.24 dB（PSNR）和0.0321（SSIM）。代码已发布在 https://github.com/TongkunGuan/CCD。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供