6 个月前

摘要

近年来，基于深度学习的方法在计算机视觉领域取得了令人瞩目的成果。然而，常见的深度学习模型通常需要大量标注数据，而这些数据的收集与标注过程耗时费力。此外，当训练数据与测试数据之间存在领域偏移（domain shift）时，模型性能往往会显著下降。文本识别作为计算机视觉中的一个广泛研究方向，同样面临上述挑战，其主要原因在于字体多样性和背景复杂性带来的巨大变化。本文聚焦于文本识别问题，针对上述挑战提出了三项主要贡献。首先，我们构建了一个多源域自适应文本识别数据集，涵盖五个不同的数据域，包含超过五百万张图像，据我们所知，这是首个多领域文本识别数据集。其次，我们提出了一种名为“元自学习”（Meta Self-Learning）的新方法，该方法将自学习机制与元学习范式相结合，在多域适应场景下显著提升了文本识别性能。第三，我们在该数据集上开展了大量实验，不仅为该任务建立了基准测试标准，也充分验证了所提方法的有效性。本文的相关代码与数据集将很快在 https://bupt-ai-cz.github.io/Meta-SelfLearning/ 公开发布。

源 PDF