
摘要
本文针对大规模视觉字体识别(Visual Font Recognition, VFR)问题展开研究,该问题旨在无需依赖文本内容信息的情况下,自动识别图像或照片中文字的字体类型、字重及倾斜度。尽管视觉字体识别具有广泛的实际应用价值,但在计算机视觉领域长期未受到足够重视。为解决VFR问题,我们构建了一个大规模数据集,包含2,420个字体类别,其规模显著超过计算机视觉中大多数图像分类数据集。由于字体识别本质上具有动态性和开放性——即随着时间推移,不断有新的字体类别和已有类别的新数据被加入数据库——我们提出了一种可扩展的解决方案,基于最近类别均值分类器(Nearest Class Mean, NCM)。该核心算法融合了局部特征嵌入、局部特征度量学习以及最大间隔模板选择机制,天然适配NCM框架,因而特别适用于此类开放性分类任务。新提出的算法能够在几乎不增加计算成本的情况下,有效泛化至新类别和新数据。大量实验结果表明,该方法在合成测试图像上表现极为出色,在真实世界测试图像上也取得了具有前景的识别效果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| font-recognition-on-vfr-2420 | LFE (FS, template model size 2048) | Top 1 Accuracy: 72.5 Top 10 Accuracy: 96.87 Top 5 Accuracy: 93.45 |
| font-recognition-on-vfr-447 | LFE (FS, template model size 2048) | Top 1 Accuracy: 91.35 Top 10 Accuracy: 99.62 Top 5 Accuracy: 98.80 |
| font-recognition-on-vfr-wild | LFE (FS, template model size 2048) | Top 1 Accuracy: 52.61 Top 10 Accuracy: 62.14 Top 5 Accuracy: 58.4 |