
摘要
本文探讨了在存在多个不完美或含噪声转录文本的情况下,训练手写文本识别模型的多种方法。我们考察了多种训练配置,包括选择单一转录文本、保留所有转录文本,以及基于所有可用标注计算一个聚合转录文本。此外,我们还评估了基于质量的数据筛选策略的影响,即从训练集中移除标注者之间一致性较低的样本。实验基于法国贝尔福市(Belfort)1790年至1946年间的城市登记档案进行。实验结果表明,采用共识转录文本或在多个转录文本上联合训练是有效的替代方案。然而,基于标注者之间一致程度来选择训练样本,会在训练数据中引入偏差,且未能提升模型性能。本研究使用的数据集已公开发布于Zenodo平台:https://zenodo.org/record/8041668。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| handwritten-text-recognition-on-belfort | PyLaia (human transcriptions + random split) | CER (%): 10.54 WER (%): 28.11 |
| handwritten-text-recognition-on-belfort | PyLaia (all transcriptions + agreement-based split) | CER (%): 4.34 WER (%): 15.14 |
| handwritten-text-recognition-on-belfort | PyLaia (human transcriptions + agreement-based split) | CER (%): 5.57 WER (%): 19.12 |
| handwritten-text-recognition-on-belfort | PyLaia (rover consensus + agreement-based split) | CER (%): 4.95 WER (%): 17.08 |