
摘要
手写识别对于一些使用最广泛的语言(如孟加拉语)仍然具有挑战性,这主要是由于书写曲线性质带来的线条和单词分割复杂性以及缺乏高质量的数据集。本文通过引入一种最先进的方法(BN-DRISHTI),解决了分割问题。该方法结合了基于深度学习的目标检测框架(YOLO)与霍夫变换和仿射变换进行倾斜校正。然而,训练深度学习模型需要大量的数据。因此,我们还介绍了一个扩展版本的BN-HTRd数据集,该数据集包含786幅完整的孟加拉语手写文档图像、用于分割的行级和词级注释以及相应的词识别基准真值。在我们数据集的测试部分上进行评估的结果显示,行分割的F分数为99.97%,词分割的F分数为98%。为了进行对比分析,我们使用了三个外部孟加拉语手写数据集,即BanglaWriting、WBSUBNdb_text和ICDAR 2013,在这些数据集中我们的系统显著优于其他方法,进一步证明了我们的方法在完全未见过的样本上的性能优势。
代码仓库
crusnic-corp/BN-DRISHTI
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| handwritten-line-segmentation-on-bn-htrd | BN-DRISHTI Line Segmentation | F-Score: 0.9997 |
| handwritten-word-segmentation-on | BN-DRISHTI Word Segmentation | F-Score: 0.97 |
| handwritten-word-segmentation-on-bn-htrd | BN-DRISHTI Word Segmentation | F-Score: 0.98 |