7 个月前

计算机视觉

计算机视觉

Han Hu Chengquan Zhang Yuxuan Luo Yuzhuo Wang Junyu Han Errui Ding

摘要

图像文本通常由多个视觉元素组成，这些元素包括字符、单词、文本行和文本块，形成一个层次结构。在这些元素中，字符是各种语言（如西方语言、中文、日文、数学表达式等）中最基本的组成部分。基于字符检测器构建通用的文本检测引擎既自然又方便。然而，训练字符检测器需要大量的带有位置标注的字符数据，而获取这些数据的成本较高。实际上，现有的真实文本数据集大多是在单词或行级别进行标注的。为了解决这一困境，我们提出了一种弱监督框架，该框架可以利用紧密四边形或较为宽松的边界框形式的单词标注来训练字符检测器。当应用于场景文本检测时，我们可以通过利用大规模真实场景文本数据集（如ICDAR15和COCO-Text）中的单词标注来训练一个鲁棒的字符检测器。在我们的文本检测引擎流程中，字符检测器起着关键作用。它在几个具有挑战性的场景文本检测基准上达到了最先进的性能。我们还通过多种场景展示了我们流程的灵活性，包括变形文本检测和数学表达式识别。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Han Hu Chengquan Zhang Yuxuan Luo Yuzhuo Wang Junyu Han Errui Ding

摘要

图像文本通常由多个视觉元素组成，这些元素包括字符、单词、文本行和文本块，形成一个层次结构。在这些元素中，字符是各种语言（如西方语言、中文、日文、数学表达式等）中最基本的组成部分。基于字符检测器构建通用的文本检测引擎既自然又方便。然而，训练字符检测器需要大量的带有位置标注的字符数据，而获取这些数据的成本较高。实际上，现有的真实文本数据集大多是在单词或行级别进行标注的。为了解决这一困境，我们提出了一种弱监督框架，该框架可以利用紧密四边形或较为宽松的边界框形式的单词标注来训练字符检测器。当应用于场景文本检测时，我们可以通过利用大规模真实场景文本数据集（如ICDAR15和COCO-Text）中的单词标注来训练一个鲁棒的字符检测器。在我们的文本检测引擎流程中，字符检测器起着关键作用。它在几个具有挑战性的场景文本检测基准上达到了最先进的性能。我们还通过多种场景展示了我们流程的灵活性，包括变形文本检测和数学表达式识别。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供