6 个月前

卷积神经网络

计算机视觉

Minghui Liao Zhaoyi Wan Cong Yao Kai Chen Xiang Bai

摘要

近年来，基于分割的文本检测方法在场景文本检测领域受到广泛关注，因为分割结果能够更准确地描述各种形状的文本，例如弯曲文本。然而，基于分割的检测方法通常依赖于二值化后处理步骤，该步骤将分割网络生成的概率图转换为文本的边界框或区域。本文提出一种名为可微分二值化（Differentiable Binarization, DB）的模块，可将二值化过程直接嵌入到分割网络中。通过与DB模块联合优化，分割网络能够自适应地设定二值化阈值，不仅简化了后处理流程，还显著提升了文本检测的性能。基于一个简单的分割网络架构，我们在五个基准数据集上验证了DB模块的有效性，结果表明其在检测精度与速度方面均持续达到当前最优水平。尤其值得注意的是，在采用轻量级主干网络的情况下，DB带来的性能提升尤为显著，从而有助于在检测精度与计算效率之间实现理想的权衡。具体而言，在MSRA-TD500数据集上，使用ResNet-18作为主干网络的检测器取得了82.8的F-measure，推理速度达到62 FPS。代码已开源，地址为：https://github.com/MhLiao/DB

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Minghui Liao Zhaoyi Wan Cong Yao Kai Chen Xiang Bai

摘要

近年来，基于分割的文本检测方法在场景文本检测领域受到广泛关注，因为分割结果能够更准确地描述各种形状的文本，例如弯曲文本。然而，基于分割的检测方法通常依赖于二值化后处理步骤，该步骤将分割网络生成的概率图转换为文本的边界框或区域。本文提出一种名为可微分二值化（Differentiable Binarization, DB）的模块，可将二值化过程直接嵌入到分割网络中。通过与DB模块联合优化，分割网络能够自适应地设定二值化阈值，不仅简化了后处理流程，还显著提升了文本检测的性能。基于一个简单的分割网络架构，我们在五个基准数据集上验证了DB模块的有效性，结果表明其在检测精度与速度方面均持续达到当前最优水平。尤其值得注意的是，在采用轻量级主干网络的情况下，DB带来的性能提升尤为显著，从而有助于在检测精度与计算效率之间实现理想的权衡。具体而言，在MSRA-TD500数据集上，使用ResNet-18作为主干网络的检测器取得了82.8的F-measure，推理速度达到62 FPS。代码已开源，地址为：https://github.com/MhLiao/DB

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供