7 个月前

卷积神经网络

计算机视觉

Pengfei Wang Zuming Huang Jingtuo Liu Chengquan Zhang Mengyi En Errui Ding Fei Qi Junyu Han Guangming Shi

摘要

近年来，检测任意形状的场景文本一直是一项具有挑战性的任务。本文提出了一种基于分割的新型文本检测器，即SAST（Scene Arbitrary Shape Text Detector），该检测器采用基于全卷积网络（Fully Convolutional Network, FCN）的上下文注意力多任务学习框架，以学习各种几何属性，从而重建文本区域的多边形表示。考虑到文本的顺序特性，引入了上下文注意力模块（Context Attention Block），用于捕捉像素信息的长距离依赖关系，以获得更可靠的分割结果。在后处理阶段，提出了一种点到四边形分配方法（Point-to-Quad assignment method），通过一次性整合高层次的对象知识和低层次的像素信息，将像素聚类为文本实例。此外，利用所提出的几何属性可以更有效地提取任意形状文本的多边形表示。在包括ICDAR2015、ICDAR2017-MLT、SCUT-CTW1500和Total-Text在内的多个基准数据集上的实验表明，SAST在精度方面达到了更好的或相当的性能。此外，所提出的算法在单个NVIDIA Titan Xp显卡上运行时，在SCUT-CTW1500数据集上可达到每秒27.63帧（FPS），H均值为81.0%，超过了大多数现有的基于分割的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Pengfei Wang Zuming Huang Jingtuo Liu Chengquan Zhang Mengyi En Errui Ding Fei Qi Junyu Han Guangming Shi

摘要

近年来，检测任意形状的场景文本一直是一项具有挑战性的任务。本文提出了一种基于分割的新型文本检测器，即SAST（Scene Arbitrary Shape Text Detector），该检测器采用基于全卷积网络（Fully Convolutional Network, FCN）的上下文注意力多任务学习框架，以学习各种几何属性，从而重建文本区域的多边形表示。考虑到文本的顺序特性，引入了上下文注意力模块（Context Attention Block），用于捕捉像素信息的长距离依赖关系，以获得更可靠的分割结果。在后处理阶段，提出了一种点到四边形分配方法（Point-to-Quad assignment method），通过一次性整合高层次的对象知识和低层次的像素信息，将像素聚类为文本实例。此外，利用所提出的几何属性可以更有效地提取任意形状文本的多边形表示。在包括ICDAR2015、ICDAR2017-MLT、SCUT-CTW1500和Total-Text在内的多个基准数据集上的实验表明，SAST在精度方面达到了更好的或相当的性能。此外，所提出的算法在单个NVIDIA Titan Xp显卡上运行时，在SCUT-CTW1500数据集上可达到每秒27.63帧（FPS），H均值为81.0%，超过了大多数现有的基于分割的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供