7 个月前

多任务学习

计算机视觉

Xuebo Liu Ding Liang Shi Yan Dagui Chen Yu Qiao Junjie Yan

摘要

偶然场景文本检测被认为是文档分析领域中最困难且最有价值的挑战之一。现有的大多数方法将文本检测和识别视为两个独立的任务。在本研究中，我们提出了一种统一的端到端可训练的快速定向文本检测（Fast Oriented Text Spotting, FOTS）网络，用于同时进行检测和识别，该网络在这两个互补任务之间共享计算和视觉信息。特别地，引入了RoIRotate以在检测和识别之间共享卷积特征。得益于卷积共享策略，我们的FOTS相比基线文本检测网络几乎没有额外的计算开销，而联合训练方法则学习到了更为通用的特征，使得我们的方法在这类两阶段方法中表现更优。在ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013数据集上的实验表明，所提出的方法显著优于现有最先进方法，并进一步使我们能够开发出首个实时定向文本检测系统，在ICDAR 2015文本检测任务上比所有先前的最先进结果高出超过5%，同时保持了22.6帧每秒的速度。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多任务学习

计算机视觉

Xuebo Liu Ding Liang Shi Yan Dagui Chen Yu Qiao Junjie Yan

摘要

偶然场景文本检测被认为是文档分析领域中最困难且最有价值的挑战之一。现有的大多数方法将文本检测和识别视为两个独立的任务。在本研究中，我们提出了一种统一的端到端可训练的快速定向文本检测（Fast Oriented Text Spotting, FOTS）网络，用于同时进行检测和识别，该网络在这两个互补任务之间共享计算和视觉信息。特别地，引入了RoIRotate以在检测和识别之间共享卷积特征。得益于卷积共享策略，我们的FOTS相比基线文本检测网络几乎没有额外的计算开销，而联合训练方法则学习到了更为通用的特征，使得我们的方法在这类两阶段方法中表现更优。在ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013数据集上的实验表明，所提出的方法显著优于现有最先进方法，并进一步使我们能够开发出首个实时定向文本检测系统，在ICDAR 2015文本检测任务上比所有先前的最先进结果高出超过5%，同时保持了22.6帧每秒的速度。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供