3 个月前

DocUNet:基于堆叠U-Net的文档图像去畸变

DocUNet:基于堆叠U-Net的文档图像去畸变

摘要

由于移动摄像头的广泛普及,拍摄文档图像已成为数字化和记录纸质文档的常用方式。为了便于文本识别,当纸质文档发生折叠或弯曲时,通常需要将其数字平铺(即校正为平面图像)。本文提出了一种基于学习的首个方法,以实现这一目标。我们设计了一种带有中间监督的级联U-Net结构,直接预测从畸变图像到其校正版本的前向映射关系。由于难以获取大规模真实世界中带有真实变形标签的数据,我们通过扭曲无畸变的文档图像,构建了一个包含约十万张图像的合成数据集。该网络在该数据集上结合多种数据增强策略进行训练,以提升其泛化能力。此外,我们还建立了一个涵盖多种真实场景条件的综合性基准测试集。我们在该基准上对所提模型进行了定量与定性评估,并与以往的非学习型方法进行了对比,验证了其优越性能。

基准测试

基准方法指标
ms-ssim-on-docunetDocUNet
MS-SSIM: 0.41

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供