4 个月前

基于注意力机制的街景图像结构化信息提取

基于注意力机制的街景图像结构化信息提取

摘要

我们提出了一种基于卷积神经网络(CNNs)、循环神经网络(RNNs)和一种新颖注意力机制的神经网络模型,该模型在具有挑战性的法国街道名称标志(FSNS)数据集上达到了84.2%的准确率,显著超过了之前最先进的方法(Smith'16),后者仅达到72.46%的准确率。此外,我们的新方法比之前的方案更为简单且更具通用性。为了证明我们模型的通用性,我们展示了它在从谷歌街景中提取商店门面的商业名称这一更具挑战性的数据集上也表现出色。最后,我们研究了使用不同深度的CNN特征提取器所带来的速度与准确率之间的权衡。令人惊讶的是,我们发现更深的网络并不总是更好(无论是在准确率还是速度方面)。最终得到的模型不仅简单、准确而且快速,使其能够在各种具有挑战性的现实世界文本提取问题中大规模应用。

基准测试

基准方法指标
optical-character-recognition-on-fsns-testAttentionOCR_Inception-resnet-v2_Location
Sequence error: 15.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于注意力机制的街景图像结构化信息提取 | 论文 | HyperAI超神经