3 个月前

基于深度神经网络的网页信息抽取

基于深度神经网络的网页信息抽取

摘要

网页抽取器(web wrappers)是用于从网页中提取结构化信息的系统。目前,这些抽取器在开始信息提取前,必须针对特定的网站模板进行适配。本文提出了一种新方法,利用卷积神经网络(convolutional neural networks)学习一个能够从此前未见过的网页模板中提取信息的抽取器。因此,该抽取器无需任何针对特定网站的初始化,即可直接从单个网页中完成信息提取。此外,我们还提出了一种空间文本编码方法,能够将网页的视觉与文本内容统一编码为一个神经网络表示。初步的产品信息抽取实验取得了非常令人鼓舞的结果,表明该方法有望实现通用、与网站无关的网页抽取器。

基准测试

基准方法指标
webpage-object-detection-on-covaTextMaps
Cross Domain Image Accuracy: 93.2
Cross Domain Price Accuracy: 78.1
Cross Domain Title Accuracy: 91.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度神经网络的网页信息抽取 | 论文 | HyperAI超神经