8 个月前

自然语言处理

自然语言处理

计算机视觉

Zhang Chong ; Guo Ya ; Tu Yi ; Chen Huan ; Tang Jinyang ; Zhu Huijia ; Zhang Qi ; Gui Tao

摘要

近期在多模态预训练模型方面的进展显著提升了从视觉丰富文档（VrDs）中提取信息的能力，其中命名实体识别（NER）被视作一个序列标注任务，即预测每个标记的BIO实体标签，遵循典型的自然语言处理（NLP）设置。然而，BIO标注方案依赖于模型输入的正确顺序，而在现实世界中的扫描VrDs上进行NER时，这一顺序无法保证，因为文本是由OCR系统识别并排列的。这种阅读顺序问题阻碍了BIO标注方案对实体的准确标记，使得序列标注方法无法正确预测命名实体。为了解决阅读顺序问题，我们引入了Token Path Prediction（TPP），这是一种简单的预测头，用于预测文档中作为标记序列出现的实体提及。与传统的标记分类不同，TPP将文档布局建模为一个完整的有向图，并在图中预测标记路径作为实体。为了更好地评估VrD-NER系统，我们还提出了两个修订后的基准数据集，这些数据集可以反映现实场景中的扫描文档NER任务。实验结果证明了我们方法的有效性，并表明其在各种文档信息提取任务中具有成为通用解决方案的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

计算机视觉

Zhang Chong ; Guo Ya ; Tu Yi ; Chen Huan ; Tang Jinyang ; Zhu Huijia ; Zhang Qi ; Gui Tao

摘要

近期在多模态预训练模型方面的进展显著提升了从视觉丰富文档（VrDs）中提取信息的能力，其中命名实体识别（NER）被视作一个序列标注任务，即预测每个标记的BIO实体标签，遵循典型的自然语言处理（NLP）设置。然而，BIO标注方案依赖于模型输入的正确顺序，而在现实世界中的扫描VrDs上进行NER时，这一顺序无法保证，因为文本是由OCR系统识别并排列的。这种阅读顺序问题阻碍了BIO标注方案对实体的准确标记，使得序列标注方法无法正确预测命名实体。为了解决阅读顺序问题，我们引入了Token Path Prediction（TPP），这是一种简单的预测头，用于预测文档中作为标记序列出现的实体提及。与传统的标记分类不同，TPP将文档布局建模为一个完整的有向图，并在图中预测标记路径作为实体。为了更好地评估VrD-NER系统，我们还提出了两个修订后的基准数据集，这些数据集可以反映现实场景中的扫描文档NER任务。实验结果证明了我们方法的有效性，并表明其在各种文档信息提取任务中具有成为通用解决方案的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供