3 个月前

VLCDoC:用于跨模态文档分类的视觉-语言对比预训练模型

VLCDoC:用于跨模态文档分类的视觉-语言对比预训练模型

摘要

近年来,从文档数据中进行多模态学习取得了显著进展,因其能够将语义上富有意义的特征作为先验知识预训练至可学习的下游任务中。本文通过融合语言与视觉线索,学习跨模态表示,同时考虑模态内部与模态之间的关系,以解决文档分类问题。与将不同模态特征合并至统一表示空间的传统方法不同,本文提出的方法侧重于高层级的模态间与模态内交互,通过有效注意力流挖掘相关语义信息。所提出的学习目标结合了模态内与模态间的对齐任务,其中每项任务的相似性分布通过在联合表示空间中压缩正样本对的同时对比负样本对来计算。在多个公开文档分类数据集上的大量实验表明,该模型在小规模与大规模数据集上均展现出优异的性能与良好的泛化能力。

基准测试

基准方法指标
document-image-classification-on-rvl-cdipVLCDoC
Accuracy: 93.19%
Parameters: 217M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VLCDoC:用于跨模态文档分类的视觉-语言对比预训练模型 | 论文 | HyperAI超神经