4 个月前

OBELICS:一个开放的网络规模过滤数据集,包含交错的图像-文本文档

OBELICS:一个开放的网络规模过滤数据集,包含交错的图像-文本文档

摘要

大型多模态模型在自然文档上训练时,其性能优于仅在图像-文本对上训练的模型,这些自然文档中图像和文本交替出现。然而,用于训练这些模型的数据集尚未发布,且收集过程也未完全明确。我们介绍了OBELICS数据集,这是一个开放的、网络规模的过滤数据集,包含从Common Crawl提取的1.41亿个网页、3.53亿张相关图像和1150亿个文本标记。我们详细描述了数据集的创建过程,提出了全面的过滤规则,并对数据集的内容进行了分析。为了验证OBELICS的有效性,我们训练了两个参数量分别为90亿和800亿的视觉与语言模型,命名为IDEFICS,并在不同的多模态基准测试中取得了具有竞争力的性能。我们发布了该数据集、模型和代码。

基准测试

基准方法指标
mmr-total-on-mrr-benchmarkIdefics-80B
Total Column Score: 139

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OBELICS:一个开放的网络规模过滤数据集,包含交错的图像-文本文档 | 论文 | HyperAI超神经