4 个月前

构建视觉-语言模型时需要考虑哪些因素?

构建视觉-语言模型时需要考虑哪些因素?

摘要

视觉-语言模型(VLMs)的兴趣日益增长,这主要得益于大型语言模型和视觉变换器的改进。尽管关于这一主题的研究文献丰富,但我们观察到,有关VLM设计的关键决策往往缺乏充分的理由支持。我们认为,这些未经验证的决策阻碍了该领域的进展,因为它们使得识别哪些选择能够提升模型性能变得困难。为了解决这一问题,我们围绕预训练模型、架构选择、数据和训练方法进行了广泛的实验。我们的研究成果包括开发了一种高效的80亿参数的基础视觉-语言模型——Idefics2。Idefics2在其规模类别中,在多个多模态基准测试中达到了最先进的性能,并且其表现经常与参数量为其四倍的模型相当。我们发布了该模型(基础版、指令版和聊天版)以及为其训练创建的数据集。

基准测试

基准方法指标
long-context-understanding-on-mmneedleIDEFICS2-8B
1 Image, 2*2 Stitching, Exact Accuracy: 18.9
1 Image, 4*4 Stitching, Exact Accuracy: 7.8
1 Image, 8*8 Stitching, Exact Accuracy: 0.9
10 Images, 1*1 Stitching, Exact Accuracy: 0
10 Images, 2*2 Stitching, Exact Accuracy: 0
10 Images, 4*4 Stitching, Exact Accuracy: 0
10 Images, 8*8 Stitching, Exact Accuracy: 0
mmr-total-on-mrr-benchmarkIdefics-2-8B
Total Column Score: 256

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
构建视觉-语言模型时需要考虑哪些因素? | 论文 | HyperAI超神经