摘要

我们推出了 OpenFlamingo，这是一个参数规模从 30 亿到 90 亿的自回归视觉-语言模型系列。OpenFlamingo 是一项持续进行的开源项目，旨在复现 DeepMind 的 Flamingo 模型。在七个视觉-语言基准数据集上，OpenFlamingo 模型的平均性能达到对应 Flamingo 模型的 80% 至 89%。本技术报告详细介绍了我们的模型架构、训练数据、超参数设置以及评估体系。相关模型与代码已开源，可访问 https://github.com/mlfoundations/open_flamingo 获取。

源 PDF