Anas AwadallaIrena GaoJosh GardnerJack HesselYusuf HanafyWanrong ZhuKalyani MaratheYonatan BittonSamir GadreShiori SagawaJenia JitsevSimon KornblithPang Wei KohGabriel IlharcoMitchell WortsmanLudwig Schmidt

摘要
我们推出了 OpenFlamingo,这是一个参数规模从 30 亿到 90 亿的自回归视觉-语言模型系列。OpenFlamingo 是一项持续进行的开源项目,旨在复现 DeepMind 的 Flamingo 模型。在七个视觉-语言基准数据集上,OpenFlamingo 模型的平均性能达到对应 Flamingo 模型的 80% 至 89%。本技术报告详细介绍了我们的模型架构、训练数据、超参数设置以及评估体系。相关模型与代码已开源,可访问 https://github.com/mlfoundations/open_flamingo 获取。
代码仓库
luodian/otter
pytorch
GitHub 中提及
mlfoundations/open_flamingo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | OpenFlamingo-9B (LLaMA-7B) | GPT-4 score: 21.8±0.1 Params: 9B |
| visual-question-answering-on-mm-vet | OpenFlamingo-9B (MPT-7B) | GPT-4 score: 24.8±0.2 Params: 9B |
| visual-question-answering-on-mm-vet-v2 | OpenFlamingo-9B | GPT-4 score: 17.6±0.2 Params: 9B |
| visual-question-answering-vqa-on-core-mm | OpenFlamingo-v2 | Abductive: 5.3 Analogical: 1.11 Deductive: 8.88 Overall score: 6.82 Params: 9B |