ChenXi ; WangXiao ; BeyerLucas ; KolesnikovAlexander ; WuJialin ; VoigtlaenderPaul ; MustafaBasil ; GoodmanSebastian ; AlabdulmohsinIbrahim ; PadlewskiPiotr ; SalzDaniel ; XiongXi ; VlasicDaniel ; PaveticFilip ; RongKeran ; YuTianli ; KeysersDaniel ; ZhaiXiaohua ; SoricutRadu

摘要
本文介绍了PaLI-3,这是一种体积更小、速度更快且性能更强的视觉语言模型(VLM),其表现可与比其大10倍的类似模型相媲美。为了达到这一优异性能,我们对比了使用分类目标预训练的视觉变压器(ViT)模型与对比预训练的SigLIP模型。研究发现,虽然在标准图像分类基准测试中略逊一筹,但基于SigLIP的PaLI在各种多模态基准测试中表现出色,尤其是在定位和视觉场景下的文本理解方面。我们将SigLIP图像编码器扩展至20亿参数规模,并在多语言跨模态检索任务上达到了新的最先进水平。我们希望仅包含50亿参数的PaLI-3能够重新激发对复杂VLM基本组件的研究,并推动新一代大规模模型的发展。
代码仓库
kyegomez/PALI3
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-chartqa | PaLI-3 (w/ OCR) | 1:1 Accuracy: 69.5 |
| chart-question-answering-on-chartqa | PaLI-3 | 1:1 Accuracy: 70 |
| temporal-casual-qa-on-next-qa | PaLI-3 | WUPS: 37.7 |
| visual-question-answering-on-docvqa-test | PaLI-3 | ANLS: 0.876 |
| visual-question-answering-on-docvqa-test | PaLI-3 (w/ OCR) | ANLS: 0.886 |
| visual-question-answering-vqa-on | PaLI-3 | ANLS: 57.8 |
| visual-question-answering-vqa-on | PaLI-3 (w/ OCR) | ANLS: 62.4 |