4 个月前

PaLI-3 视觉语言模型:更小、更快、更强

PaLI-3 视觉语言模型:更小、更快、更强

摘要

本文介绍了PaLI-3,这是一种体积更小、速度更快且性能更强的视觉语言模型(VLM),其表现可与比其大10倍的类似模型相媲美。为了达到这一优异性能,我们对比了使用分类目标预训练的视觉变压器(ViT)模型与对比预训练的SigLIP模型。研究发现,虽然在标准图像分类基准测试中略逊一筹,但基于SigLIP的PaLI在各种多模态基准测试中表现出色,尤其是在定位和视觉场景下的文本理解方面。我们将SigLIP图像编码器扩展至20亿参数规模,并在多语言跨模态检索任务上达到了新的最先进水平。我们希望仅包含50亿参数的PaLI-3能够重新激发对复杂VLM基本组件的研究,并推动新一代大规模模型的发展。

代码仓库

kyegomez/PALI3
pytorch
GitHub 中提及

基准测试

基准方法指标
chart-question-answering-on-chartqaPaLI-3 (w/ OCR)
1:1 Accuracy: 69.5
chart-question-answering-on-chartqaPaLI-3
1:1 Accuracy: 70
temporal-casual-qa-on-next-qaPaLI-3
WUPS: 37.7
visual-question-answering-on-docvqa-testPaLI-3
ANLS: 0.876
visual-question-answering-on-docvqa-testPaLI-3 (w/ OCR)
ANLS: 0.886
visual-question-answering-vqa-onPaLI-3
ANLS: 57.8
visual-question-answering-vqa-onPaLI-3 (w/ OCR)
ANLS: 62.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PaLI-3 视觉语言模型:更小、更快、更强 | 论文 | HyperAI超神经