摘要

实现对多样性和开放世界的自动化视觉理解，需要计算机视觉模型在最小化特定任务定制的情况下具有良好的泛化能力，类似于人类视觉。计算机视觉基础模型，通过在多样化的大规模数据集上进行训练，并能够适应广泛的下游任务，对于解决现实世界中的计算机视觉应用至关重要。尽管现有的视觉基础模型如CLIP、ALIGN和悟道2.0主要集中在将图像和文本表示映射到跨模态共享表示上，我们引入了一种新的计算机视觉基础模型——Florence，以扩展从粗略（场景）到精细（对象）、从静态（图像）到动态（视频）以及从RGB到多种模态（字幕、深度）的表示。通过整合来自网络规模的图像-文本数据的通用视觉-语言表示，我们的Florence模型可以轻松适应各种计算机视觉任务，例如分类、检索、目标检测、VQA（视觉问答）、图像字幕生成、视频检索和动作识别。此外，Florence在多种类型的迁移学习中表现出色：全样本微调、线性探测、少量样本迁移和零样本迁移用于新图像和对象。所有这些特性对于我们的视觉基础模型执行通用目的的视觉任务都至关重要。Florence在44个代表性基准测试中的大多数测试中取得了最新的最佳结果，例如ImageNet-1K零样本分类的Top-1准确率为83.74%，Top-5准确率为97.18%；COCO微调的mAP为62.4；VQA上的准确率为80.36%；Kinetics-600上的准确率为87.8%。

源 PDF