4 个月前

佛罗伦萨:计算机视觉的新基础模型

佛罗伦萨:计算机视觉的新基础模型

摘要

实现对多样性和开放世界的自动化视觉理解,需要计算机视觉模型在最小化特定任务定制的情况下具有良好的泛化能力,类似于人类视觉。计算机视觉基础模型,通过在多样化的大规模数据集上进行训练,并能够适应广泛的下游任务,对于解决现实世界中的计算机视觉应用至关重要。尽管现有的视觉基础模型如CLIP、ALIGN和悟道2.0主要集中在将图像和文本表示映射到跨模态共享表示上,我们引入了一种新的计算机视觉基础模型——Florence,以扩展从粗略(场景)到精细(对象)、从静态(图像)到动态(视频)以及从RGB到多种模态(字幕、深度)的表示。通过整合来自网络规模的图像-文本数据的通用视觉-语言表示,我们的Florence模型可以轻松适应各种计算机视觉任务,例如分类、检索、目标检测、VQA(视觉问答)、图像字幕生成、视频检索和动作识别。此外,Florence在多种类型的迁移学习中表现出色:全样本微调、线性探测、少量样本迁移和零样本迁移用于新图像和对象。所有这些特性对于我们的视觉基础模型执行通用目的的视觉任务都至关重要。Florence在44个代表性基准测试中的大多数测试中取得了最新的最佳结果,例如ImageNet-1K零样本分类的Top-1准确率为83.74%,Top-5准确率为97.18%;COCO微调的mAP为62.4;VQA上的准确率为80.36%;Kinetics-600上的准确率为87.8%。

代码仓库

基准测试

基准方法指标
action-classification-on-kinetics-600Florence (curated FLD-900M pretrain)
Top-1 Accuracy: 87.8
Top-5 Accuracy: 97.9
action-recognition-in-videos-on-kinetics-400-1Florence
Top-1 Accuracy: 86.5
Top-5 Accuracy: 97.3
action-recognition-in-videos-on-kinetics-600Florence
Top-1 Accuracy: 87.8
Top-5 Accuracy: 97.8
cross-modal-retrieval-on-coco-2014Florence
Image-to-text R@1: 81.8
Image-to-text R@5: 95.2
Text-to-image R@1: 63.2
Text-to-image R@5: 85.7
image-classification-on-imagenetFlorence-CoSwin-H
Number of params: 893M
Top 1 Accuracy: 90.05%
Top 5 Accuracy: 99.02
object-detection-on-cocoFlorence-CoSwin-H
box mAP: 62.4
object-detection-on-coco-minivalFlorence-CoSwin-H
box AP: 62
video-retrieval-on-msr-vtt-1kaFlorence
text-to-video R@1: 37.6
text-to-video R@10: 72.6
text-to-video R@5: 63.8
visual-question-answering-on-vqa-v2-test-dev-1Florence
Accuracy: 80.16
visual-question-answering-on-vqa-v2-test-std-1Florence
overall: 80.36
zero-shot-cross-modal-retrieval-on-coco-2014Florence
Image-to-text R@1: 64.7
Image-to-text R@5: 85.9
Text-to-image R@1: 47.2
Text-to-image R@5: 71.4
zero-shot-cross-modal-retrieval-on-flickr30kFlorence
Image-to-text R@1: 90.9
Image-to-text R@10: -
Image-to-text R@5: 99.1
Text-to-image R@1: 76.7
Text-to-image R@10: -
Text-to-image R@5: 93.6
zero-shot-video-retrieval-on-msr-vttFlorence
text-to-video R@1: 37.6
text-to-video R@10: 72.6
text-to-video R@5: 63.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
佛罗伦萨:计算机视觉的新基础模型 | 论文 | HyperAI超神经