3 个月前

Florence-2:推进多种视觉任务的统一表征

Florence-2:推进多种视觉任务的统一表征

摘要

我们提出Florence-2,一种新型视觉基础模型,采用统一的、基于提示(prompt-based)的表征方式,适用于多种计算机视觉及视觉-语言任务。尽管现有大型视觉模型在迁移学习方面表现优异,但在仅通过简单指令完成多样化任务方面仍存在局限,而这一能力本质上要求模型能够处理不同层次的空间结构与语义粒度的复杂性。Florence-2专为以文本提示作为任务指令而设计,能够生成以文本形式输出的高质量结果,涵盖图像描述、目标检测、视觉定位(grounding)以及图像分割等多种任务。这种多任务学习架构对大规模、高质量的标注数据提出了极高要求。为此,我们共同开发了FLD-5B数据集,该数据集包含1.26亿张图像上的54亿条全面视觉标注,采用自动化图像标注与模型迭代优化相结合的策略构建而成。在训练过程中,我们采用序列到序列(sequence-to-sequence)的架构来训练Florence-2,使其能够执行多样化且全面的视觉任务。在众多任务上的广泛评估表明,Florence-2具备前所未有的零样本(zero-shot)与微调能力,是当前最具竞争力的视觉基础模型之一。

代码仓库

基准测试

基准方法指标
visual-grounding-on-refcoco-test-bFlorence-2-large-ft
Accuracy (%): 92.0
visual-grounding-on-refcoco-testaFlorence-2-large-ft
Accuracy (%): 95.3
visual-grounding-on-refcoco-valFlorence-2-large-ft
Accuracy (%): 93.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Florence-2:推进多种视觉任务的统一表征 | 论文 | HyperAI超神经