4 个月前

CoCa:对比式标题生成器是图像-文本基础模型

CoCa:对比式标题生成器是图像-文本基础模型

摘要

探索大规模预训练基础模型在计算机视觉领域的应用具有重要意义,因为这些模型可以快速迁移到许多下游任务中。本文介绍了对比式描述生成器(Contrastive Captioner, CoCa),这是一种极简设计,旨在通过联合使用对比损失和描述生成损失来预训练图像-文本编码器-解码器基础模型,从而整合了像CLIP这样的对比方法和像SimVLM这样的生成方法的能力。与标准的编码器-解码器变压器不同,CoCa 在解码器的前半部分省略了交叉注意力机制,以编码单模态文本表示;而在剩余的解码器层中则引入了交叉注意力机制,以便对图像编码器进行多模态图像-文本表示。我们不仅在单模态图像和文本嵌入之间应用了对比损失,还在多模态解码器输出上应用了描述生成损失,后者自回归地预测文本标记。通过共享相同的计算图,这两种训练目标能够高效地计算,并且几乎没有额外开销。CoCa 从头开始端到端地预训练,既使用网页规模的替代文本数据也使用注释图像数据,并将所有标签简单地视为文本,从而无缝统一自然语言监督下的表征学习。实证结果表明,CoCa 在广泛的下游任务中实现了最先进的性能,无论是零样本迁移还是最小的任务特定适应。具体而言,在ImageNet分类任务中,CoCa 获得了86.3%的零样本最高准确率;当使用冻结的编码器和学习到的分类头时,准确率提升至90.6%;而经过微调后的编码器则达到了新的最高水平——91.0%的最高准确率。此外,在其他多个任务上也表现出色:- 视觉识别(ImageNet、Kinetics-400/600/700、Moments-in-Time)- 跨模态检索(MSCOCO、Flickr30K、MSR-VTT)- 多模态理解(VQA、SNLI-VE、NLVR2)- 图像描述生成(MSCOCO、NoCaps)这些结果进一步证明了 CoCa 的强大泛化能力和灵活性。

代码仓库

amitakamath/whatsup_vlms
pytorch
GitHub 中提及
mlfoundations/open_clip
pytorch
GitHub 中提及
lucidrains/CoCa-pytorch
pytorch
GitHub 中提及
Chaolei98/FreeZAD
pytorch
GitHub 中提及
amitakamath/hard_positives
pytorch
GitHub 中提及
facebookresearch/multimodal
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400CoCa (frozen)
Acc@1: 88.0
action-classification-on-kinetics-400CoCa (finetuned)
Acc@1: 88.9
action-classification-on-kinetics-600CoCa (finetuned)
Top-1 Accuracy: 89.4
action-classification-on-kinetics-600CoCa (frozen)
Top-1 Accuracy: 88.5
action-classification-on-kinetics-700CoCa (frozen)
Top-1 Accuracy: 81.1
action-classification-on-kinetics-700CoCa (finetuned)
Top-1 Accuracy: 82.7
action-classification-on-moments-in-time-2CoCa (finetuned)
Top 1 Accuracy: 49.0
action-classification-on-moments-in-time-2CoCa (frozen)
Top 1 Accuracy: 47.4
image-captioning-on-coco-captionsCoCa
BLEU-4: 40.9
CIDER: 143.6
METEOR: 33.9
SPICE: 24.7
image-classification-on-imagenetCoCa (finetuned)
Hardware Burden:
Number of params: 2100M
Operations per network pass:
Top 1 Accuracy: 91.0%
image-classification-on-imagenetCoCa (finetuned)
Number of params: 2100M
Top 1 Accuracy: 91.0%
image-classification-on-objectnetCoCa
Top-1 Accuracy: 82.7
video-retrieval-on-msr-vttCoCa (zero-shot)
text-to-video R@1: 30.0
text-to-video R@10: 61.6
text-to-video R@5: 52.4
video-to-text R@1: 49.9
video-to-text R@10: 81.4
video-to-text R@5: 73.4
visual-entailment-on-snli-ve-testCoCa
Accuracy: 87.1
visual-entailment-on-snli-ve-valCoCa
Accuracy: 87.0
visual-question-answering-on-vqa-v2-test-dev-1CoCa
Accuracy: 82.3
visual-reasoning-on-nlvr2-devCoCa
Accuracy: 86.1
visual-reasoning-on-nlvr2-testCoCa
Accuracy: 87.0
zero-shot-cross-modal-retrieval-on-coco-2014CoCa
Image-to-text R@1: 66.3
Image-to-text R@10: 91.8
Image-to-text R@5: 86.2
Text-to-image R@1: 51.2
Text-to-image R@10: 82.0
Text-to-image R@5: 74.2
zero-shot-cross-modal-retrieval-on-flickr30kCoCa
Image-to-text R@1: 92.5
Image-to-text R@10: 99.9
Image-to-text R@5: 99.5
Text-to-image R@1: 80.4
Text-to-image R@10: 97.7
Text-to-image R@5: 95.7
zero-shot-transfer-image-classification-on-1CoCa
Accuracy (Private): 86.3
zero-shot-transfer-image-classification-on-3CoCa
Accuracy (Private): 80.7
zero-shot-transfer-image-classification-on-4CoCa
Accuracy: 96.5
zero-shot-transfer-image-classification-on-5CoCa
Accuracy (Private): 90.2
zero-shot-transfer-image-classification-on-6CoCa
Accuracy (Private): 82.7
zero-shot-transfer-image-classification-on-8CoCa
Accuracy (Private): 77.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoCa:对比式标题生成器是图像-文本基础模型 | 论文 | HyperAI超神经