HyperAIHyperAI

Command Palette

Search for a command to run...

文本作为图像在多标签图像识别中的提示调优

Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo

摘要

提示调优已被用作一种高效的方法,以适应大型视觉-语言预训练模型(如CLIP)在数据有限或标签有限的情况下进行各种下游任务。然而,现有的方法默认需要视觉数据(例如图像)来学习提示。在这项工作中,我们主张图像-文本对比学习在对齐两种模态方面的有效性(用于训练CLIP)进一步使得将文本视为图像进行提示调优成为可能,并引入了TaI提示方法。与视觉数据相比,文本描述易于收集,其类别标签可以直接推导。具体而言,我们将TaI提示应用于多标签图像识别中,其中野外的句子可以作为图像的替代品用于提示调优。此外,借助TaI,提出了双粒度提示调优(TaI-DPT),以提取粗粒度和细粒度嵌入,从而增强多标签识别性能。实验结果表明,我们提出的TaI-DPT在多个基准测试中显著优于零样本CLIP,例如MS-COCO、VOC2007和NUS-WIDE,并且它可以与现有的基于图像的提示方法结合使用,进一步提高识别性能。代码已发布在 https://github.com/guozix/TaI-DPT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本作为图像在多标签图像识别中的提示调优 | 论文 | HyperAI超神经