8 个月前

多模态表征

计算机视觉

Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo

摘要

提示调优已被用作一种高效的方法，以适应大型视觉-语言预训练模型（如CLIP）在数据有限或标签有限的情况下进行各种下游任务。然而，现有的方法默认需要视觉数据（例如图像）来学习提示。在这项工作中，我们主张图像-文本对比学习在对齐两种模态方面的有效性（用于训练CLIP）进一步使得将文本视为图像进行提示调优成为可能，并引入了TaI提示方法。与视觉数据相比，文本描述易于收集，其类别标签可以直接推导。具体而言，我们将TaI提示应用于多标签图像识别中，其中野外的句子可以作为图像的替代品用于提示调优。此外，借助TaI，提出了双粒度提示调优（TaI-DPT），以提取粗粒度和细粒度嵌入，从而增强多标签识别性能。实验结果表明，我们提出的TaI-DPT在多个基准测试中显著优于零样本CLIP，例如MS-COCO、VOC2007和NUS-WIDE，并且它可以与现有的基于图像的提示方法结合使用，进一步提高识别性能。代码已发布在 https://github.com/guozix/TaI-DPT。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo

摘要

提示调优已被用作一种高效的方法，以适应大型视觉-语言预训练模型（如CLIP）在数据有限或标签有限的情况下进行各种下游任务。然而，现有的方法默认需要视觉数据（例如图像）来学习提示。在这项工作中，我们主张图像-文本对比学习在对齐两种模态方面的有效性（用于训练CLIP）进一步使得将文本视为图像进行提示调优成为可能，并引入了TaI提示方法。与视觉数据相比，文本描述易于收集，其类别标签可以直接推导。具体而言，我们将TaI提示应用于多标签图像识别中，其中野外的句子可以作为图像的替代品用于提示调优。此外，借助TaI，提出了双粒度提示调优（TaI-DPT），以提取粗粒度和细粒度嵌入，从而增强多标签识别性能。实验结果表明，我们提出的TaI-DPT在多个基准测试中显著优于零样本CLIP，例如MS-COCO、VOC2007和NUS-WIDE，并且它可以与现有的基于图像的提示方法结合使用，进一步提高识别性能。代码已发布在 https://github.com/guozix/TaI-DPT。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供