8 个月前

多模态表征

统一多模态

Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra

摘要

我们介绍了ImageBind，这是一种在六种不同模态之间学习联合嵌入的方法，包括图像、文本、音频、深度、热感和惯性测量单元（IMU）数据。研究表明，并非所有配对数据组合都是训练这种联合嵌入所必需的，仅使用图像配对的数据就足以将这些模态连接在一起。ImageBind可以利用最近的大规模视觉-语言模型，并通过它们与图像的自然配对将其零样本能力扩展到新的模态。它能够“开箱即用”地实现多种新颖的跨模态应用，包括跨模态检索、模态间的算术组合、跨模态检测和生成。这些新兴能力随着图像编码器性能的提升而增强，我们在跨模态的零样本识别任务中达到了新的最先进水平，超过了专门的监督模型。最后，我们展示了强大的少样本识别结果，优于以往的工作，并证明了ImageBind为评估视觉模型在视觉和非视觉任务中的表现提供了一种新方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

统一多模态

Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra

摘要

我们介绍了ImageBind，这是一种在六种不同模态之间学习联合嵌入的方法，包括图像、文本、音频、深度、热感和惯性测量单元（IMU）数据。研究表明，并非所有配对数据组合都是训练这种联合嵌入所必需的，仅使用图像配对的数据就足以将这些模态连接在一起。ImageBind可以利用最近的大规模视觉-语言模型，并通过它们与图像的自然配对将其零样本能力扩展到新的模态。它能够“开箱即用”地实现多种新颖的跨模态应用，包括跨模态检索、模态间的算术组合、跨模态检测和生成。这些新兴能力随着图像编码器性能的提升而增强，我们在跨模态的零样本识别任务中达到了新的最先进水平，超过了专门的监督模型。最后，我们展示了强大的少样本识别结果，优于以往的工作，并证明了ImageBind为评估视觉模型在视觉和非视觉任务中的表现提供了一种新方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供