8 个月前

计算机视觉

计算机视觉

Philipp Allgeuer Kyra Ahrens Stefan Wermter

摘要

我们介绍了一种创新的实时无约束开放词汇图像分类器——NOVIC，该分类器利用自回归变换器以语言形式生成输出分类标签。借助CLIP模型的广泛知识，NOVIC通过嵌入空间实现了从纯文本到图像的零样本迁移。尽管传统的CLIP模型具备开放词汇分类的能力，但它们需要提供详尽的潜在类别标签提示，这限制了其在已知内容或上下文图像中的应用。为了解决这一问题，我们提出了一种“对象解码器”模型，该模型在大规模9200万目标数据集上进行训练，数据集中包含模板化的对象名词集合和大型语言模型（LLM）生成的标题，从而始终输出所询问的对象名词。这实际上反转了CLIP文本编码器，使得可以从图像派生的嵌入向量中直接生成几乎整个英语词汇中的文本对象标签，而无需事先了解图像的潜在内容，并且没有标签偏差。经过训练的解码器在手动和网络策划的数据集以及标准图像分类基准上进行了测试，取得了高达87.5%的细粒度无提示预测分数，考虑到该模型必须适用于任何可想象的图像并且没有任何上下文线索，这是一个非常强大的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Philipp Allgeuer Kyra Ahrens Stefan Wermter

摘要

我们介绍了一种创新的实时无约束开放词汇图像分类器——NOVIC，该分类器利用自回归变换器以语言形式生成输出分类标签。借助CLIP模型的广泛知识，NOVIC通过嵌入空间实现了从纯文本到图像的零样本迁移。尽管传统的CLIP模型具备开放词汇分类的能力，但它们需要提供详尽的潜在类别标签提示，这限制了其在已知内容或上下文图像中的应用。为了解决这一问题，我们提出了一种“对象解码器”模型，该模型在大规模9200万目标数据集上进行训练，数据集中包含模板化的对象名词集合和大型语言模型（LLM）生成的标题，从而始终输出所询问的对象名词。这实际上反转了CLIP文本编码器，使得可以从图像派生的嵌入向量中直接生成几乎整个英语词汇中的文本对象标签，而无需事先了解图像的潜在内容，并且没有标签偏差。经过训练的解码器在手动和网络策划的数据集以及标准图像分类基准上进行了测试，取得了高达87.5%的细粒度无提示预测分数，考虑到该模型必须适用于任何可想象的图像并且没有任何上下文线索，这是一个非常强大的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

无约束开放词汇图像分类：通过CLIP逆向实现从文本到图像的零样本迁移 | 论文 | HyperAI超神经