8 个月前

计算机视觉

计算机视觉

Shir Amir Yossi Gandelsman Shai Bagon Tali Dekel

摘要

我们研究了从预训练的视觉变换器（Vision Transformer, ViT）中提取的深度特征作为密集视觉描述符的应用。通过观察和实证分析，我们发现从自监督ViT模型（DINO-ViT）中提取的这些特征表现出几个显著的特性，包括：(i) 特征编码了强大的、定位良好的语义信息，具有较高的空间粒度，例如物体部件；(ii) 编码的语义信息在相关但不同的物体类别之间共享；(iii) 位置偏差在整个网络层中逐渐变化。这些特性使我们能够设计出适用于多种应用的简单方法，包括共分割、部件共分割和语义对应。为了从复杂的架构选择中提炼出ViT特征的强大能力，我们将自己限制在轻量级的零样本方法（如分箱和聚类）上，并直接应用于这些特征。由于我们的方法不需要额外的训练或数据，因此可以轻松应用于各种领域。通过广泛的定性和定量评估，我们展示了这些简单的零样本方法在性能上与最近的监督方法相当，并且大幅优于之前的无监督方法。代码可在 dino-vit-features.github.io 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Shir Amir Yossi Gandelsman Shai Bagon Tali Dekel

摘要

我们研究了从预训练的视觉变换器（Vision Transformer, ViT）中提取的深度特征作为密集视觉描述符的应用。通过观察和实证分析，我们发现从自监督ViT模型（DINO-ViT）中提取的这些特征表现出几个显著的特性，包括：(i) 特征编码了强大的、定位良好的语义信息，具有较高的空间粒度，例如物体部件；(ii) 编码的语义信息在相关但不同的物体类别之间共享；(iii) 位置偏差在整个网络层中逐渐变化。这些特性使我们能够设计出适用于多种应用的简单方法，包括共分割、部件共分割和语义对应。为了从复杂的架构选择中提炼出ViT特征的强大能力，我们将自己限制在轻量级的零样本方法（如分箱和聚类）上，并直接应用于这些特征。由于我们的方法不需要额外的训练或数据，因此可以轻松应用于各种领域。通过广泛的定性和定量评估，我们展示了这些简单的零样本方法在性能上与最近的监督方法相当，并且大幅优于之前的无监督方法。代码可在 dino-vit-features.github.io 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供