6 个月前

多模态表征

计算机视觉

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

摘要

基于深度学习的模型在处理现实世界中的长尾数据时面临诸多挑战。现有的解决方案通常依赖于某种平衡策略或迁移学习来缓解类别不平衡问题，但这些方法大多局限于图像模态。在本工作中，我们提出了一种视觉-语言长尾识别框架，称为VL-LTR，并通过实证研究探讨了引入文本模态对长尾识别（LTR）所带来的优势。与现有方法相比，所提出的VL-LTR具备以下优势：（1）该方法不仅能从图像中学习视觉表征，还能从互联网上收集的噪声级类别文本描述中学习对应的语言表征；（2）该方法能够有效利用所学习的视觉-语言联合表征，显著提升视觉识别性能，尤其在样本较少的类别上表现突出。我们进行了大量实验，并在多个广泛使用的长尾识别基准上取得了新的最先进性能。值得注意的是，我们的方法在ImageNet-LT数据集上实现了77.2%的总体准确率，较此前最优方法显著提升超过17个百分点，已接近在完整ImageNet上训练所得的主流性能水平。代码已开源，地址为：https://github.com/ChangyaoTian/VL-LTR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

摘要

基于深度学习的模型在处理现实世界中的长尾数据时面临诸多挑战。现有的解决方案通常依赖于某种平衡策略或迁移学习来缓解类别不平衡问题，但这些方法大多局限于图像模态。在本工作中，我们提出了一种视觉-语言长尾识别框架，称为VL-LTR，并通过实证研究探讨了引入文本模态对长尾识别（LTR）所带来的优势。与现有方法相比，所提出的VL-LTR具备以下优势：（1）该方法不仅能从图像中学习视觉表征，还能从互联网上收集的噪声级类别文本描述中学习对应的语言表征；（2）该方法能够有效利用所学习的视觉-语言联合表征，显著提升视觉识别性能，尤其在样本较少的类别上表现突出。我们进行了大量实验，并在多个广泛使用的长尾识别基准上取得了新的最先进性能。值得注意的是，我们的方法在ImageNet-LT数据集上实现了77.2%的总体准确率，较此前最优方法显著提升超过17个百分点，已接近在完整ImageNet上训练所得的主流性能水平。代码已开源，地址为：https://github.com/ChangyaoTian/VL-LTR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供