3 个月前

OVMR:基于多模态参考的开放词汇识别

OVMR:基于多模态参考的开放词汇识别

摘要

开放词汇识别的挑战在于,模型在应用时对新类别毫无先验信息。现有方法尝试通过不同途径将类别线索嵌入模型,例如采用少样本微调,或向视觉-语言模型提供类别名称、文本描述等。然而,微调过程耗时且会损害模型的泛化能力;而文本描述可能存在歧义,难以准确刻画视觉细节。本文从新视角出发,通过融合文本描述与样本图像构成的多模态线索来应对开放词汇识别任务。所提出的OVMR方法引入两项创新组件,以实现更鲁棒的类别线索嵌入。首先,通过动态地将图像样本补充至文本描述中,构建多模态分类器;随后,引入基于偏好的优化模块,融合单模态与多模态分类器,旨在缓解低质量样本图像或文本描述带来的负面影响。所提出的OVMR为即插即用模块,即使在使用从互联网随机爬取的样本图像时也能表现良好。大量实验验证了OVMR的优越性能,其在多种场景与设置下均显著优于现有方法。代码已公开,访问地址为:https://github.com/Zehong-Ma/OVMR。

代码仓库

zehong-ma/ovmr
官方
pytorch

基准测试

基准方法指标
open-vocabulary-object-detection-on-lvis-v1-0OVMR
AP novel-LVIS base training: 34.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OVMR:基于多模态参考的开放词汇识别 | 论文 | HyperAI超神经