3 个月前

少即是多:基于CLIP特征的线性层构建强大的VizWiz模型

少即是多:基于CLIP特征的线性层构建强大的VizWiz模型

摘要

当前用于多模态任务(如视觉问答)的架构普遍存在复杂度较高的问题,导致其训练困难且对计算资源需求较高。为解决这一问题,本文提出一种基于CLIP的新型架构,该架构无需对特征提取器进行任何微调。在该模型中,仅通过一个简单的线性分类器对图像编码器与文本编码器的特征拼接结果进行处理。在训练过程中,引入一个辅助损失函数,该损失函数作用于答案类型(answer types),并利用其输出作为注意力门控机制,指导答案类别选择。在VizWiz 2022视觉问答挑战赛中,该方法在任务1(预测视觉问题的答案)上取得了60.15%的准确率,在任务2(预测视觉问题的可回答性)上获得了83.78%的平均精度(AP)得分。

基准测试

基准方法指标
visual-question-answering-on-vizwiz-2020CLIP-Ensemble
average_precision: 84.13
visual-question-answering-on-vizwiz-2020CLIP-Single
average_precision: 82.86
visual-question-answering-on-vizwiz-2020-vqaCLIP-Ensemble
overall: 61.64
visual-question-answering-on-vizwiz-2020-vqaCLIP-Single
overall: 60.66

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
少即是多:基于CLIP特征的线性层构建强大的VizWiz模型 | 论文 | HyperAI超神经