4 个月前

通过自一致性训练提升小型多模态推理模型的能力以匹配大型模型

通过自一致性训练提升小型多模态推理模型的能力以匹配大型模型

摘要

多模态推理是一项具有挑战性的任务,需要模型在多种模态之间进行推理以回答问题。现有的方法通过将语言和视觉模态整合到一个两阶段推理框架中,将理由生成与答案推断分开,取得了一定的进展。然而,这些方法往往由于生成的理由质量不足而表现不佳。在这项工作中,我们深入探讨了理由在模型推理中的重要性。我们观察到,当理由完全准确时,模型的准确性显著提高,这突显了高质量理由生成的必要性。受此启发,我们提出了MC-CoT(Multi-Choice Chain-of-Thought),一种自一致性训练策略,该策略生成多个理由和答案,并通过投票过程选择最准确的一个。这种方法不仅提高了生成理由的质量,还使得答案更加准确和鲁棒。通过广泛的实验,我们证明了我们的方法在各种基准测试中显著提升了模型性能。值得注意的是,即使较小的基础模型,在配备了我们提出的方法后,也能达到与较大模型相当的结果,展示了我们的方法在利用高质量理由以改进多模态推理方面的潜力。代码可在 https://github.com/chengtan9907/mc-cot 获取。

代码仓库

chengtan9907/mc-cot
官方
pytorch

基准测试

基准方法指标
science-question-answering-on-scienceqaMC-CoT F-Large
Avg. Accuracy: 94.88
Grades 1-6: 95.3
Grades 7-12: 94.13
Image Context: 93.75
Language Science: 93.18
Natural Science: 97.47
No Context: 94.49
Social Science: 90.44
Text Context: 96.97
visual-question-answering-on-a-okvqaMC-CoT
MC Accuracy: 71

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过自一致性训练提升小型多模态推理模型的能力以匹配大型模型 | 论文 | HyperAI超神经