4 个月前

语言模型中的多模态链式思维推理

语言模型中的多模态链式思维推理

摘要

大型语言模型(LLMs)通过利用链式思维(CoT)提示生成中间推理链作为推断答案的依据,在复杂推理任务中展示了令人印象深刻的表现。然而,现有的CoT研究主要集中在语言模态上。我们提出了一种多模态链式思维(Multimodal-CoT)方法,该方法将语言(文本)和视觉(图像)模态融入一个两阶段框架,将推理依据生成与答案推断分离。这样一来,答案推断可以利用基于多模态信息生成的更好推理依据。在ScienceQA和A-OKVQA基准数据集上的实验结果表明了我们所提出方法的有效性。使用Multimodal-CoT后,参数量不足10亿的模型在ScienceQA基准测试中达到了最先进的性能。我们的分析表明,Multimodal-CoT具有减轻幻觉和提高收敛速度的优势。代码已公开发布在https://github.com/amazon-science/mm-cot。

代码仓库

chengtan9907/mc-cot
pytorch
GitHub 中提及
xqx12/daily-info
pytorch
GitHub 中提及

基准测试

基准方法指标
science-question-answering-on-scienceqaMultimodal CoT
Avg. Accuracy: 91.68
Grades 1-6: 92.44
Grades 7-12: 90.31
Image Context: 88.80
Language Science: 90.82
Natural Science: 95.91
No Context: 92.89
Social Science: 82.00
Text Context: 95.26

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言模型中的多模态链式思维推理 | 论文 | HyperAI超神经