3 个月前

语言模型是谜题天才吗?算法谜题揭示多模态推理中的严峻挑战

语言模型是谜题天才吗?算法谜题揭示多模态推理中的严峻挑战

摘要

本文提出了一项全新的多模态拼图求解任务,该任务以视觉问答(Visual Question Answering, VQA)为背景框架。为此,我们构建了一个名为AlgoPuzzleVQA的新数据集,旨在挑战并评估多模态语言模型在解决需要同时具备视觉理解、语言理解与复杂算法推理能力的算法类拼图问题方面的性能。所设计的拼图涵盖广泛的数学与算法主题,包括布尔逻辑、组合数学、图论、优化问题、搜索算法等,旨在揭示视觉信息解析能力与算法问题求解能力之间的差距。该数据集通过人工编写的代码自动生成,确保所有拼图均具有精确解,且解可通过算法直接推导得出,无需繁琐的人工计算。这一机制使得数据集在推理复杂度和规模上具备无限扩展的潜力。我们的实验研究发现,当前大型语言模型(如GPT-4V和Gemini)在拼图求解任务中表现有限,在大量拼图问题中,其在多项选择问答设置下的表现接近随机猜测水平。上述结果凸显了在解决复杂推理问题时,将视觉信息、语言理解与算法知识有效融合所面临的重大挑战,为未来多模态认知模型的发展指明了关键方向。

代码仓库

declare-lab/puzzle-reasoning
官方
GitHub 中提及
declare-lab/llm-puzzletest
官方
GitHub 中提及

基准测试

基准方法指标
multimodal-reasoning-on-algopuzzlevqaGPT-4
Acc: 30.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言模型是谜题天才吗?算法谜题揭示多模态推理中的严峻挑战 | 论文 | HyperAI超神经