16 小时前

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang

摘要

人类的问题求解从来不是单一思维模式的重复运用，这里的“思维模式”指的是一种特定的认知处理方式。在解决具体任务时，我们并非依赖单一的思维模式，而是将多种思维模式整合于同一求解过程之中。然而，现有的大语言模型（LLM）推理方法普遍存在一个共同缺陷：在整个推理过程中始终采用固定的、不变的思维模式，忽视了同一问题的不同求解阶段本质上需要截然不同的思维策略。这种“单一思维”的假设严重制约了模型向更高层次智能发展的潜力。为突破这一局限，我们提出思维链（Chain of Mindset, CoM），一种无需训练的代理式框架，支持在推理步骤层面实现动态自适应的思维模式调度。CoM将推理过程分解为四种功能异质的思维模式：空间思维（Spatial）、收敛思维（Convergent）、发散思维（Divergent）和算法思维（Algorithmic）。系统通过一个元代理（Meta-Agent）根据不断演化的推理状态，动态选择最优的思维模式；同时，引入双向上下文门控机制（Bidirectional Context Gate），有效过滤模块间的跨信息流，确保推理过程在保持高效性的同时维持高准确性。在涵盖数学推理、代码生成、科学问答与空间推理等六大挑战性基准上的实验结果表明，CoM实现了当前最先进的性能表现。在Qwen3-VL-32B-Instruct和Gemini-2.0-Flash两个模型上，其整体准确率分别超越最强基线模型4.96%和4.72%，同时兼顾了推理效率的平衡。相关代码已公开，可访问：https://github.com/QuantaAlpha/chain-of-mindset。

一句话总结

来自北京大学、北京交通大学、QuantaAlpha 等机构的研究人员提出了“思维链”（Chain of Mindset, CoM），这是一种无需训练的框架，能够在推理过程中动态选择四种认知思维模式，在关键基准测试中性能优于基线模型近 5%，同时保持高效，推动大语言模型的问题解决能力超越固定模式方法。

主要贡献

我们发现当前大语言模型推理的一个关键限制：尽管人类解决问题时需要在空间、收敛、发散和算法等不同认知模式间动态切换，但现有方法在所有推理步骤中依赖单一固定思维模式。
我们提出了“思维链”（CoM），一种无需训练的代理框架，通过元代理（Meta-Agent）在每一步推理中动态选择最优思维模式，并利用双向上下文门（Context Gate）控制模块间信息流，以保持效率和有效性。
CoM 在六个不同基准测试中取得最先进成果，相较于最强基线模型，在 Qwen3-VL-32B-Instruct 和 Gemini-2.0-Flash 上整体准确率分别提升 4.96% 和 4.72%，且无需重新训练模型，保持计算效率。

引言

作者借鉴认知科学，解决大语言模型推理中的一个关键限制：当前方法在所有推理步骤中使用单一固定思维模式，而人类解决问题时会动态切换不同认知模式。以往方法要么将模型锁定在单一策略，要么在任务开始时选择静态方法，无法随子任务需求变化而自适应调整。他们的主要贡献是“思维链”（CoM），一种无需训练的代理框架，通过元代理在每一步推理中动态协调四种功能不同的思维模式——空间、收敛、发散和算法思维。双向上下文门过滤信息流，保持效率并减少干扰，实现无需重新训练的状态依赖切换。CoM 在六个基准测试中取得最先进成果，性能最高优于基线模型达 4.96%，并跨模型泛化，保持计算效率。

数据集

作者在四个类别的六个基准测试上评估 CoM，数据来源于近期学术数据集和竞赛。
数学推理包括：
- AIME 2025：30 道涵盖代数、几何、组合和数论的问题。
- Real-Fermi：557 道费米估算问题，需进行数量级推理。
代码生成使用 LiveCodeBench：182 道来自 LeetCode、AtCoder 和 CodeForces（2025 年 1 月至 5 月）的编程题，分为 45 道简单题、55 道中等题和 82 道难题。
科学问答采用 GPQA-Diamond：精选 198 道博士级别物理、化学和生物问题，因非专家准确率仅约 30%。
多模态推理包括：
- MathVision-Mini：152 道需先解读图表再进行符号求解的多模态数学题。
- MAZE：200 道由 maze-dataset 生成的迷宫导航任务，模型需在迷宫图像上执行给定动作序列后预测最终位置。
这些基准测试未使用任何训练数据，仅用于评估。所有数据集均按其原作者指定的形式或最小过滤后使用，未提及对测试集进行裁剪或元数据构建。

方法

作者采用一种三层解耦架构“思维链”（CoM），使大语言模型实现动态多模态推理。该框架将元认知协调与具体执行分离，使系统可根据中间进展和语义上下文在功能异构的推理范式（称为“思维模式”）间切换。核心组件包括元代理、四个专用思维模块，以及双向上下文门，后者调节信息流以防止上下文污染。

元代理作为中央控制器，负责生成认知决策，决定每一步调用哪种思维模式。它在迭代的“计划-调用-内化”循环中运作：给定当前状态 $s_t = (q, \mathcal{H}_{<t})$ ，它通过策略 $\pi$ 选择思维模式 $m_t$ ，分派相应调用 $c_t$ ，接收输出与洞察，并内化洞察以可能修订其计划。这使系统在复杂推理轨迹中实现自我修正和自适应重规划。

如下图所示，该框架在每一步动态选择最优认知模式，与静态策略选择或单模式推理形成对比。四种思维模式——算法、空间、收敛和发散——各自封装不同认知策略，并在隔离上下文中运行。算法思维模式通过生成-执行-修复循环处理精确计算，最多迭代 $N_{\max} = 2$ 次以修复代码错误：

\left( \rho _ { i + 1 } , r _ { \mathrm { a l g o } } \right) = \left\{ \begin{array} { l l } { \left( \rho _ { i } , \mathsf { E X E C } ( \rho _ { i } ) \right) } & { \mathrm { i f ~ e x e c u t i o n ~ s u c c e e d s } } \\ { \left( \mathsf { F I X } ( \rho _ { i } , \epsilon _ { i } ) , \bot \right) } & { \mathrm { i f ~ e r r o r ~ } \epsilon _ { i } \land i < N _ { \operatorname* { m a x } } } \\ { \left( \rho _ { i } , \epsilon _ { i } \right) } & { \mathrm { o t h e r w i s e } } \end{array} \right.

空间思维模式通过 Nano-Banana-Pro 生成或编辑图像，连接抽象逻辑与视觉直觉，支持三种模式：文本→图像、图像+文本→图像、代码→图像。生成的产物注册唯一标识符（如 [GEN_001]）以便后续引用。收敛思维模式基于既定事实进行聚焦、深入推理，生成完整逻辑推导。发散思维模式通过生成 $k \in [2,5]$ 个候选解分支打破僵局，各分支并行分析，结果返回元代理进行审议。

为解决模块化推理中的相关性-冗余性权衡问题，上下文门实现双向语义过滤。输入门从完整历史 $\mathcal{H}$ 中提取最小充分上下文子集 $\mathcal{H}_{\text{rel}}$ 和相关图像 $\mathcal{I}_{\text{ini}}$ ，以调用指令 $c$ 作为语义锚点：

( \mathcal { H } _ { \mathrm { r e l } } , \mathcal { I } _ { \mathrm { i n i } } ) = G _ { \mathrm { i n } } ( \mathcal { H } , c , M , \mathcal { I } )

输出门将冗长的思维模式输出 $r$ 提炼为与指令目标对齐的简洁摘要 $O_{\text{sum}}$ ：

O _ { \mathrm { s u m } } = G _ { \mathrm { o u t } } ( r , c , \mathcal { I } _ { \mathrm { n e w } } )

这确保了双向高信息密度，使系统在隔离的思维模式环境中高效执行，同时保持主推理链的紧凑性。元代理内化这些提炼后的洞察，指导后续决策，形成能够动态适应的闭环认知架构。

实验

CoM 在复杂推理中展示自适应思维切换，使用空间思维进行视觉锚定，收敛思维解决歧义，算法思维进行精确计算。
它在多个基准测试中优于基线模型，在需要灵活策略适应的任务（如费米估算和空间推理）上表现最强。
消融研究证实上下文门对协调至关重要，而发散和空间思维模式分别驱动数学和视觉任务的性能。
CoM 以适度计算成本实现最先进准确率，位于准确率-效率权衡的帕累托前沿。
思维模式调用模式揭示任务特定协作：费米和代码任务偏好算法-收敛组合，而多模态任务严重依赖空间推理。
动态重规划是其核心优势——CoM 根据中间洞察在过程中修订策略，比静态元推理方法更高效地解决问题。

作者使用 CoM 在推理过程中动态切换认知思维模式，在多个基准测试中实现最高整体准确率，根据问题上下文自适应调整策略。结果表明，移除上下文门或发散思维模式等关键组件会显著降低性能，证实协调的自适应推理对复杂任务至关重要。CoM 还通过每项任务仅调用必要思维模式实现效率提升，在准确率与计算成本间取得平衡。

作者使用 CoM 在推理过程中动态切换认知思维模式，在多个基准测试中相比直接和元推理基线实现最高整体准确率。结果表明，CoM 在需要灵活策略适应的任务（如数学推理和多模态空间问题）上尤其出色，同时保持令牌使用的效率。该框架的优势在于根据问题上下文协调专用推理模式——如算法模式用于计算、空间模式用于可视化——而非依赖固定或统一策略。

作者使用 CoM 在推理过程中动态切换认知思维模式，在多个基准测试中相比直接和元推理基线实现最高整体准确率。结果表明，CoM 在需要灵活策略适应的任务（如数学推理和多模态空间问题）上尤其出色，同时保持令牌使用的效率。该方法的优势在于根据问题上下文协调专用推理模式——如算法模式用于计算、空间模式用于可视化——而非依赖固定或统一策略。

作者根据问题需求使用 CoM 动态切换认知思维模式——发散、收敛、算法和空间——大多数任务调用多种思维模式以实现最优推理。结果表明，算法和收敛思维模式整体最常被激活，而空间思维对 MAZE 和 MathVision 等视觉任务至关重要，发散思维在 AIME25 等数学推理中发挥关键作用。多思维模式协作实现自适应问题解决，59.7% 的问题需要至少两种不同模式才能有效解决。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

16 小时前

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang

摘要

一句话总结

主要贡献

我们发现当前大语言模型推理的一个关键限制：尽管人类解决问题时需要在空间、收敛、发散和算法等不同认知模式间动态切换，但现有方法在所有推理步骤中依赖单一固定思维模式。
我们提出了“思维链”（CoM），一种无需训练的代理框架，通过元代理（Meta-Agent）在每一步推理中动态选择最优思维模式，并利用双向上下文门（Context Gate）控制模块间信息流，以保持效率和有效性。
CoM 在六个不同基准测试中取得最先进成果，相较于最强基线模型，在 Qwen3-VL-32B-Instruct 和 Gemini-2.0-Flash 上整体准确率分别提升 4.96% 和 4.72%，且无需重新训练模型，保持计算效率。

引言

数据集

作者在四个类别的六个基准测试上评估 CoM，数据来源于近期学术数据集和竞赛。
数学推理包括：
- AIME 2025：30 道涵盖代数、几何、组合和数论的问题。
- Real-Fermi：557 道费米估算问题，需进行数量级推理。
代码生成使用 LiveCodeBench：182 道来自 LeetCode、AtCoder 和 CodeForces（2025 年 1 月至 5 月）的编程题，分为 45 道简单题、55 道中等题和 82 道难题。
科学问答采用 GPQA-Diamond：精选 198 道博士级别物理、化学和生物问题，因非专家准确率仅约 30%。
多模态推理包括：
- MathVision-Mini：152 道需先解读图表再进行符号求解的多模态数学题。
- MAZE：200 道由 maze-dataset 生成的迷宫导航任务，模型需在迷宫图像上执行给定动作序列后预测最终位置。
这些基准测试未使用任何训练数据，仅用于评估。所有数据集均按其原作者指定的形式或最小过滤后使用，未提及对测试集进行裁剪或元数据构建。

方法

\left( \rho _ { i + 1 } , r _ { \mathrm { a l g o } } \right) = \left\{ \begin{array} { l l } { \left( \rho _ { i } , \mathsf { E X E C } ( \rho _ { i } ) \right) } & { \mathrm { i f ~ e x e c u t i o n ~ s u c c e e d s } } \\ { \left( \mathsf { F I X } ( \rho _ { i } , \epsilon _ { i } ) , \bot \right) } & { \mathrm { i f ~ e r r o r ~ } \epsilon _ { i } \land i < N _ { \operatorname* { m a x } } } \\ { \left( \rho _ { i } , \epsilon _ { i } \right) } & { \mathrm { o t h e r w i s e } } \end{array} \right.

( \mathcal { H } _ { \mathrm { r e l } } , \mathcal { I } _ { \mathrm { i n i } } ) = G _ { \mathrm { i n } } ( \mathcal { H } , c , M , \mathcal { I } )

输出门将冗长的思维模式输出 $r$ 提炼为与指令目标对齐的简洁摘要 $O_{\text{sum}}$ ：

O _ { \mathrm { s u m } } = G _ { \mathrm { o u t } } ( r , c , \mathcal { I } _ { \mathrm { n e w } } )

实验

CoM 在复杂推理中展示自适应思维切换，使用空间思维进行视觉锚定，收敛思维解决歧义，算法思维进行精确计算。
它在多个基准测试中优于基线模型，在需要灵活策略适应的任务（如费米估算和空间推理）上表现最强。
消融研究证实上下文门对协调至关重要，而发散和空间思维模式分别驱动数学和视觉任务的性能。
CoM 以适度计算成本实现最先进准确率，位于准确率-效率权衡的帕累托前沿。
思维模式调用模式揭示任务特定协作：费米和代码任务偏好算法-收敛组合，而多模态任务严重依赖空间推理。
动态重规划是其核心优势——CoM 根据中间洞察在过程中修订策略，比静态元推理方法更高效地解决问题。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

思维链：基于自适应认知模式的推理

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang5 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

思维链：基于自适应认知模式的推理

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang5 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

思维链：基于自适应认知模式的推理

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang5 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang

Tianyi Jiang Arctanx An Hengyi Feng Naixin Zhai Haodong Li Xiaomin Yu Jiahui Liu Hanwen Du Shuo Zhang Zhi Yang