Command Palette
Search for a command to run...
百川-M3:面向可靠医疗决策的临床问诊建模
百川-M3:面向可靠医疗决策的临床问诊建模
摘要
我们推出 Baichuan-M3,这是一款面向医疗场景增强的大语言模型,旨在推动医疗人工智能从被动问答向主动、临床级决策支持范式转变。针对现有系统在开放式问诊场景中的局限性,Baichuan-M3 采用专用训练流程,模拟医生系统的临床工作流程。其核心能力包括:(i)主动获取信息以消除歧义;(ii)长时程推理能力,可将零散的临床证据整合为连贯的诊断结论;(iii)自适应幻觉抑制机制,保障输出内容的客观真实性。实证评估表明,Baichuan-M3 在新发布的 HealthBench、HealthBench-Hallu 以及 ScanBench 基准测试中均达到当前最先进水平,在临床问询、专业建议与安全性方面显著优于 GPT-5.2。相关模型已公开发布,可访问 https://huggingface.co/collections/baichuan-inc/baichuan-m3 获取。
一句话总结
百川-M3 团队推出百川-M3,这是一款通过主动询问、长程推理和幻觉抑制来积极支持临床决策的医疗大语言模型,在 HealthBench 和 ScanBench 上表现优于 GPT-5.2,现已公开供实际医疗应用。
主要贡献
- 百川-M3 通过建模医生工作流程重新定义医疗大语言模型,主动获取缺失信息、执行长程推理并抑制幻觉,解决了现有系统在开放性临床咨询中难以保持循证的问题。
- 该模型引入三阶段训练框架,结合分段流水线强化学习与动态评分标准演化,将优化与临床阶段(询问、检验、诊断)对齐,解耦并整合能力,实现更安全、更系统的决策。
- 百川-M3 在 HealthBench-Hard(44.4)、ScanBench(临床询问 74.9、实验室检测 72.1、诊断 74.4)及幻觉基准测试中达到最先进水平,临床准确性和安全性显著优于 GPT-5.2 和专家基线。
引言
作者利用医疗大语言模型,通过端到端建模医生工作流程,超越被动问答,迈向主动的临床级决策支持。先前系统在开放性咨询中常出现幻觉和推理碎片化问题,常将对话流畅性与诊断严谨性视为独立目标,导致“询问惰性”或表面化回应。百川-M3 通过包含分段流水线强化学习与动态评分标准演化的三阶段训练管道,统一主动信息收集、长程推理和自适应幻觉抑制,实现在 HealthBench、HealthBench-Hallu 和 ScanBench 上的最先进表现,在事实可靠性与临床过程保真度方面均优于 GPT-5.2。
数据集

- 作者使用 ScanBench,这是一个开源数据集,通过三阶段序列(询问 → 实验室检测 → 诊断)模拟真实临床工作流程。
- 数据集包含 12 个科室的 303 个临床案例,涵盖常见专科(如全科医学)和长尾专科(如风湿病学、血液学)。
- 每个案例平均标注 29.23 项检查清单(范围:20–35),总计 8,857 项。这些项目反映临床诊断逻辑:55.8% 关注现病史,19.6% 关注既往病史,14.6% 关注个人/社会史,其余为妇产科史(5.4%)和家族史(4.7%)。
- 检查项目按重要性加权:51.3% 为二级(对诊断或风险排除至关重要),48.7% 为一级(辅助性)。
- 在检验阶段,模型从 38 个不同检验类别中选择,分为常规与生化、影像与功能、病理与专项检验——模拟现实资源约束,要求精准选择检验以避免浪费。
方法
作者利用多阶段、任务专用的训练架构开发百川-M3,这是一款优化长程诊断推理和可信建议生成的医疗大语言模型。核心架构围绕三个渐进训练阶段构建——能力学习、分布融合和策略统一——每个阶段旨在隔离并解决多任务医疗推理中固有的不同优化挑战。
请参阅框架图,其展示了整体训练管道。在第一阶段,作者从共享初始化开始,为不同能力领域(临床询问、医疗咨询、通用推理)部署独立的强化学习(RL)管道。每个领域专家在各自任务特定的奖励信号下优化,允许在无梯度干扰的情况下形成强大的差异化归纳偏置。此阶段产出一组专业教师模型,每个模型在其指定领域表现优异。

第二阶段过渡到离线策略蒸馏。作者冻结教师模型并生成轨迹以构建离线轨迹数据集。学生模型使用 Clip-Forward-KL 目标从该数据中学习,该目标施加单向约束:仅当学生的标记概率低于教师时才应用更新。这防止对稀疏样本过拟合,并在数据支持之外保留熵,使学生能广泛覆盖多个专家分布的高概率区域。该设计缓解模式崩溃,并为最终阶段提供稳定初始化。
在第三阶段,学生模型重新进入在线环境并在混合领域分布上执行轨迹。此时,模型同时受真实任务奖励和多教师先验约束。作者采用反向 KL 正则化,驱动学生在面对冲突建议时选择最优模式,而非平均它们。这将学生从模仿者转变为决策者,实现深度策略统一。该框架支持迭代精炼:统一模型可重新初始化为第一阶段的新教师,实现持续能力增强。
为任务特定优化,作者为临床咨询实施分段管道,将诊断过程分为四个阶段:询问、鉴别诊断(DDX)、实验室检测和最终诊断。如下图所示,训练系统并行调度多个任务槽,每个槽在不同阶段或患者案例上运行。策略生成当前阶段的响应段,然后追加到下一阶段的上下文中。质量门控过渡机制根据阶段特定验证器分数过滤轨迹,确保仅扩展临床有效的链。

为解决长程对话中的信用分配问题,作者引入 SPAR(带相对基线的步惩罚优势)。SPAR 通过将每步交互的惩罚回报与未惩罚组平均值比较,计算步级优势。这将局部惩罚与全局基线解耦,实现对特定步骤的精确奖励和惩罚归因。优势公式诱导隐式课程:早期训练优先纠正关键错误(如冗余),后期阶段在全局奖励方差降低时精炼风格细微差别。
为可信医疗建议,作者实施事实感知强化学习框架。如图所示,系统将模型响应分解为原子声明,然后根据语义显著性加权,并通过多轮搜索代理与权威来源验证。两级缓存系统——精确匹配和语义匹配——将外部搜索请求减少 85%,使 RL 循环中实时验证可行。最终奖励聚合任务效用与动态门控幻觉惩罚,其中惩罚强度由模型的任务奖励表现调节。这确保仅在模型展示足够推理能力后才施加事实约束。

为推理优化,作者集成门控 Eagle-3 推测解码。草稿模型增强门控注意力模块,动态调节来自目标模型隐藏状态的信息流,防止表示不匹配并提高候选接受率。如图所示,门控单元应用逐元素乘法调制注意力输出,强调显著特征同时抑制噪声。该设计比标准 Eagle-3 提高 12% 吞吐量。

此外,作者使用自生成校准方案应用 INT4 量化,确保混合专家架构中的专家覆盖均匀。这缓解校准偏差,并相对于 BF16 模型保持近乎无损性能,支持在资源受限环境中高效部署。
实验
- 百川-M3 在动态临床工作流程和广泛医疗推理任务中优于领先的通用和医疗专用大语言模型及人类医生,展示卓越的端到端诊断能力。
- 在风险分层和鉴别诊断等安全关键领域表现优异,显著超越 AI 模型和人类专家,识别红旗症状和发现隐藏临床线索。
- 随对话长度增加,模型表现持续提升,而通用模型趋于平稳,凸显其上下文感知、迭代临床询问能力。
- 百川-M3 在 HealthBench 上设立新最先进水平,尤其在挑战性案例中,同时保持最低幻觉率,反映推理深度与事实可靠性的强平衡。
- 事实感知 RL 通过将输出与内部知识对齐减少幻觉,在不牺牲推理能力的情况下最小化不忠实错误,有效解耦安全与能力退化。
- SPAR 通过提供步级奖励实现高效、非冗余的多轮咨询,在最大化每轮信息提取的同时保持逻辑连贯性。
- 消融研究证实,Clip-Forward-KL 在不损害现有询问技能的情况下实现更好的医疗专业知识融合,Gated Eagle-3 在不牺牲准确性的前提下提升推理效率。
作者使用事实感知强化学习优化百川-M3,显著降低被反驳和不确定幻觉率,同时保持有竞争力的任务表现。结果表明,该模型在事实准确性与临床推理能力之间的平衡优于其前身和领先通用大语言模型。这表明针对性安全训练可在不降低模型在复杂医疗任务中实用性的情况下缓解幻觉。

作者使用 Clip-Forward-KL 在离线蒸馏期间改进医疗专业知识融合,在 HealthBench 和 HealthBench-Hard 上获得更高分数,同时在 ScanBench 上保持表现。结果表明,Clip-Forward-KL 缓解了标准 Forward-KL 中稀疏样本过度放大的问题,实现更保守和有效的领域知识整合。该方法在增强更广泛医疗推理表现的同时保留现有询问能力。

作者使用 Gated Eagle-3 增强推测解码性能,在 GSM8K、HumanEval、MT-Bench 和 HealthBench 等多个基准测试中实现持续增益。结果表明,与基础 Eagle-3 模型相比,平均接受长度和吞吐量有可测量改进,表明在不牺牲输出质量的情况下更高效的推理。此优化支持在通用和医疗推理任务中更快、更可靠的部署。

作者使用 Gated Eagle-3 增强推测解码,在 GSM8K、HumanEval、MT-Bench 和 HealthBench 等多个基准测试中实现持续性能增益。结果表明,Gated Eagle-3 相比基础 Eagle-3 模型改进了平均接受长度和吞吐量,表明在不牺牲任务准确性的前提下更高效的推理。此优化在通用推理和专业医疗评估场景中均有效。

作者使用监督微调调整较小模型,以在在线强化学习期间高效提取声明,发现 8B 模型相对于 GPT-5 达到 72.80% 的召回率,同时平衡保真度和部署成本。结果表明,更大模型仅提供边际召回增益,32B 变体在更高计算需求下未比 8B 模型提供显著优势。SFT-8B 模型被选为最优提取器,在最小化未被参考基线捕获的独占声明的同时保持高覆盖率。
