标签幻觉抑制下的文章

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

展开列表

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

今天

相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会（报名开启）

01月13日

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

01月13日

无需重新训练，即可学习新任务，Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱

01月13日

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

01月13日

OpenAI的首款硬件：是AI耳机，今年销量要冲5000万

01月13日

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

01月13日

大模型中标TOP10里的黑马：中关村科金的应用攻坚之道

01月13日

刚刚，梁文锋署名开源「记忆」模块，DeepSeek V4更细节了

01月13日

一个模型统一4D世界生成与重建，港科大One4D框架来了

01月13日

端到端智驾的算力困局，九章智算云这样破局

01月12日

真香！刚骂完AI，Linux之父的首个Vibe Coding项目上线

01月12日

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

01月12日

清华等团队用AI驱动百万倍速药物筛选，一天内十万亿次扫描的超高速虚拟平台

01月12日

2026年，大模型训练的下半场属于「强化学习云」

01月12日

顶尖AI竟输给三岁宝宝，BabyVision测试暴露多模态模型硬伤

01月12日

AAAI 2026 Oral｜快手提出全新「检索数据引擎」CroPS，打破搜索信息茧房

01月12日

被Jim Fan点赞！全球第一的千寻智能Spirit v1.5正式开源！

01月12日

Sakana让AI互相「猎杀」，而它们开始了趋同进化

01月11日

不做人形、不跳舞：他家的具身智能凭什么在100+城市卖出400万杯咖啡？

01月11日

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

昨天，百川智能正式开源新一代医疗大模型 Baichuan-M3，其在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一；在专门考验复杂决策能力的 HealthBench Hard 上，也以 44.4 分的成绩夺冠。

这一成绩，不仅刷新了 HealthBench 的最高分，更首次在医疗领域实现了对 GPT-5.2 的全面超越。在 OpenAI 引以为傲的低幻觉领域，M3 也实现了超越，幻觉率 3.5 全球最低。

此外，M3 还首次具备了原生的 “端到端” 严肃问诊能力。它能像医生一样主动追问、逐层逼近，把关键病史和风险信号问出来，进而在完整的信息上进行深度医学推理。评测显示，其问诊能力显著高于真人医生的平均水平。

Hugging Face 地址：https://huggingface.co/baichuan-inc/Baichuan-M3-235B
GitHub 地址：https://github.com/baichuan-inc/Baichuan-M3-235B

医疗沟通和推理能力超越 GPT-5.2，登顶世界第一

2025 年 5 月份，OpenAI 发布 HealthBench，由 262 位来自 60 个国家的医生共同构建，收录了 5000 组高度逼真的多轮医疗对话，构建了全球最权威、也最贴近真实临床场景的医疗评测集。这一事件，被视为 OpenAI 在医疗领域开始 “重兵投入”，吹响进军医疗的号角。

相当长一段时间里，无论是 HealthBench 总分还是 HealthBench-Hard 子集， GPT 系列模型从未被超越。2025 年 8 月，百川开源医疗增强大模型 M2 在 HealthBench 上力压 gpt-oss-120B、DeepSeek-R1 等同期所有开源模型，并在 HealthBench Hard 上取得 34.7 分的成绩，仅次于 GPT-5，成为全球唯二突破 32 分的模型。

2025 年，强化学习无疑是新一代 Scaling Law 的技术中轴。在 M2 发布后的五个月里，百川智能对强化学习系统进行了全面升级，将原本以患者模拟器和静态 Rubric 为主的半动态反馈，升级为随模型能力不断演进的全动态 Verifier System。随着监督信号持续变细、变难，模型得以不断突破能力上限，使 M3 在复杂医学问题上的表现实现跃迁，不仅在 HealthBench 总分上超越 OpenAI 最新模型 GPT-5.2，也在 HealthBench Hard 上登顶，成为当前全球医疗沟通和推理能力最强的医疗大模型。

重构幻觉抑制的训练范式，刷新医疗幻觉率底线

幻觉是这一代大模型技术范式的通病，更是 AI 进入严肃医疗的拦路虎。在大多数场景幻觉只是体验问题，而在严肃医疗场景可导致安全事件。

降低幻觉，一直是 OpenAI 最重视的研究方向之一。几乎每一代 GPT 模型的幻觉率均为行业最低。OpenAI 也是第一个单独评测医疗能力和提供医疗服务的通用模型公司。

国内 DeepSeek 等模型的普及，让越来越多人开始使用 AI 并尝试进行医疗健康咨询。但大多数模型公司并没有把 “降幻觉” 提升到与推理、代码等相同的高度。用这样的模型获取健康咨询和诊疗建议，对 AI 医疗的普及和医患信任建立带来很大困扰。

百川 M3 将医疗幻觉抑制前移至模型训练阶段，在强化学习过程中将医学事实一致性作为核心训练目标之一，将 “知之为知之，不知为不知” 直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为 M3 自身的基础能力，使其在不借助任何外部系统的情况下，依然能够基于自身医学知识进行稳定、可信的作答。

通过将事实一致性约束融入训练流程，M3 重构了幻觉抑制的训练范式，在不依赖工具或检索增强的纯模型设置下，医疗幻觉率 3.5，超越 GPT-5.2，达到全球最低水平。

构建「严肃问诊」新能力，端到端问诊超越真人医生

除了强推理和低幻觉，端到端的问诊能力是本次 M3 最重要的一项突破。2025 年行业的技术共识是，用户提供更完整的上下文，模型才有更好的表现。可在医疗领域，患者很难完整表达自己的病症，需要模型像医生一样有能力把患者的混乱叙述转变成可做诊疗决策的信息。

HealthBench 代表了 OpenAI 对临床场景的认知高度，然而它本质上是一个切片式的评测，考核的更像是 “AI 会不会回答问题”，而不是带着诊疗目标，完整的患者信息收集。这也正说明了行业对问诊重要性和建模思路的理解不足。

应用实践中，通过 prompt “你是一位经验丰富的医生”，激活模型的 “角色扮演” 是更常见的做法。这种方式得到的是模型的表演行为，而非内生能力，激活的是模型应该提问的行为，而不是必须获取关键信息的思考。例如，临床医生面对患者的第一反应，永远是先排除危急重症，再考虑常规诊疗，这是刻在职业本能里的安全优先级。但常见的 “角色扮演” 的问诊方式，无法将 “红旗征识别与处置” 作为核心行动原则。这种不围绕关键风险点展开的信息收集，即便对话看似完整，也难以支撑安全、可靠的临床判断，从根本上偏离了医疗 “安全第一” 的原则。

针对这一行业困境，百川智能提出了 “严肃问诊范式” 与 “SCAN 原则”，通过 Safety Stratification（安全分层）、Clarity Matters（信息澄清）、Association & Inquiry（关联追问）与 Normative Protocol（规范化输出），将临床问诊中高度依赖经验的思维过程，第一次系统性地 “白盒化”。

围绕 SCAN 原则，百川智能借鉴医学教育里长期使用的 OSCE 方法，联合 150 多位一线医生，搭建了 SCAN-bench 评测体系，该体系以真实临床经验作为 “标准答案”，将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段，通过动态、多轮的方式进行考核，完整模拟医生从接诊到确诊的全过程。相比于 HealthBench，SCAN-bench 是更加全流程端到端的动态评测新范式。

同时，百川智能还使用原生模型训练方法取代角色扮演 prompt，针对 GRPO 无法稳定进行长对话训练的问题，设计了新的 SPAR 算法，使模型能够在有限对话轮次中，把临床真正需要的关键问题问全、问准，把风险兜住，让输出经得起复核。

在实验过程中发现，问诊准确度每增加 2%，诊疗结果准确度就会增加 1%。评测结果显示，M3 在 SCAN 的四个维度均显著高于人类医生基线水平，并大幅领先于国内外顶尖模型，成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。

从 1 月初 OpenAI 发布医疗产品 ChatGPT Health，到今天 Anthropic 推出 Claude for Healthcare，AI 医疗正在全球范围内提档加速，竞争也正式进入深水区。在这场竞速中，作为国内唯一专注医疗的大模型企业，百川持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力，已从 “跟随者” 跃迁为行业 “引领者” 与新范式的 “定义者”，正以硬核实力扛起中国 AI 医疗发展的旗帜。

百川智能的医疗应用 “百小应” 已同步接入 M3，面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路，患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。

标签幻觉抑制下的文章