标签医疗大模型下的文章

手握 30 亿、被蚂蚁狂挖人，转型被骂惨的王小川，真的翻身了？

作者: 纯情
时间: 2026-01-15
分类: 资讯
评论

在“大模型六小虎”成为历史后，王小川终于等来了自己的风口。

近日，国内外大厂在医疗领域动作频繁。1 月 8 日，OpenAI 高调入局，除了推出 ChatGPT Health，还收购了医疗保健初创公司 Torch。几乎同期，Anthropic、英伟达、苹果等都有产品和合作发布。国内，蚂蚁阿福自发布后短期内月活用户突破 3000 万，单日提问量超千万。资本市场上，AI 医疗板块逆势走强，成为最近市场热点。

在此前大模型竞争激烈的当口，AI 医疗并不是一个很性感的话题。那种不信任来自百川内外。

2023 年成立的百川在一年后战略收缩，决定聚焦医疗，成为国内较早专注到医疗的大模型创企。但内部“没有足够传达在医疗上的决心和路径要求，没有让每个团队在医疗价值创造中深度思考 why 和 how，进而导致部分团队工作目标出现了摇摆和偏差。”“去年中途转过来时被骂惨了。”

不只内部，业界对 AI 医疗也存有疑虑，连带着对百川的路线选择也有质疑。“2024 年跟医生谈 AI，大家都不信。”王小川直言。

直到 2025 年，大家看到 DeepSeek 真的比百度靠谱很多；年末阿福发布，投了 10 亿来砸广告，看到了技术和应用进展；今年 1 月 8 日，OpenAI Health 正式上线，Anthropic 也发布了自己的两个技术能力：医疗计算和 Agent，两个巨头都开始进入医疗。

“所以，从市场判断来看，医疗作为 AI‘皇冠上的明珠’这样的高级阶段，已经开始进入应用范畴。”王小川说道。

从发布反思信至今 9 个月过去，王小川向 InfoQ 表示，百川如今的护城河主要有三个：一是模型结构的优先级，“医疗安全性”和“诊断准确性”始终是首位；二是切入点选择，百川聚焦严肃、高价的医疗场景，区别于其他企业的健康类打法，这类场景的壁垒更高，且有明确的付费意愿；三是产品形态的差异化，百川身份差异化服务和决策辅助能力，是现有产品不具备的。

王小川尤其提到，大厂和创业公司不一样，他们有职业团队，需要的是更安稳的方案。“大创新靠小厂，小创新靠大厂，必须切入我们认为有高价值的事情，共识不是我们优先的突破点，而大厂更多的是注重共识，路线图和产品形态是不一样的。”

模型要低幻觉、能问诊，多模态非主战场

“去年 8 月发布的 M2 作为百川重新聚焦医疗之后的主力模型，在行业得到很多好评。典型现象就是蚂蚁开始疯狂挖人，从技术人员到财务人员，所以属于小圈子认可技术路线图。”王小川说道。

昨天，百川正式开源了新一代医疗大模型 Baichuan-M3。据百川智能模型技术负责人鞠强介绍，Baichuan 系列采用 SCAN 框架，实现临床医生层级的推理与问诊。其核心在于不仅询问疾病类型，更通过定量问题将模糊主诉转化为可定位、可量化的临床证据；并且突破单一症状的局限，进行跨系统关联推理。

其次，团队高度重视并主动防控大模型在医疗中的“幻觉”，坚持正确知识并进行原子级事实检验：在模型推理过程中进行逐层事实核查，确保结论基于真实输入。

鞠强介绍，在模型训练中，抑制“幻觉”与提升推理能力之间存在明显的“跷跷板效应”，容易陷入两种极端：若过度追求推理表现，其生成内容会更丰富、答对率上升，但幻觉也难以控制；若强力抑制幻觉，模型则会趋向过度保守，回答变得拘谨甚至回避问题，导致实用性下降。这也是团队在 Baichuan-M3 训练中重点攻克的问题。

为破解这一矛盾，研发团队引入了 Fact-aware 强化学习技术。该技术核心在于，在强化训练过程中，既对幻觉进行充分压制，又确保推理能力不受损，反而同步提升。

结果显示，相比前代模型 M2，百川正式开源新一代医疗大模型 Baichuan-M3 的幻觉率大幅下降，同时在医疗专业评测 HealthBench 上的推理能力得分从 34 分显著提升至 44 分，位列榜首。在不依赖工具或检索增强的纯模型设置下，医疗幻觉率 3.5，超越 GPT-5.2。“这验证了我们通过强化学习方法，在抑制幻觉与增强推理之间取得了有效平衡。”鞠强表示。

Hugging Face 地址：https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址：https://github.com/baichuan-inc/Baichuan-M3-235B

另外，模型深度集成的问诊能力，从日常症状中识别风险。团队设计了防御性思维追问，以甄别背后潜在的系统性疾病，还会进行组合症状敏锐识别，比如用户描述“情绪激动时左牙疼”时，模型能会关联“牙痛+情绪症状”，优先建议排查心脏系统问题，从而排除重大隐患，而非直接推荐牙医或止痛药。该能力已集成至产品，服务于医生与普通用户。

在 AI 医疗中，除了文字，还有影像等信息。不过，王小川认为，多模态并非当前 AI 主战场。

他解释道，ChatGPT 之所以令人震撼，正是因为它展现出一种“智力”，而智力的本质，是将具体事物进行抽象的能力，其核心在于符号系统。在这一逻辑下，智能主要依托于三种形式语言：自然语言、数学语言与代码语言。至今，评估一个模型能力的强弱，本质上仍是检验其符号处理与逻辑推理的水平，功能可用并不等同于智力高超。在医疗领域，这一观点尤为关键。医疗的核心是决策，而不仅仅是感知。

实际上，未来医学影像的初步解读可由专用小模型完成，许多厂商也已具备相应的图像引擎。但真正的价值在于：将影像符号化之后，如何用语言模型进行综合推理与判断。因此，感知模型与认知模型必须结合。

他认为，当前的一些工作，比如将 CT 影像转化为报告，或是专注于胰腺癌筛查的视觉模型，固然有其价值，但它们更像是“挂在智力之树上的叶子”，是整体流程中的一环，而非驱动智能演进的主战场。真正的突破，仍在于如何通过符号与语言，构建能够进行复杂医疗决策的认知核心。

“在中国 To C 比 To B 更好”

“未来巨大的增量是在院外，不在院内。”王小川说道。其核心是直接服务患者，而不是通过服务医生间接服务患者。

反观 OpenAI 的入局是靠打造“个人超级助手”，Anthropic 则从合规性与临床效率上做 B 端突围。对此，王小川的评价是：“美国是 To C 和 To B 都可以干，但在中国 To C 比 To B 更好。”

王小川认为，国内的医疗现状是医生供给不足，互联网虽能连接信息却无法创造供给；医患权力不均，双方容易沟通不畅、患者无助；患者更倾向三甲医院，致使基层医疗薄弱；医疗知识分散于各科室，复杂病症往往缺乏整体视角。

基于此，他的设想是 AI 可以“造出高质量医生”，但不是要 AI 取代医生。“在某些维度上，AI 超过医生是必然的，比如信息收集的完整性、医学知识的储备量、循证的精准度等。但 AI 不会取代医生的核心执行能力，比如手术、查体等。”

在不取代医生的情况下，AI 可以推动“权力让渡”，即帮助患者理解病情与方案，获得更多参与权和知情权。另外，居家通过 AI 进行初步咨询，让“居家首诊”可能，减轻医疗系统负担。此外，复杂问题需要跨科室会诊，以前就是入院即入组，即进入某个科研队列，有了 AI 后能够做到“看病即入组”，更有机会做好生命模型。

在实现的产品形态上，百川目前主打还是百小应 App，不过用户进入后可以选择医生和患者两种身份，给出的结果是不一样的：医生版更像 OpenEvidence，答案更加专业、更加强调循证，引用的文章在系统中 100%存在，让其能够做决策、信息够充分；患者版本则强调补充信息，进入启发式端到端的问诊，也给到患者决策能力。

“我们与 OpenEvidence 的区别在于，OpenEvidence 只是服务于医生，百川是可复数、可懂、可决策、可行动、能够服务到患者的，这样的产品定位在全球是独一无二的。”王小川补充道。

在其看来，做 To C 产品，重点是让产品价值触达真正的目标人群，即有严肃医疗需求、愿意为决策辅助付费的患者。他举例称，达摩院做的胰腺癌平扫 CT 模型，虽然技术门槛高，但解决了核心临床痛点，就有明确的付费方；而泛健康类服务看似覆盖广，但价值不突出，反而难以找到稳定的付费用户。百川目前的做法就是基本全覆盖，重点放在儿科、慢病和肿瘤，优先突破有明确痛点的领域。

收费模式上，王小川认为，不是只赚医院或医生的钱，还可以向患者收费，也可以形成服务包，后面的医疗资源和药械以服务包形式收费。

“我倒不担心商业模式本身，确实要过了这个门槛、为用户创造价值，之后不管直接收费还是生态收费都是很容易的事情。”王小川说道。目前，百川账上还有 30 亿人民币，这也留给了王小川证明的时间。

据王小川透露，今年上半年，百川会完成两款产品的发布和推广，核心是回归决策层面，帮助用户（包括患者和医生）做出更好的医疗决策，最终实现“医生时刻陪伴式”的健康管理。“我们第二个产品已经可以当成院外医生来看了。”此外，百川也有计划硬件产品发布和出海计划，具体日程未定。

为了培养用户心智，百川未来也会增加一定的广告宣传投入，另外会重视医生对产品的认可度。“阿福跟我们的路线不一样，老医生都是无感的。我们希望医生和患者一体两面，共享一款产品，要让专家点头，而不只是患者鼓掌。产品做好以后确实能够取得一定的口碑效应。”王小川说道。

“今年上市的两家主要还是踩在通用模型技术红利和政策支持的基础上，但目前他们的市值和商业化能力并不匹配，但 AI 医疗今天也是大模型竞争中的一个范式，虽然它的成熟会晚一点，在后面我们肯定也是奔着上市去的。”王小川给了自己两年的时间再看看。

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力｜

作者: 纯情
时间: 2026-01-14
分类: 开源
评论

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

展开列表

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

今天

相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会（报名开启）

01月13日

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

01月13日

无需重新训练，即可学习新任务，Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱

01月13日

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

01月13日

OpenAI的首款硬件：是AI耳机，今年销量要冲5000万

01月13日

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

01月13日

大模型中标TOP10里的黑马：中关村科金的应用攻坚之道

01月13日

刚刚，梁文锋署名开源「记忆」模块，DeepSeek V4更细节了

01月13日

一个模型统一4D世界生成与重建，港科大One4D框架来了

01月13日

端到端智驾的算力困局，九章智算云这样破局

01月12日

真香！刚骂完AI，Linux之父的首个Vibe Coding项目上线

01月12日

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

01月12日

清华等团队用AI驱动百万倍速药物筛选，一天内十万亿次扫描的超高速虚拟平台

01月12日

2026年，大模型训练的下半场属于「强化学习云」

01月12日

顶尖AI竟输给三岁宝宝，BabyVision测试暴露多模态模型硬伤

01月12日

AAAI 2026 Oral｜快手提出全新「检索数据引擎」CroPS，打破搜索信息茧房

01月12日

被Jim Fan点赞！全球第一的千寻智能Spirit v1.5正式开源！

01月12日

Sakana让AI互相「猎杀」，而它们开始了趋同进化

01月11日

不做人形、不跳舞：他家的具身智能凭什么在100+城市卖出400万杯咖啡？

01月11日

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

昨天，百川智能正式开源新一代医疗大模型 Baichuan-M3，其在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一；在专门考验复杂决策能力的 HealthBench Hard 上，也以 44.4 分的成绩夺冠。

这一成绩，不仅刷新了 HealthBench 的最高分，更首次在医疗领域实现了对 GPT-5.2 的全面超越。在 OpenAI 引以为傲的低幻觉领域，M3 也实现了超越，幻觉率 3.5 全球最低。

此外，M3 还首次具备了原生的 “端到端” 严肃问诊能力。它能像医生一样主动追问、逐层逼近，把关键病史和风险信号问出来，进而在完整的信息上进行深度医学推理。评测显示，其问诊能力显著高于真人医生的平均水平。

Hugging Face 地址：https://huggingface.co/baichuan-inc/Baichuan-M3-235B
GitHub 地址：https://github.com/baichuan-inc/Baichuan-M3-235B

医疗沟通和推理能力超越 GPT-5.2，登顶世界第一

2025 年 5 月份，OpenAI 发布 HealthBench，由 262 位来自 60 个国家的医生共同构建，收录了 5000 组高度逼真的多轮医疗对话，构建了全球最权威、也最贴近真实临床场景的医疗评测集。这一事件，被视为 OpenAI 在医疗领域开始 “重兵投入”，吹响进军医疗的号角。

相当长一段时间里，无论是 HealthBench 总分还是 HealthBench-Hard 子集， GPT 系列模型从未被超越。2025 年 8 月，百川开源医疗增强大模型 M2 在 HealthBench 上力压 gpt-oss-120B、DeepSeek-R1 等同期所有开源模型，并在 HealthBench Hard 上取得 34.7 分的成绩，仅次于 GPT-5，成为全球唯二突破 32 分的模型。

2025 年，强化学习无疑是新一代 Scaling Law 的技术中轴。在 M2 发布后的五个月里，百川智能对强化学习系统进行了全面升级，将原本以患者模拟器和静态 Rubric 为主的半动态反馈，升级为随模型能力不断演进的全动态 Verifier System。随着监督信号持续变细、变难，模型得以不断突破能力上限，使 M3 在复杂医学问题上的表现实现跃迁，不仅在 HealthBench 总分上超越 OpenAI 最新模型 GPT-5.2，也在 HealthBench Hard 上登顶，成为当前全球医疗沟通和推理能力最强的医疗大模型。

重构幻觉抑制的训练范式，刷新医疗幻觉率底线

幻觉是这一代大模型技术范式的通病，更是 AI 进入严肃医疗的拦路虎。在大多数场景幻觉只是体验问题，而在严肃医疗场景可导致安全事件。

降低幻觉，一直是 OpenAI 最重视的研究方向之一。几乎每一代 GPT 模型的幻觉率均为行业最低。OpenAI 也是第一个单独评测医疗能力和提供医疗服务的通用模型公司。

国内 DeepSeek 等模型的普及，让越来越多人开始使用 AI 并尝试进行医疗健康咨询。但大多数模型公司并没有把 “降幻觉” 提升到与推理、代码等相同的高度。用这样的模型获取健康咨询和诊疗建议，对 AI 医疗的普及和医患信任建立带来很大困扰。

百川 M3 将医疗幻觉抑制前移至模型训练阶段，在强化学习过程中将医学事实一致性作为核心训练目标之一，将 “知之为知之，不知为不知” 直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为 M3 自身的基础能力，使其在不借助任何外部系统的情况下，依然能够基于自身医学知识进行稳定、可信的作答。

通过将事实一致性约束融入训练流程，M3 重构了幻觉抑制的训练范式，在不依赖工具或检索增强的纯模型设置下，医疗幻觉率 3.5，超越 GPT-5.2，达到全球最低水平。

构建「严肃问诊」新能力，端到端问诊超越真人医生

除了强推理和低幻觉，端到端的问诊能力是本次 M3 最重要的一项突破。2025 年行业的技术共识是，用户提供更完整的上下文，模型才有更好的表现。可在医疗领域，患者很难完整表达自己的病症，需要模型像医生一样有能力把患者的混乱叙述转变成可做诊疗决策的信息。

HealthBench 代表了 OpenAI 对临床场景的认知高度，然而它本质上是一个切片式的评测，考核的更像是 “AI 会不会回答问题”，而不是带着诊疗目标，完整的患者信息收集。这也正说明了行业对问诊重要性和建模思路的理解不足。

应用实践中，通过 prompt “你是一位经验丰富的医生”，激活模型的 “角色扮演” 是更常见的做法。这种方式得到的是模型的表演行为，而非内生能力，激活的是模型应该提问的行为，而不是必须获取关键信息的思考。例如，临床医生面对患者的第一反应，永远是先排除危急重症，再考虑常规诊疗，这是刻在职业本能里的安全优先级。但常见的 “角色扮演” 的问诊方式，无法将 “红旗征识别与处置” 作为核心行动原则。这种不围绕关键风险点展开的信息收集，即便对话看似完整，也难以支撑安全、可靠的临床判断，从根本上偏离了医疗 “安全第一” 的原则。

针对这一行业困境，百川智能提出了 “严肃问诊范式” 与 “SCAN 原则”，通过 Safety Stratification（安全分层）、Clarity Matters（信息澄清）、Association & Inquiry（关联追问）与 Normative Protocol（规范化输出），将临床问诊中高度依赖经验的思维过程，第一次系统性地 “白盒化”。

围绕 SCAN 原则，百川智能借鉴医学教育里长期使用的 OSCE 方法，联合 150 多位一线医生，搭建了 SCAN-bench 评测体系，该体系以真实临床经验作为 “标准答案”，将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段，通过动态、多轮的方式进行考核，完整模拟医生从接诊到确诊的全过程。相比于 HealthBench，SCAN-bench 是更加全流程端到端的动态评测新范式。

同时，百川智能还使用原生模型训练方法取代角色扮演 prompt，针对 GRPO 无法稳定进行长对话训练的问题，设计了新的 SPAR 算法，使模型能够在有限对话轮次中，把临床真正需要的关键问题问全、问准，把风险兜住，让输出经得起复核。

在实验过程中发现，问诊准确度每增加 2%，诊疗结果准确度就会增加 1%。评测结果显示，M3 在 SCAN 的四个维度均显著高于人类医生基线水平，并大幅领先于国内外顶尖模型，成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。

从 1 月初 OpenAI 发布医疗产品 ChatGPT Health，到今天 Anthropic 推出 Claude for Healthcare，AI 医疗正在全球范围内提档加速，竞争也正式进入深水区。在这场竞速中，作为国内唯一专注医疗的大模型企业，百川持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力，已从 “跟随者” 跃迁为行业 “引领者” 与新范式的 “定义者”，正以硬核实力扛起中国 AI 医疗发展的旗帜。

百川智能的医疗应用 “百小应” 已同步接入 M3，面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路，患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。