标签 幻觉评估 下的文章

Baichuan-M3 是百川智能的新一代医疗强化大型语言模型,是继 Baichuan-M2 之后的一项重要里程碑。

与以往主要侧重静态问答或表面化角色扮演的方法不同,Baichuan-M3 被训练为显式建模临床决策过程,旨在提高在真实医疗实践中的可用性和可靠性。模型不仅仅生成 “听起来合理” 的答案或诸如 “你应尽快就医” 之类的高频模糊建议,而是被训练为主动获取关键临床信息、构建连贯的医疗推理路径,并系统性地约束易产生幻觉的行为。

核心亮点

  • 超越 GPT-5.2:在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 上均优于 OpenAI 的最新模型,确立了医疗 AI 的新 SOTA(最佳水平)
  • 高保真临床询问:在 SCAN-bench 的三个维度 —— 临床询问、化验检测和诊断 —— 中唯一排名第一的模型
  • 低幻觉、高可靠性:通过 Fact-Aware 强化学习实现比 GPT-5.2 更低的幻觉率,即使在未使用外部工具的情况下也能保持高可靠性

与 Baichuan-M2 相比,Baichuan-M3 在 HealthBench-Hard 上提升了 28 个百分点,达到 44.4%,并且超过了 GPT-5.2。它在 HealthBench 总榜上也排名第一。
在幻觉评估方面,我们将长篇回答拆解为可细化、可验证的原子医学陈述,并将每一条与权威医学证据进行校验。即便在无外部工具的情况下,Baichuan-M3 的幻觉率仍低于 GPT-5.2。

Baichuan-M3 在所有三个核心维度中均排名第一,在 “临床询问” 维度上领先第二名 12.4 个百分点。

体验地址


📌 转载信息
原作者:
BunnHack
转载时间:
2026/1/14 10:57:08