标签幻觉评估下的文章

超越 GPT-5.2！百川智能发布 Baichuan-M3，刷新医疗 AI 评测天花板

时间: 2026-01-14

Baichuan-M3 是百川智能的新一代医疗强化大型语言模型，是继 Baichuan-M2 之后的一项重要里程碑。

与以往主要侧重静态问答或表面化角色扮演的方法不同，Baichuan-M3 被训练为显式建模临床决策过程，旨在提高在真实医疗实践中的可用性和可靠性。模型不仅仅生成 “听起来合理” 的答案或诸如 “你应尽快就医” 之类的高频模糊建议，而是被训练为主动获取关键临床信息、构建连贯的医疗推理路径，并系统性地约束易产生幻觉的行为。

核心亮点

超越 GPT-5.2：在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 上均优于 OpenAI 的最新模型，确立了医疗 AI 的新 SOTA（最佳水平）
高保真临床询问：在 SCAN-bench 的三个维度 —— 临床询问、化验检测和诊断 —— 中唯一排名第一的模型
低幻觉、高可靠性：通过 Fact-Aware 强化学习实现比 GPT-5.2 更低的幻觉率，即使在未使用外部工具的情况下也能保持高可靠性

与 Baichuan-M2 相比，Baichuan-M3 在 HealthBench-Hard 上提升了 28 个百分点，达到 44.4%，并且超过了 GPT-5.2。它在 HealthBench 总榜上也排名第一。
在幻觉评估方面，我们将长篇回答拆解为可细化、可验证的原子医学陈述，并将每一条与权威医学证据进行校验。即便在无外部工具的情况下，Baichuan-M3 的幻觉率仍低于 GPT-5.2。

Baichuan-M3 在所有三个核心维度中均排名第一，在 “临床询问” 维度上领先第二名 12.4 个百分点。

体验地址

📌 转载信息

来源：
https://linux.do/t/topic/1442192

原作者：
BunnHack

转载时间：
2026/1/14 10:57:08

标签幻觉评估下的文章

超越 GPT-5.2！百川智能发布 Baichuan-M3，刷新医疗 AI 评测天花板

最新文章

最近回复

分类

归档

其它

标签 幻觉评估 下的文章

超越 GPT-5.2！百川智能发布 Baichuan-M3，刷新医疗 AI 评测天花板

最新文章

最近回复

分类

归档

其它

标签幻觉评估下的文章