标签 Baichuan-M3 下的文章

本周AI领域迎来密集进展,大模型在动漫生图(Niji V7)、端侧智能(AgentCPM-Explore)、医疗(Baichuan-M3)、多模态生图(GLM-Image)、视频生成(Veo 3.1、PixVerse R1)及机器人(1X World Model、LimX COSA)等垂直场景实现性能突破与场景适配;AI工具则聚焦电商、办公、音频处理等高频需求推出,Google UCP、Claude Cowork、Voice-Pro等高效解决方案,技术则在药物研发(DrugCLIP)、大模型部署(Engram模块)、生物研究(Stack模型)等领域实现跨学科赋能,一起来回顾本周的AI新鲜事儿吧!

AI 大模型

Midjourney联合推出动漫风格AI生图模型「Niji V7」

1月9日,Midjourney联合推出动漫风格AI生图模型「Niji V7」,核心更新包括图像质量提升(连贯性增强、细节如眼睛反射、花瓣更清晰,实现“高清升级”)、提示词遵循能力强化(精准理解位置/数量等具体请求,sref风格参考功能向前兼容,cref角色参考暂不支持)、设计美学突破(线条可传达更多形体质感信息,支持简约风格留白,线条与空间结合呈现更平面化效果),且个性化与情绪板功能即将上线。实测线条流畅、细节优化,但复杂场景和中式风格仍有不足。

OpenBMB开源社区联合发布4B「AgentCPM-Explore」端侧智能体模型

1月13日,OpenBMB开源社区联合清华大学自然语言处理实验室、中国人民大学及面壁智能发布4B参数的「AgentCPM-Explore」端侧智能体模型,是首个支持GAIA、Xbench等8个长难智能体任务的4B模型,可实现100+轮稳定环境交互,在主流评测基准上取得同尺寸SOTA表现,越级赶超8B级模型、比肩部分30B级以上及「Claude-4.5-Sonnet」等闭源大模型,还展现出“质疑”“求真”等类人思考逻辑,通过模型融合、信号去噪、信息精炼三大技术破解小模型训练难题,全流程开源AgentDock工具沙盒平台、AgentRL强化学习框架与AgentToLeaP一键测评平台支持复现与扩展。

Arc研究所开源单细胞基础模型「Stack」与「Perturb Sapiens」图谱

1月13日,Arc研究所宣布开源首个无需重新训练即可学习新任务的单细胞基础模型「Stack」及预测性细胞反应全景图谱「Perturb Sapiens」,「Stack」基于1.49亿个人类单细胞数据预训练、5500万个细胞后训练,通过表格化Transformer模块、基因模块表征符的架构创新及上下文学习的训练策略创新,能以细胞为“提示”预测目标细胞群在全新环境中的反应,在零样本下游任务中表现优于基线模型和现有方案;「Perturb Sapiens」则依托其能力生成约20000个“细胞类型-组织-扰动”预测组合,填补了相关实验空白,模型及图谱均已开源。

百川智能发布开源新一代医疗大模型「Baichuan-M3」,医疗幻觉率降至3.5

1月13日,百川智能正式开源新一代医疗大模型「Baichuan-M3」,在全球权威医疗AI评测HealthBench等多项权威评测中全面超越「GPT-5.2」,且以3.5的全球最低幻觉率刷新行业底线(通过将医学事实一致性融入训练实现)。该模型创新提出“严肃问诊范式”与SCAN原则,借助SPAR算法和SCAN-bench全流程动态评测体系,具备原生端到端严肃问诊能力,在安全分层、信息澄清等四大维度显著高于真人医生平均水平,同时其医疗应用「百小应」已同步接入该模型向医生与患者开放。

美团龙猫LongCat升级全新稀疏注意力机制「LoZA」,解码快10倍

1月13日消息,美团龙猫LongCat系列升级全新稀疏注意力机制「LoZA」(LongCat ZigZag Attention),通过给MLA模块配可学习权重α筛选50%低重要性模块替换为线性复杂度的SSA,形成ZigZag交错结构并设计1024 Token稀疏窗口,在中期训练阶段即可完成改造,使模型上下文窗口从256K扩展至1M,128K文本解码速度快10倍、256K预加载提速50%且解码省30%算力,日常任务性能持平原版,长文本任务表现更优,还计划支持动态稀疏比例及多模态长内容处理。

1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」

1月13日,1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」,相关内容浏览量超500万次。该模型基于视频预训练技术,通过“世界模型主干(文本条件扩散模型,经互联网视频预训练、人类第一视角中期训练、NEO专属微调)+逆动力学模型IDM”两阶段对齐,无需大规模机器人数据即可泛化到全新物体、动作与任务,能通过生成“成功完成任务”的视频倒推动作轨迹,支持抓取、双手协调、人机交互等任务且保持稳定成功率。

智谱与华为联合开源首个基于国产芯片训练的SOTA生图模型「GLM-Image」

1月14日,智谱与华为联合发布中国首个全程基于国产华为Ascend A2芯片及昇思MindSpore框架训练的SOTA多模态生图模型「GLM-Image」,采用“9B自回归模型+7B DiT扩散解码器”混合架构,擅长文字精准渲染,拿下CVTG-2K和LongText-Bench双榜单开源第一,原生支持1024x1024至2048x2048任意尺寸,API调用仅0.1元/张,可适配小红书封面、商业海报等多场景,已开源并提供多个平台接入地址,印证了国产算力底座支撑前沿模型训练的能力。

Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频

1月14日,Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频(适配YouTube Shorts等移动端平台,无需裁剪)并新增4K分辨率,同时提升创意能力(简单提示词可生成小剧场)、强化角色与背景物体一致性(跨场景保持元素完整)、改善元素融合能力(无缝组合多图元素),普通用户可通过YouTube Shorts、Gemini等体验,企业用户可借助Flow、Gemini API等使用;Google依托YouTube的平台、流量与生态优势,形成“创作-分发-反馈-优化”正向循环,而AI视频竖屏化已成趋势,OpenAI、迪士尼及国内可灵AI等均有相关布局。

爱诗科技发布全球首个通用实时世界模型「PixVerse R1」

1月14日,爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型「PixVerse R1」,区别于传统AI视频的高延迟、固定时长与单向生成,凭借Omni原生多模态模型(统一多模态为连续Token流)、自回归流式生成机制(支持无限时长与长时序一致性)、瞬时响应引擎IRE(采样步骤1-4步,效率提升数百倍)三大技术创新,实现瞬时响应、实时共创,支持多模态交互与最高1080P输出,开启视频即交互、世界可共创的新范式,适用于游戏、电影、直播等场景。

生数科技Vidu AI开放平台发布「一键生成AI MV」功能

1月14日,生数科技Vidu AI开放平台发布「一键生成AI MV」功能,依托深度协同的多智能体系统,用户仅需提交音乐、1-7张参考图及文本指令,即可全自动实现分钟级输出(适配10-300 S主流流媒体时长),通过攻克角色与风格一致性、歌词驱动叙事、帧级音画融合等行业痛点,解决了传统“手工作坊”模式的效率与质量瓶颈,大幅降低创作门槛、压缩成本(刊例价为同行业50%),推动音乐视觉内容叙事权从主流机构向个体创作者转移,定义了AI原生MV的质量基线,重塑音乐产业生产与消费范式。

AI 工具

Google发布专为AI智能体设计的通用商业协议「UCP」及「Gemini CX」

1月12日,Google官宣发布Agentic电商解决方案,包括专为AI智能体设计的通用商业协议「UCP」(Universal Commerce Protocol)及企业端的「Gemini CX」(Gemini Enterprise for Customer Experience)。「UCP」接入Shopify、沃尔玛等伙伴,贯穿商品发现到售后全流程;「Gemini CX」具备复杂推理、多模态交互、执行授权操作能力,可覆盖客户服务全生命周期,已落地麦当劳等企业;国内阿里、1688、京东、抖音也纷纷推出电商相关AI工具与功能。

Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」

1月13日,Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」,核心定位是从“对话助手”转变为能理解任务、制定计划并持续执行的“数字同事”,支持用户授权访问指定本地文件进行分类、信息提取、报告整理等非编码工作,还具备内置虚拟机隔离、浏览器自动化支持等创新体验与安全功能。目前以研究预览版形式面向macOS平台的Claude Max订阅用户开放,后续计划加入跨设备同步、Windows版本及强化安全机制。

夸克AI浏览器上线千问划词「快捷指令」功能,划选即调用告别复制粘贴

1月13日,夸克AI浏览器上线千问划词「快捷指令」功能,用户只需三步(开启划词工具栏、添加自定义指令并命名保存)即可完成设置,浏览网页或文档时划选内容便能一键调用AI指令,无需复制粘贴,该功能提供了学术润色、种草文案撰写、情侣聊天支招、内容创作润色、代码优化、外语翻译、职场黑话解读等多场景指令模板,助力提升各类场景下的使用效率。

5.6K Star开源神器「Voice-Pro」,免费本地实现视频翻译+声音克隆

1月13日消息,GitHub上5.6K Star的开源工具「Voice-Pro」原是韩国创业团队的付费软件,现因新项目开发停止维护并完全开源,它整合WhisperX、F5-TTS等先进语音模型,在Windows等主流PC平台实现“视频下载-人声分离-字幕识别-文本翻译-声音克隆配音-视频合成”一站式本地运行,支持100多种语言处理、零样本语音克隆,无需代码,通过脚本即可轻松安装,免费无字符限制且不上传云端,是ElevenLabs等商业工具的优质替代方案,适配视频创作者和出海玩家需求。

Vercel Labs开源AI Agents浏览器自动化CLI工具「Agent-browser」

1月14日,Vercel Labs发布开源AI Agents浏览器自动化CLI工具「Agent-browser」,发布两天即获3.4k GitHub星,相比传统Playwright MCP可节省93%上下文,其中外层基于Rust编写,通过返回清洗后的可访问性树并为可交互元素打标签(Ref),让AI以简单指令精准操控浏览器,零配置且支持无头/有头模式,兼容多款AI工具,能降低Token消耗、提升AI注意力与稳定性,安装仅需两步命令。

技术突破

清华团队研发的AI药物虚拟筛选平台「DrugCLIP」登上Science

1月9日,清华大学联合团队研发的AI药物虚拟筛选平台「DrugCLIP」相关成果发表于《Science》,其通过语义检索技术实现筛选速度较传统方法提升百万倍,首次完成人类基因组规模虚拟筛选,实验验证对NET、TRIP12等靶点的筛选有效性,构建全球最大蛋白-配体筛选数据库并免费开放,配套服务平台已服务千余名用户,未来将助力抗癌、罕见病等领域新药研发。

逐际动力发布全球首个具身智能体系统「LimX COSA」

1月12日,逐际动力在深圳正式发布具身智能体系统「LimX COSA」,这是面向物理世界原生、深度融合高阶认知与全身运控的Agentic OS,采用自底向上的小脑基础模型、大小脑融合高阶技能层、自主认知决策层三层结构,赋予全尺寸人形机器人Oli高阶认知推理、语义记忆与主动感知、实时感知全身移动操作三大核心能力,实现“能想能动、知行合一”,标志着具身智能从Demo迈向产品落地,推动多领域的广泛应用。

DeepSeek V4核心技术「Engram」曝光:CPU替GPU存参,性能与降本双突破

1月13日,DeepSeek联合北京大学发布新论文,曝光「DeepSeek-V4」核心技术「Engram模块」,该模块基于N-gram改造,通过哈希函数映射与门控机制快速检索静态知识,以CPU内存替代GPU显存存储大规模参数(推理损耗<3%),相关模型在知识、推理、代码、长文本任务上显著优于现有模型,印证V4性能突破,降低超大规模模型部署成本。

在“大模型六小虎”成为历史后,王小川终于等来了自己的风口。

 

近日,国内外大厂在医疗领域动作频繁。1 月 8 日,OpenAI 高调入局,除了推出 ChatGPT Health,还收购了医疗保健初创公司 Torch。几乎同期,Anthropic、英伟达、苹果等都有产品和合作发布。国内,蚂蚁阿福自发布后短期内月活用户突破 3000 万,单日提问量超千万。资本市场上,AI 医疗板块逆势走强,成为最近市场热点。

 

在此前大模型竞争激烈的当口,AI 医疗并不是一个很性感的话题。那种不信任来自百川内外。

 

2023 年成立的百川在一年后战略收缩,决定聚焦医疗,成为国内较早专注到医疗的大模型创企。但内部“没有足够传达在医疗上的决心和路径要求,没有让每个团队在医疗价值创造中深度思考 why 和 how,进而导致部分团队工作目标出现了摇摆和偏差。”“去年中途转过来时被骂惨了。”

 

不只内部,业界对 AI 医疗也存有疑虑,连带着对百川的路线选择也有质疑。“2024 年跟医生谈 AI,大家都不信。”王小川直言。

 

直到 2025 年,大家看到 DeepSeek 真的比百度靠谱很多;年末阿福发布,投了 10 亿来砸广告,看到了技术和应用进展;今年 1 月 8 日,OpenAI Health 正式上线,Anthropic 也发布了自己的两个技术能力:医疗计算和 Agent,两个巨头都开始进入医疗。

 

“所以,从市场判断来看,医疗作为 AI‘皇冠上的明珠’这样的高级阶段,已经开始进入应用范畴。”王小川说道。

 

从发布反思信至今 9 个月过去,王小川向 InfoQ 表示,百川如今的护城河主要有三个:一是模型结构的优先级,“医疗安全性”和“诊断准确性”始终是首位;二是切入点选择,百川聚焦严肃、高价的医疗场景,区别于其他企业的健康类打法,这类场景的壁垒更高,且有明确的付费意愿;三是产品形态的差异化,百川身份差异化服务和决策辅助能力,是现有产品不具备的。

 

王小川尤其提到,大厂和创业公司不一样,他们有职业团队,需要的是更安稳的方案。“大创新靠小厂,小创新靠大厂,必须切入我们认为有高价值的事情,共识不是我们优先的突破点,而大厂更多的是注重共识,路线图和产品形态是不一样的。”

 

模型要低幻觉、能问诊,多模态非主战场

 

“去年 8 月发布的 M2 作为百川重新聚焦医疗之后的主力模型,在行业得到很多好评。典型现象就是蚂蚁开始疯狂挖人,从技术人员到财务人员,所以属于小圈子认可技术路线图。”王小川说道。

 

昨天,百川正式开源了新一代医疗大模型 Baichuan-M3。据百川智能模型技术负责人鞠强介绍,Baichuan 系列采用 SCAN 框架,实现临床医生层级的推理与问诊。其核心在于不仅询问疾病类型,更通过定量问题将模糊主诉转化为可定位、可量化的临床证据;并且突破单一症状的局限,进行跨系统关联推理。

 

其次,团队高度重视并主动防控大模型在医疗中的“幻觉”,坚持正确知识并进行原子级事实检验:在模型推理过程中进行逐层事实核查,确保结论基于真实输入。

 

鞠强介绍,在模型训练中,抑制“幻觉”与提升推理能力之间存在明显的“跷跷板效应”,容易陷入两种极端:若过度追求推理表现,其生成内容会更丰富、答对率上升,但幻觉也难以控制;若强力抑制幻觉,模型则会趋向过度保守,回答变得拘谨甚至回避问题,导致实用性下降。这也是团队在 Baichuan-M3 训练中重点攻克的问题。

 

为破解这一矛盾,研发团队引入了 Fact-aware 强化学习技术。该技术核心在于,在强化训练过程中,既对幻觉进行充分压制,又确保推理能力不受损,反而同步提升。

 

结果显示,相比前代模型 M2,百川正式开源新一代医疗大模型 Baichuan-M3 的幻觉率大幅下降,同时在医疗专业评测 HealthBench 上的推理能力得分从 34 分显著提升至 44 分,位列榜首。在不依赖工具或检索增强的纯模型设置下,医疗幻觉率 3.5,超越 GPT-5.2。“这验证了我们通过强化学习方法,在抑制幻觉与增强推理之间取得了有效平衡。”鞠强表示。

 

Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B

 

另外,模型深度集成的问诊能力,从日常症状中识别风险。团队设计了防御性思维追问,以甄别背后潜在的系统性疾病,还会进行组合症状敏锐识别,比如用户描述“情绪激动时左牙疼”时,模型能会关联“牙痛+情绪症状”,优先建议排查心脏系统问题,从而排除重大隐患,而非直接推荐牙医或止痛药。该能力已集成至产品,服务于医生与普通用户。

 

在 AI 医疗中,除了文字,还有影像等信息。不过,王小川认为,多模态并非当前 AI 主战场。

 

他解释道,ChatGPT 之所以令人震撼,正是因为它展现出一种“智力”,而智力的本质,是将具体事物进行抽象的能力,其核心在于符号系统。在这一逻辑下,智能主要依托于三种形式语言:自然语言、数学语言与代码语言。至今,评估一个模型能力的强弱,本质上仍是检验其符号处理与逻辑推理的水平,功能可用并不等同于智力高超。在医疗领域,这一观点尤为关键。医疗的核心是决策,而不仅仅是感知。

 

实际上,未来医学影像的初步解读可由专用小模型完成,许多厂商也已具备相应的图像引擎。但真正的价值在于:将影像符号化之后,如何用语言模型进行综合推理与判断。因此,感知模型与认知模型必须结合。

 

他认为,当前的一些工作,比如将 CT 影像转化为报告,或是专注于胰腺癌筛查的视觉模型,固然有其价值,但它们更像是“挂在智力之树上的叶子”,是整体流程中的一环,而非驱动智能演进的主战场。真正的突破,仍在于如何通过符号与语言,构建能够进行复杂医疗决策的认知核心。

 

“在中国 To C 比 To B 更好”

 

“未来巨大的增量是在院外,不在院内。”王小川说道。其核心是直接服务患者,而不是通过服务医生间接服务患者。

 

反观 OpenAI 的入局是靠打造“个人超级助手”,Anthropic 则从合规性与临床效率上做 B 端突围。对此,王小川的评价是:“美国是 To C 和 To B 都可以干,但在中国 To C 比 To B 更好。”

 

王小川认为,国内的医疗现状是医生供给不足,互联网虽能连接信息却无法创造供给;医患权力不均,双方容易沟通不畅、患者无助;患者更倾向三甲医院,致使基层医疗薄弱;医疗知识分散于各科室,复杂病症往往缺乏整体视角。

 

基于此,他的设想是 AI 可以“造出高质量医生”,但不是要 AI 取代医生。“在某些维度上,AI 超过医生是必然的,比如信息收集的完整性、医学知识的储备量、循证的精准度等。但 AI 不会取代医生的核心执行能力,比如手术、查体等。”

 

在不取代医生的情况下,AI 可以推动“权力让渡”,即帮助患者理解病情与方案,获得更多参与权和知情权。另外,居家通过 AI 进行初步咨询,让“居家首诊”可能,减轻医疗系统负担。此外,复杂问题需要跨科室会诊,以前就是入院即入组,即进入某个科研队列,有了 AI 后能够做到“看病即入组”,更有机会做好生命模型。

 

在实现的产品形态上,百川目前主打还是百小应 App,不过用户进入后可以选择医生和患者两种身份,给出的结果是不一样的:医生版更像 OpenEvidence,答案更加专业、更加强调循证,引用的文章在系统中 100%存在,让其能够做决策、信息够充分;患者版本则强调补充信息,进入启发式端到端的问诊,也给到患者决策能力。

 

“我们与 OpenEvidence 的区别在于,OpenEvidence 只是服务于医生,百川是可复数、可懂、可决策、可行动、能够服务到患者的,这样的产品定位在全球是独一无二的。”王小川补充道。

 

在其看来,做 To C 产品,重点是让产品价值触达真正的目标人群,即有严肃医疗需求、愿意为决策辅助付费的患者。他举例称,达摩院做的胰腺癌平扫 CT 模型,虽然技术门槛高,但解决了核心临床痛点,就有明确的付费方;而泛健康类服务看似覆盖广,但价值不突出,反而难以找到稳定的付费用户。百川目前的做法就是基本全覆盖,重点放在儿科、慢病和肿瘤,优先突破有明确痛点的领域。

 

收费模式上,王小川认为,不是只赚医院或医生的钱,还可以向患者收费,也可以形成服务包,后面的医疗资源和药械以服务包形式收费。

 

“我倒不担心商业模式本身,确实要过了这个门槛、为用户创造价值,之后不管直接收费还是生态收费都是很容易的事情。”王小川说道。目前,百川账上还有 30 亿人民币,这也留给了王小川证明的时间。

 

据王小川透露,今年上半年,百川会完成两款产品的发布和推广,核心是回归决策层面,帮助用户(包括患者和医生)做出更好的医疗决策,最终实现“医生时刻陪伴式”的健康管理。“我们第二个产品已经可以当成院外医生来看了。”此外,百川也有计划硬件产品发布和出海计划,具体日程未定。

 

为了培养用户心智,百川未来也会增加一定的广告宣传投入,另外会重视医生对产品的认可度。“阿福跟我们的路线不一样,老医生都是无感的。我们希望医生和患者一体两面,共享一款产品,要让专家点头,而不只是患者鼓掌。产品做好以后确实能够取得一定的口碑效应。”王小川说道。

 

“今年上市的两家主要还是踩在通用模型技术红利和政策支持的基础上,但目前他们的市值和商业化能力并不匹配,但 AI 医疗今天也是大模型竞争中的一个范式,虽然它的成熟会晚一点,在后面我们肯定也是奔着上市去的。”王小川给了自己两年的时间再看看。

Baichuan-M3 是百川智能的新一代医疗强化大型语言模型,是继 Baichuan-M2 之后的一项重要里程碑。

与以往主要侧重静态问答或表面化角色扮演的方法不同,Baichuan-M3 被训练为显式建模临床决策过程,旨在提高在真实医疗实践中的可用性和可靠性。模型不仅仅生成 “听起来合理” 的答案或诸如 “你应尽快就医” 之类的高频模糊建议,而是被训练为主动获取关键临床信息、构建连贯的医疗推理路径,并系统性地约束易产生幻觉的行为。

核心亮点

  • 超越 GPT-5.2:在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 上均优于 OpenAI 的最新模型,确立了医疗 AI 的新 SOTA(最佳水平)
  • 高保真临床询问:在 SCAN-bench 的三个维度 —— 临床询问、化验检测和诊断 —— 中唯一排名第一的模型
  • 低幻觉、高可靠性:通过 Fact-Aware 强化学习实现比 GPT-5.2 更低的幻觉率,即使在未使用外部工具的情况下也能保持高可靠性

与 Baichuan-M2 相比,Baichuan-M3 在 HealthBench-Hard 上提升了 28 个百分点,达到 44.4%,并且超过了 GPT-5.2。它在 HealthBench 总榜上也排名第一。
在幻觉评估方面,我们将长篇回答拆解为可细化、可验证的原子医学陈述,并将每一条与权威医学证据进行校验。即便在无外部工具的情况下,Baichuan-M3 的幻觉率仍低于 GPT-5.2。

Baichuan-M3 在所有三个核心维度中均排名第一,在 “临床询问” 维度上领先第二名 12.4 个百分点。

体验地址


📌 转载信息
原作者:
BunnHack
转载时间:
2026/1/14 10:57:08