标签 稀疏注意力 下的文章

面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

0%
icon展开列表
面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破
今天
img
神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网
今天
img
美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
今天
img
失去三个联创后,Mira公司危机持续:又有两人要出走
今天
img
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
今天
img
支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT
今天
img
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
今天
img
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
今天
img
DeepSeek连发两篇论文背后,原来藏着一场学术接力
今天
img
仅需一个混频器的无线射频机器学习推理,登上Science Advances!
今天
img
国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
01月15日
img
联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
01月15日
img
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
01月15日
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
01月15日
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
01月15日
img
刚刚,喝到了千问APP给我点的奶茶
01月15日
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
01月15日
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
01月15日
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
01月15日
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
01月15日
img

面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

图片
作者团队丨上海科学智能研究院、复旦大学团队
编辑丨ScienceAI

在心血管疾病诊断中,心电图(Electrocardiogram, ECG)是无可替代的基础工具,其中 12 导联心电图是临床使用的金标准。作为观察心脏电活动的“视角”,导联是由一正一负两个电极构成的一个记录电路,12 导联心电图即是通过体表 10 个电极组合构建出 12 个独特的电信号“视角”,同步捕捉心脏的电活动,形成一套多维度的波形图谱。

然而,面对海量的心电图数据,现有基于自监督学习的分析方法尽管提供了无需大规模标注数据的解决方案,其局限仍非常明显:它们往往未能充分建模心脏传导过程中细微的个体心搏差异,也缺乏与临床“从心搏到导联,再从导联到整体”的递进诊断逻辑相对齐的推理结构,导致在复杂病例诊断中表现受限。

为此,上海科学智能研究院(下称上智院)与复旦大学联合提出了 CLEAR-HUG 双阶段框架。该框架从心电图信号的生理本质出发,在预训练阶段显式建模心脏传导特征,并在诊断阶段紧密贴合临床判读的层级思维,实现了从信号表征到诊断推理的全流程优化。实验表明,该方法在六个权威公开数据集上平均性能提升达 6.84%,为开发高性能、可解释的 AI 辅助心电图诊断工具开辟了新路径。

图片

论文链接:https://arxiv.org/pdf/2512.24002

该研究成果已被 AAAI 2026 接收。研究项目由星河启智科学智能开放平台和复旦大学 CFFF 智算平台提供技术和算力支持。

星河启智平台链接:https://aistudio.ai4s.com.cn

现有方法的两大局限

既往的心电图自监督学习(electrocardiogram self-supervised learning, eSSL)方法虽取得一定进展,但存在两个面向临床的关键短板:

一是忽视个体差异。

现有方法学会了看“大概”和“通常”,却难以识别那些“例外”与“异常”,而后者往往是临床诊断中更需要关注的信号。具体来说,现有方法主要让模型学习心电图信号中重复出现和普遍存在的模式——比如不同导联之间波形的同步性,或连续心搏间的形态相似性,却忽略了一个生理事实:每个心搏的传导路径存在自然的细微差异,而不同导联观察的解剖角度也本就不同。这些细节往往承载着重要的生理与病理信息,例如,一个偶发的、形态异常的室性早搏,在标准心电图中看起来就“很不合群”,但这恰恰是临床诊断需要捕捉的关键线索。

二是脱离临床逻辑。

为确保诊断的精确性和全面性,心电图临床诊断通常遵循“心搏→单导联→多导联组合”的层级流程:医生首先观察单个心搏的形态细节,判断其是否异常;然后在一个特定的导联上,分析连续心搏的节律和模式,确认异常是否持续存在;最后,综合所有 12 个导联的信息,像拼图一样将不同导联的发现进行组合与空间对应,从而精确定位心脏的病变部位并做出最终诊断。但是,现有模型在下游任务中常忽视这一递进式诊断逻辑,导致特征提取与诊断需求脱节。

为解决这些问题,研究团队从心脏传导机制和临床诊断规范双重视角出发,构建了 CLEAR-HUG 框架,实现从信号表征到诊断推理的全流程优化。该框架与人类专家的知识体系对齐,使得医生不仅能够获知“诊断结果是什么”,更能理解“模型为何做出该诊断”,从而推动心电图AI分析更加可解释。

图片

图示:心脏传导机制。

CLEAR-HUG 的双阶段创新设计

CLEAR-HUG 框架包含预训练和微调两个阶段,分别对应特征学习与诊断适配,形成完整的技术闭环。

第一阶段,团队设计了名为“传导-导联重构器”(Conduction-LEAd Reconstructor, CLEAR)的自监督模型,该模型能同时捕捉心跳的特异性变异与普遍共性。通过将每个心搏视为独特实体,该模型采用简洁高效的稀疏注意力机制,在排除其他心搏干扰的情况下重构信号。

第二阶段,团队构建了“分层导联统一分组头”(Hierarchical lead-Unified Group head, HUG头)诊断模块,模拟临床诊断流程。

图片

图示:双阶段训练

1.CLEAR 预训练,捕捉传导级细微特征

预训练阶段的核心是 CLEAR 模型,通过传导引导和视角引导的双重信息学习,精准重建心电图信号:

  • 双重视角建模:将心电图信号分解为传导引导信息(同一心搏在各导联的时间同步特征)和视角引导信息(同一导联的空间异质性特征),全面捕捉信号本质。

  • 稀疏注意力机制:设计专属注意力掩码,确保心搏重建仅依赖对应的心搏传导信息和导联全局上下文,避免其他心搏干扰,高效提取特异性特征。

  • 掩码重建训练:采用 80% 的高掩码率,通过重建被掩盖的心搏 token,迫使模型学习深层生理特征而非表面模式,提升表征鲁棒性。

2.HUG 微调 ,模拟临床诊断流程

微调阶段引入 HUG 头,完全贴合临床心电图诊断的层级逻辑:

  • 导联分组:按临床标准将 12 导联分为 3 组(双极肢体导联、加压单极肢体导联、胸前导联),每组通过独立线性层学习特征并平均。

  • 成对组合:将三组特征进行两两组合,进一步捕捉导联间的互补信息。

  • 全局聚合:整合所有组合特征,形成完整的多导联全局表征,作为最终诊断依据。

这种层级设计不仅提升了模型的可解释性,更让特征提取过程与医生诊断思维高度一致,实现从数据驱动到临床驱动的转变。

在六大数据集上超越现有最优方法

本研究在 MIMIC-IV-ECG 数据集上完成预训练后,于 PTB-XL、CPSC2018 及 CSN 三个公开数据集的六个下游任务上进行了系统评估,结果全面超越了现有最优方法(SOTA)。

具体而言,模型在平均性能上较当前 SOTA 提升了 6.84%,其中 CLEAR 单模型在预训练阶段贡献了 3.94% 的提升,而加入 HUG 诊断头后性能得到进一步改善,充分验证了双阶段设计的有效性。在低数据场景下,该方法展现出卓越的少样本迁移能力,例如,在仅使用 1% 训练数据的 PTBXL-Rhythm 任务中,CLEAR-HUG 较 SOTA 提升超 17%。

同时,在细粒度疾病分类任务上,层级分组策略的价值尤为凸显——在 CSN 数据集的 38 类疾病分类中,使用 1%、10% 与 100% 训练数据时,HUG 头相较基础模型分别带来 9.21%、5.81% 与 3.18% 的性能增益。

此外,该方法在关键特性上也表现出显著优势。其一,模型具有更强的稳健性,即使在部分导联缺失、仅保留两个核心导联的极端情况下,其性能仍优于现有 SOTA,能够很好地适应临床中数据不完整的实际场景。其二,模型展现出高度的临床适配性,通过激活可视化,HUG 头对不同疾病所激活的导联组合模式,与临床诊断标准高度一致,显著提升了模型的可解释性。

核心模块的必要性验证

为验证 CLEAR-HUG 框架中各核心组件的贡献,本研究进行了系统的消融实验。该方法遵循控制变量原则,通过逐步移除或调整模型中的特定设计,量化评估每个创新模块的实际价值。主要实验结果与发现如下:

  • 传导建模的有效性验证:对比基础掩码自编码器,CLEAR 预训练通过传导引导稀疏注意力,在心律分析任务中提升 17.4%,证明了传导机制建模的重要性。

    图片
  • 层级诊断结构的作用分析:移除 HUG 头后,模型在细分类任务中性能明显下降,验证了层级分组策略对复杂疾病诊断的关键作用。

    图片
  • 预训练掩码策略的优化验证:不同掩码率实验表明,80% 的掩码率能平衡特征学习深度与训练稳定性,是最优选择。

这些实验从多个维度证实,CLEAR 与 HUG 两个核心模块均不可或缺,其设计共同支撑了模型在各项任务中的性能提升。

总结与展望

CLEAR-HUG 的成功,并不依赖于复杂的模型架构,而是根植于对医学本质的深刻洞察与巧妙融合。

首先,模型从生理机制出发,紧扣心脏传导这一心电信号的核心生成原理,使特征学习过程更贴合生理本质。其次,通过将模型流程与医生诊断逻辑深度对齐,在提升性能的同时也显著增强了结果的可解释性。此外,其轻量化设计与对缺失导联的适应能力,兼顾了效率与临床实用性,为实际部署扫除了障碍。

该研究不仅为心电分析提供了新的技术路径,也印证了 AI 医疗发展的关键方向——唯有将领域知识与人工智能技术深度融合,才能开发出真正赋能临床的实用工具。

展望未来,研究团队计划将本框架扩展至更多心血管疾病诊断场景,并探索与多模态医疗数据的融合应用,从而为智能医疗的落地持续注入新动力。

作者信息:

上智院实习生、复旦大学人工智能创新与产业研究院博士生潘覃和孙翊轩,为共同第一作者。

代码地址:

https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/CLEAR-HUG#heading-1

https://github.com/Ashespt/CLEAR-HUG

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

0%
icon展开列表
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
今天
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
今天
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
今天
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
今天
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
今天
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
今天
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
今天
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

站在 2026 年的开端回望,LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年,Transformer 架构以绝对的统治力横扫了人工智能领域,但随着算力成本的博弈和对推理效率的极致追求,挑战者们从未停止过脚步。

知名 AI 研究员 Sebastian Raschka 的最新洞察中,他不仅回应了关于「Transformer 是否会被取代」的年度终极之问,更敏锐地捕捉到了近期业界的一个重要转向:从单纯追求模型参数的「大力出奇迹」,转向了混合架构与效率微调的精细化战争。

同时,文章还探讨了一个极具潜力的变量:扩散语言模型。这类模型在 Google 等巨头的布局下会有怎样的表现?它们在「工具调用」上的天然缺陷是否会成为阿喀琉斯之踵?而在高质量数据日益枯竭的今天,扩散模型又是否能凭借「超级数据学习者」的特性,成为打破数据墙的关键?

以下内容编译自 Sebastian Raschka 的最新博文,并结合文中提及的前沿论文及往期深度分析进行了系统性拓展,以便读者获取更完整的上下文视角。

图片
  • 博客地址:https://x.com/rasbt/status/2010376305720594810

最近几周,我经常被问到的一个问题是:在 2026 年,我们是否会看到自回归 Transformer 架构(即标准的 LLM)的替代方案。

就目前而言,我坚信 Transformer 在未来(至少一到几年内)仍将保持其在 SOTA 性能方面的地位。它是当前 AI 生态系统的基石,拥有最成熟的工具链和优化方案。

但是,情况确实会发生一些微调。这并不是说架构会一成不变,而是这种变化更多体现在「效率」和「混合」上,而非彻底的推倒重来。

效率战争:混合架构与线性注意力的崛起

临近去年年底,我们看到业界更加关注混合架构以及如何提高其效率。当然,这并不是什么新想法,但近期来自顶尖实验室的发布表明,目前的侧重点已明显向此倾斜。

我们回顾一下 DeepSeek V3 以及随后的 R1,它们展示了混合专家模型(MoE)和多头潜在注意力(MLA)的强大之处。DeepSeek V3 通过 MLA 显著减少了推理时的 KV Cache 占用,而 MoE 架构则允许模型在拥有 6710 亿参数的同时,每次推理仅激活 370 亿参数。这种在保持模型巨大容量的同时极致压缩推理成本的设计思路,正是 2025 年末到 2026 年的主旋律。

但这还不是全部。除了 MoE,我们看到了更激进的效率尝试,例如 Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力机制的 DeepSeek V3.2。(如果您对更多细节感兴趣,我在之前的《Big LLM Architecture Comparison》一文中对此进行了报道。)图片

      带有这类效率调整的 Transformer 架构示意图。

  • 相关链接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

为什么大家都在卷「线性注意力」或「稀疏注意力」?

标准的 Transformer 注意力机制(Scaled Dot-Product Attention)具有 O(N^2) 的复杂度,这意味着随着上下文长度的增加,计算成本呈二次方爆炸式增长。

  • Qwen3-NextKimi Linear 采用了一种混合策略:它们并非完全抛弃标准注意力,而是将高效的线性层(如 Gated DeltaNet)与全注意力层以一定比例(如 3:1)混合。这种设计试图在捕捉长距离依赖(全注意力的强项)和推理速度(线性层的强项)之间找到最佳平衡点。

  • DeepSeek V3.2 则引入了稀疏注意力,通过只计算最重要的 Token 之间的相互作用,进一步降低了计算开销。

这些「微调」表明,2026 年的竞争不再仅仅是看谁的模型更聪明,而是看谁能在更长的上下文、更低的延迟下提供同等的智能。

扩散语言模型:速度与代价的博弈

话说回来,除了 Transformer 的变体,扩散语言模型怎么样?

扩散语言模型之所以具有吸引力,是因为它们能够以相对快速且低廉的成本生成 Token。与自回归模型(AR)那种「一个字接一个字」的串行生成不同,扩散模型采用的是并行生成

想象一下,自回归模型像是一个人在打字,必须打完上一个字才能打下一个;而扩散模型更像是在冲洗一张照片,整段文字从模糊的噪声中同时显现,经过数次「去噪」迭代后变得清晰。

我前阵子在《Beyond Standard LLMs》一文中对此多写了一些。简而言之,我认为 2026 年我们会看到更多相关内容,Google 可能会推出 Gemini Diffusion 作为其更便宜的 Flash 模型的替代品。Google 已经在其技术博客中暗示了这一点,强调其生成速度「明显快于我们目前最快的模型」。

  • 相关链接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

然而,虽然扩散语言模型的优势在于它们可以并行生成 Token,但这同时也是一个巨大的缺点。因为由于并行生成的特性,它们无法在响应链中原生地整合工具调用

在自回归模型中,模型可以生成「调用计算器」的指令,暂停,等待结果,然后再继续生成。而在扩散模型中,整个响应是同时生成的,很难在中间插入一个外部工具的交互步骤。这使得它们在作为智能体使用时面临巨大挑战。

图片

      文本扩散过程示例。

此外,虽然众所周知文本扩散推理效率更高,但最近的研究也表明,如果你为了提升质量而增加去噪步数以匹配自回归模型的性能,那么最终的计算预算其实是相差无几的。

数据枯竭时代的「超级学习者」

那么,我想表达什么呢?既然扩散模型有这些缺陷,为什么我还认为它值得关注?

我原本计划讨论一月份发布的近期一系列有趣的研究,但我还是想简要重点介绍一篇我在「待读论文」清单上的、2025 年 11 月的有趣论文,它强调了扩散语言模型的一个有趣优势:《Diffusion Language Models are Super Data Learners》。

  • 论文地址:https://arxiv.org/abs/2511.03276

图片

来自论文《Diffusion Language Models are Super Data Learners》的带注释图表。

这篇论文提出了一个在 2026 年至关重要的观点:当高质量数据变得稀缺时,扩散模型可能是更好的学习者。

众所周知,互联网上的高质量文本数据正在接近枯竭。对于自回归(AR)模型来说,通常我们只让模型把数据「看」一遍(1 Epoch)。如果让 AR 模型反复在同一份数据上训练,它们很容易过拟合,即死记硬背训练数据,导致在未见过的新任务上表现下降。

然而,上述论文表明,当进行多 Epoch 训练时,文本扩散模型的表现可能优于标准的自回归(AR)大语言模型。

根据论文的研究结果,在严格控制的预训练设置下,当唯一数据量有限时,通过增加训练轮数,扩散语言模型的表现持续超越了自回归模型。

这一现象被称为「Crossover(交叉点)」:

  • 当数据量充足时,AR 模型学得更快。

  • 但当数据受限时,DLM 是最终的赢家。例如,一个 10 亿参数的 DLM 模型,仅仅通过反复训练 10 亿个 Token(这在今天看是非常小的数据量),在 HellaSwag 和 MMLU 基准测试上分别达到了 >56% 和 >33% 的准确率,且没有使用任何特殊技巧。

为什么会这样? 论文归结为三个因素:

  • 任意顺序建模:AR 模型被迫只能从左到右学习,而扩散模型可以学习文本中任意位置之间的依赖关系。

  • 超高密度计算:通过迭代的双向去噪,DLM 在训练时实际上对每个样本进行了更深度的压榨。

  • 内置的蒙特卡洛增强:扩散过程本身就是一种数据增强。同一个句子,每次加噪的方式都不一样,相当于把一条数据变成了无数条变体。

更有趣的是,论文发现,对于 DLM 来说,验证集损失的上升并不意味着下游能力的下降。即便模型在验证集上看起来「过拟合」了,它在实际任务(如代码生成、推理)上的表现仍在提升。

由于成本原因,过去没有人会在多个 Epoch 上训练大语言模型。但在数据枯竭的今天,如果我们不得不进行多 Epoch 训练,扩散模型似乎提供了一条新出路。

这确实是有趣的结果!