标签自监督学习下的文章

面向临床的心电图AI，上智院、复旦等提出CLEAR

作者: 纯情
时间: 2026-01-16
分类: 资讯
评论

面向临床的心电图AI，上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

展开列表

面向临床的心电图AI，上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

今天

神同步OpenAI！中国团队Deep Principle领衔发布LLMs for Science评测，引爆外网

今天

美团又上新模型，8个Thinker齐开工，能顶个诸葛亮？

今天

失去三个联创后，Mira公司危机持续：又有两人要出走

今天

不止于量化：最新综述用「时-空-构」三维视角解构KV Cache系统级优化

今天

支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT

今天

刚刚，Geoffrey Hinton成为第二位引用量破百万的科学家

今天

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

今天

DeepSeek连发两篇论文背后，原来藏着一场学术接力

今天

仅需一个混频器的无线射频机器学习推理，登上Science Advances！

今天

国内首个可复现！萝博派对公开人形机器人 “从 0 到跑” 全开源方案

01月15日

联发科天玑9500s、8500发布：GPU、光追拉满，红米Turbo 5Max将搭载

01月15日

通用级PixVerse P1的技术突破，揣着进入平行世界的密码

01月15日

Mira公司内乱？CTO被开除，带团队回OpenAI，翁荔上推发言

01月15日

Nature丨清华等团队揭示AI科研双重效应：个人效率亦或是科学边界

01月15日

刚刚，喝到了千问APP给我点的奶茶

01月15日

人脸机器人登上Science Robotics封面：用AI教会仿生人脸机器人「开口说话」

01月15日

实测夸克「千问划词快捷指令」，这7个邪修Prompt，建议收藏

01月15日

已证实！清华姚班陈立杰全职加入OpenAI，保留伯克利教职

01月15日

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

01月15日

面向临床的心电图AI，上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

作者团队丨上海科学智能研究院、复旦大学团队

编辑丨ScienceAI

在心血管疾病诊断中，心电图（Electrocardiogram, ECG）是无可替代的基础工具，其中 12 导联心电图是临床使用的金标准。作为观察心脏电活动的“视角”，导联是由一正一负两个电极构成的一个记录电路，12 导联心电图即是通过体表 10 个电极组合构建出 12 个独特的电信号“视角”，同步捕捉心脏的电活动，形成一套多维度的波形图谱。

然而，面对海量的心电图数据，现有基于自监督学习的分析方法尽管提供了无需大规模标注数据的解决方案，其局限仍非常明显：它们往往未能充分建模心脏传导过程中细微的个体心搏差异，也缺乏与临床“从心搏到导联，再从导联到整体”的递进诊断逻辑相对齐的推理结构，导致在复杂病例诊断中表现受限。

为此，上海科学智能研究院（下称上智院）与复旦大学联合提出了 CLEAR-HUG 双阶段框架。该框架从心电图信号的生理本质出发，在预训练阶段显式建模心脏传导特征，并在诊断阶段紧密贴合临床判读的层级思维，实现了从信号表征到诊断推理的全流程优化。实验表明，该方法在六个权威公开数据集上平均性能提升达 6.84%，为开发高性能、可解释的 AI 辅助心电图诊断工具开辟了新路径。

论文链接：https://arxiv.org/pdf/2512.24002

该研究成果已被 AAAI 2026 接收。研究项目由星河启智科学智能开放平台和复旦大学 CFFF 智算平台提供技术和算力支持。

星河启智平台链接：https://aistudio.ai4s.com.cn

现有方法的两大局限

既往的心电图自监督学习（electrocardiogram self-supervised learning, eSSL）方法虽取得一定进展，但存在两个面向临床的关键短板：

一是忽视个体差异。

现有方法学会了看“大概”和“通常”，却难以识别那些“例外”与“异常”，而后者往往是临床诊断中更需要关注的信号。具体来说，现有方法主要让模型学习心电图信号中重复出现和普遍存在的模式——比如不同导联之间波形的同步性，或连续心搏间的形态相似性，却忽略了一个生理事实：每个心搏的传导路径存在自然的细微差异，而不同导联观察的解剖角度也本就不同。这些细节往往承载着重要的生理与病理信息，例如，一个偶发的、形态异常的室性早搏，在标准心电图中看起来就“很不合群”，但这恰恰是临床诊断需要捕捉的关键线索。

二是脱离临床逻辑。

为确保诊断的精确性和全面性，心电图临床诊断通常遵循“心搏→单导联→多导联组合”的层级流程：医生首先观察单个心搏的形态细节，判断其是否异常；然后在一个特定的导联上，分析连续心搏的节律和模式，确认异常是否持续存在；最后，综合所有 12 个导联的信息，像拼图一样将不同导联的发现进行组合与空间对应，从而精确定位心脏的病变部位并做出最终诊断。但是，现有模型在下游任务中常忽视这一递进式诊断逻辑，导致特征提取与诊断需求脱节。

为解决这些问题，研究团队从心脏传导机制和临床诊断规范双重视角出发，构建了 CLEAR-HUG 框架，实现从信号表征到诊断推理的全流程优化。该框架与人类专家的知识体系对齐，使得医生不仅能够获知“诊断结果是什么”，更能理解“模型为何做出该诊断”，从而推动心电图AI分析更加可解释。

图示：心脏传导机制。

CLEAR-HUG 的双阶段创新设计

CLEAR-HUG 框架包含预训练和微调两个阶段，分别对应特征学习与诊断适配，形成完整的技术闭环。

第一阶段，团队设计了名为“传导-导联重构器”（Conduction-LEAd Reconstructor, CLEAR）的自监督模型，该模型能同时捕捉心跳的特异性变异与普遍共性。通过将每个心搏视为独特实体，该模型采用简洁高效的稀疏注意力机制，在排除其他心搏干扰的情况下重构信号。

第二阶段，团队构建了“分层导联统一分组头”（Hierarchical lead-Unified Group head, HUG头）诊断模块，模拟临床诊断流程。

图示：双阶段训练

1.CLEAR 预训练，捕捉传导级细微特征

预训练阶段的核心是 CLEAR 模型，通过传导引导和视角引导的双重信息学习，精准重建心电图信号：

双重视角建模：将心电图信号分解为传导引导信息（同一心搏在各导联的时间同步特征）和视角引导信息（同一导联的空间异质性特征），全面捕捉信号本质。
稀疏注意力机制：设计专属注意力掩码，确保心搏重建仅依赖对应的心搏传导信息和导联全局上下文，避免其他心搏干扰，高效提取特异性特征。
掩码重建训练：采用 80% 的高掩码率，通过重建被掩盖的心搏 token，迫使模型学习深层生理特征而非表面模式，提升表征鲁棒性。

2.HUG 微调，模拟临床诊断流程

微调阶段引入 HUG 头，完全贴合临床心电图诊断的层级逻辑：

导联分组：按临床标准将 12 导联分为 3 组（双极肢体导联、加压单极肢体导联、胸前导联），每组通过独立线性层学习特征并平均。
成对组合：将三组特征进行两两组合，进一步捕捉导联间的互补信息。
全局聚合：整合所有组合特征，形成完整的多导联全局表征，作为最终诊断依据。

这种层级设计不仅提升了模型的可解释性，更让特征提取过程与医生诊断思维高度一致，实现从数据驱动到临床驱动的转变。

在六大数据集上超越现有最优方法

本研究在 MIMIC-IV-ECG 数据集上完成预训练后，于 PTB-XL、CPSC2018 及 CSN 三个公开数据集的六个下游任务上进行了系统评估，结果全面超越了现有最优方法（SOTA）。

具体而言，模型在平均性能上较当前 SOTA 提升了 6.84%，其中 CLEAR 单模型在预训练阶段贡献了 3.94% 的提升，而加入 HUG 诊断头后性能得到进一步改善，充分验证了双阶段设计的有效性。在低数据场景下，该方法展现出卓越的少样本迁移能力，例如，在仅使用 1% 训练数据的 PTBXL-Rhythm 任务中，CLEAR-HUG 较 SOTA 提升超 17%。

同时，在细粒度疾病分类任务上，层级分组策略的价值尤为凸显——在 CSN 数据集的 38 类疾病分类中，使用 1%、10% 与 100% 训练数据时，HUG 头相较基础模型分别带来 9.21%、5.81% 与 3.18% 的性能增益。

此外，该方法在关键特性上也表现出显著优势。其一，模型具有更强的稳健性，即使在部分导联缺失、仅保留两个核心导联的极端情况下，其性能仍优于现有 SOTA，能够很好地适应临床中数据不完整的实际场景。其二，模型展现出高度的临床适配性，通过激活可视化，HUG 头对不同疾病所激活的导联组合模式，与临床诊断标准高度一致，显著提升了模型的可解释性。

核心模块的必要性验证

为验证 CLEAR-HUG 框架中各核心组件的贡献，本研究进行了系统的消融实验。该方法遵循控制变量原则，通过逐步移除或调整模型中的特定设计，量化评估每个创新模块的实际价值。主要实验结果与发现如下：

传导建模的有效性验证：对比基础掩码自编码器，CLEAR 预训练通过传导引导稀疏注意力，在心律分析任务中提升 17.4%，证明了传导机制建模的重要性。
层级诊断结构的作用分析：移除 HUG 头后，模型在细分类任务中性能明显下降，验证了层级分组策略对复杂疾病诊断的关键作用。
预训练掩码策略的优化验证：不同掩码率实验表明，80% 的掩码率能平衡特征学习深度与训练稳定性，是最优选择。

这些实验从多个维度证实，CLEAR 与 HUG 两个核心模块均不可或缺，其设计共同支撑了模型在各项任务中的性能提升。

总结与展望

CLEAR-HUG 的成功，并不依赖于复杂的模型架构，而是根植于对医学本质的深刻洞察与巧妙融合。

首先，模型从生理机制出发，紧扣心脏传导这一心电信号的核心生成原理，使特征学习过程更贴合生理本质。其次，通过将模型流程与医生诊断逻辑深度对齐，在提升性能的同时也显著增强了结果的可解释性。此外，其轻量化设计与对缺失导联的适应能力，兼顾了效率与临床实用性，为实际部署扫除了障碍。

该研究不仅为心电分析提供了新的技术路径，也印证了 AI 医疗发展的关键方向——唯有将领域知识与人工智能技术深度融合，才能开发出真正赋能临床的实用工具。

展望未来，研究团队计划将本框架扩展至更多心血管疾病诊断场景，并探索与多模态医疗数据的融合应用，从而为智能医疗的落地持续注入新动力。

作者信息：

上智院实习生、复旦大学人工智能创新与产业研究院博士生潘覃和孙翊轩，为共同第一作者。

代码地址：

https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/CLEAR-HUG#heading-1

https://github.com/Ashespt/CLEAR-HUG

人脸机器人登上Science Robotics封面：用AI教会仿生人脸机器人「开口说话」｜

作者: 纯情
时间: 2026-01-15
分类: 资讯
评论

人脸机器人登上Science Robotics封面：用AI教会仿生人脸机器人「开口说话」

展开列表

人脸机器人登上Science Robotics封面：用AI教会仿生人脸机器人「开口说话」

今天

实测夸克「千问划词快捷指令」，这7个邪修Prompt，建议收藏

今天

已证实！清华姚班陈立杰全职加入OpenAI，保留伯克利教职

今天

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

今天

5分钟定制一个AI采购专家：讯飞发布“招采智能体工厂”，重新定义行业开发范式

今天

Agent时代，为什么多模态数据湖是必选项？

今天

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化

今天

性能提升60%，英特尔Ultra3这次带来了巨大提升

01月14日

继宇树后，唯一获得三家大厂押注的自变量：具身模型不是把DeepSeek塞进机器人

01月14日

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

01月14日

端到端智驾新SOTA | KnowVal：懂法律道德、有价值观的智能驾驶系统

01月14日

仅用10天？Anthropic最新智能体Cowork的代码竟然都是Claude写的

01月14日

AAAI 2026｜AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

01月14日

用AI从常规病理切片重建空间蛋白图谱：基于H&E图像的高维蛋白质表达预测

01月14日

京东首届AI影视创作大赛启动最高奖金10万元邀全民共创AI视频

01月14日

合合信息多模态文本智能产品“上新”，覆盖AI教育、AI健康、AI Infra多元场景

01月14日

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

01月14日

跳出「黑盒」，人大刘勇团队最新大语言模型理论与机理综述

01月14日

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

01月14日

相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会（报名开启）

01月13日

人脸机器人登上Science Robotics封面：用AI教会仿生人脸机器人「开口说话」

胡宇航（网名 “U 航”），毕业于美国哥伦比亚大学，博士学位，首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》，《Science Robotics》等国际顶级期刊。致力于赋予机器人 “自我模型” 能力，即构建对自身物理结构与运动的内部表征，使机器人能够更好地理解自身，并适应多变的形态、环境与任务。在仿生人机交互方向，他提出融合语音、视觉与动作的情绪理解与表达一体化系统，为机器人提供更加自然的交互能力。通过自监督学习机制，他的方法使机器人在无需人工干预的情况下不断提升人机互动质量，朝着具备终身学习能力的智能体不断迈进。

论文地址：https://www.science.org/doi/10.1126/scirobotics.adx3017

曾发表论文：

Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.
Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.
https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg

2026 年 1 月 15 日，一项来自美国哥伦比亚大学工程学院的突破性研究正式发表于《Science Robotics》，并登上期刊封面。该研究展示了一项全新的机器人技术：一台具备仿生面部结构的人形机器人，通过深度学习实现与语音和歌曲同步的真实唇部运动。它能跟着人类的语言精准张合嘴唇，甚至，能跟着音乐唱歌。标志着人形机器人在人类最丰富的交流通道之一唇部表达上，迈出了突破性一步。

为什么 “嘴唇” 如此重要？

研究显示，在面对面的交流中，人类将近一半的注意力集中在唇部运动上。我们或许能容忍机器人走路笨拙、手部动作僵硬，但哪怕极其轻微的不自然面部表情，都会立刻引发本能的不适。这正是著名的 “恐怖谷”。

长期以来，即便是最先进的人形机器人，在 “说话” 时也只能做出类似木偶的张合动作 —— 如果它们有脸的话。但这一次，情况正在发生改变。

一个会自主学习表情的机器人

在这项研究中，研究团队打造了一张高度仿生的机器人面孔：

在一层柔性硅胶皮肤之下，隐藏着 20 余个微型电机，能够快速、安静且协同地驱动唇部形变。

^{图 2. 机器人唇形硬件结构。（A）面部机器人设计概览，重点展示了人机交互关键组件：包括扬声器、麦克风、高清摄像模块，以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位，并通过推拉双向运动驱动硅胶面皮，完成说话时所需的复杂唇部动作。（B）搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。（C）唇部驱动系统特写，展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定，可便捷拆卸以进行维护或个性化调整。}

随后，机器人被 “带到镜子前”…

就像一个第一次对着镜子学做表情的孩子，机器人通过观察自己面部在不同电机驱动下的变化，构建 Facial Action Transformer (FAT) 模型，逐渐学会如何控制自己的脸（机器人自我建模 Robotic Self-modeling)。研究团队将这一过程称为一种 “视觉 — 动作” 的自监督学习。

^{图 3. 机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力，例如爆破音（/p/ 和 /b/）、双唇音（/m/）以及圆唇元音（/u/ 和 /o/）。通过独立控制上唇、下唇及嘴角，每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。}

依靠纯声音驱动嘴形动作

接着，机器人通过观看合成的机器人视频（通过 Wav2Lip）在不同语音语料（由 TTS 和 ChatGPT 生成）的真实唇部变化，进一步学习声音与唇部运动之间的对应关系。最终，这两种能力被整合在一起 —— 机器人得以将收到的声音信号，直接转化为连续、自然的唇部运动。无需理解语义，机器人已经能 “对得上口型”。

^{图 4. 机器人唇形同步的自监督学习框架。 (A) 数据收集阶段：机器人通过与语音相关的随机指令自主生成数据集，利用 RGB 摄像头捕捉广泛的唇部运动，以获取 3D 唇形数据。(B) 部署过程：始于来自 ChatGPT 的文本输入，文本被转换为音频，随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令，训练由编码器和解码器（VAE）组成的机器人逆向变换器，以生成平滑、准确、可供真实机器人执行的电机指令。}

多语言能力

研究团队测试了机器人在多种语言、不同语音环境甚至歌曲中的表现。结果显示，即使在复杂的语音节奏下，机器人也能完成连贯的唇部同步，甚至演唱来自其 AI 生成的曲目。

^{机器人多语言口型对齐能力}

^{图 5. 多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明，所有非英语语言的同步误差均保持在英语误差范围内，显示出稳健的跨语言泛化能力。}

当然，这还不是终点。研究者坦言，像 “B” 这类需要完全闭唇的音，以及 “W” 这类涉及明显撮唇的发音，仍然存在挑战。但关键在于 —— 这是一种可以随着学习持续进化的能力，而不是写死的规则。

跨越恐怖谷的 “缺失环节”

在研究者看来，面部表情 —— 尤其是唇部的自然运动，正是长期以来机器人能力中的 “缺失环节”。“当前的人形机器人更多关注行走和抓取，但凡是需要与人面对面交流的场景，面部表达同样关键。”

随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域，一张温暖、自然、可信的‘脸’将不再是加分项，而是入场券。经济学家预测，未来十年全球或将制造超过十亿台人形机器人进入人们的生活场景。而几乎可以确定的是 —— 它们不可能都没有脸。

从实验室走向现实

这项封面研究，不仅是一次学术突破，也展示了中国学者在国际人形机器人领域具备独特的创新能力。

第一作者胡宇航博士表示，当唇部同步能力与对话型大模型结合时，机器人与人类之间的连接将发生质变。“我们交流中有大量情感信息并不在语言本身，而在面部和身体语言中。机器人正在开始触碰这条通道。”

当机器人真正学会像人一样 “说话” 和 “表达”，

恐怖谷，正在被一步步填平。

人类与机器人的信任和情感，将会迎来新的篇章。