标签 模型架构 下的文章

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了智象未来联合创始人姚霆,他指出在多模态领域,深度 Scaling up 模型能力提升收益放缓,而广度 Scaling up 会带来更多惊喜,多模态能力也在重塑大模型推理过程。另外,2025 年的模型价格战倒逼厂商三大加速:研发新模型抢占短暂的版本优势、提升推理速度、升级高性价比架构降本。他认为,低价趋势 2026 年将延续,核心原因是市场远未饱和。结合公司情况,姚霆表示模型商业模式从卖 API、积分制转向“按结果付费”。下面是详细对话内容,以飨读者。

多模态大模型的 Scaling up

InfoQ:Scaling up 是否仍是最佳路线?

姚霆: 对于多模态大模型而言,Scaling up 有深度和广度。深度 scaling up 就是类似于单一多模态任务的纯粹模型参数 scaling up 过程,我们会发现这种 scaling up 下模型能力提升收益放缓,并不是指数级的增长,与之搭配的还需要高质量数据和架构的“Scaling up”,而且盲目扩增模型参数也会对推理 cost 带来极大地负担,所以我们在深度 scaling up 过程中除了模型性能之外更多地会去考虑训练和推理的 cost,期望达到极致的性能 - 效率平衡。

而广度 scaling up 指的是从垂域场景和商业化落地的视角下去看 scaling up,即不同多模态任务之间的 scaling up,我们发现这种广度上的 scaling up 会带来更大的惊喜,例如在联合架构中去实现多模态理解和生成任务的统一,以及视频生成和音频生成任务的统一,衍生出类似音画同步的特色。

InfoQ:MoE 架构为什么会成为 2025 年的主流架构?其在参数效率与推理成本间的平衡能力,是否彻底改变了大模型的开发与部署逻辑?非 MoE 路线的企业如何构建差异化竞争力?

姚霆: 稀疏 MoE 架构的一大优势是较高的推理效率,尽管其模型参数量很大,但在推理过程中只有部分参数被激活,这样既保持了高参数量带来的模型学习能力,也在部署推理过程中表现出较高的效率。

而对于非 MoE 架构,也就是参数稠密型的模型,虽然推理的性价比会比 MoE 架构低,但是对于垂域任务,稠密型模型由于总参数量更小,部署更加灵活,也可以体现出较好的效果。

多模态大模型的代表性发展

InfoQ:2025 年多模态能力取得了哪些飞跃性发展?Nano Banana Pro 代表的图片生成模型、OpenAI Sora、Google Veo 3 代表的视频生成模型,分别做了哪些优化得到了不错的效果?

姚霆:2025 年多模态大模型能力有几个代表性的发展:

  1. 音画同步生成,让视频从默片时代进入了有声时代;

  2. 主体参考的一致性,实现了从片段化到连贯叙事的转变,AI 漫剧因此迎来了井喷的爆发;

  3. 运镜表达、表情演绎,让视频生成更具备影视表达,从“形似”到“神似”。

Veo 3 就在音画同步上做的很出彩,而 Nano Banana Pro 则将主体参考一致性发挥到新的高度,因为都是闭源模型,所以只能猜测在技术上不会局限于单一的 DiT 架构,例如借助多模态推理和生成的统一(VLLM+DiT)实现更精准的多模态内容编辑,而将更多不同模态的 token(文本、图像、视频、语音等)融入到统一的架构中则能端到端实现类似音画同步的能力。

InfoQ:多模态能力是否会重塑推理?跨模态推理是否也成为必答题?预计推理能力的突破方向在哪里?

姚霆:2025 年 多模态能力已经在重塑大模型推理过程,从 DeepSeek OCR 中使用图片来进行长文本压缩,到 Nano Banana 中直接生成解题过程的图片,多模态能力已经成为大模型推理能力中不可或缺的一部分。

多模态数据往往能提供比纯文本数据更稠密、直观和具备逻辑关联的信息。目前多模态数据越来越多的引入,对于大模型结构、训练方法以及数据三方面都会带来新的挑战。其中,大模型结构要尽可能支持原生多模态的输入或者输出,对于模型的参数量上提出了更高的要求;训练方法上需要去平衡各种不同的任务,保证模型在不同任务上都达到一定的收敛程度;数据上则对数据的广度和精度上又有了进一步的要求,广度上需要尽可能涵盖需要的多模态推理任务,同时高质量精品数据可以在训练后期提升推理能力。

InfoQ:从语言模型到多模态模型,再到世界模型,这个演进的本质是什么?您认为世界模型未来发展趋势如何?

姚霆: 从语言模型到多模态模型,再到世界模型,演进的本质是“大模型对真实世界的建模能力升级”:语言模型是“理解人类符号”,多模态理解模型是“感知世界表象”,多模态生成模型则是“模拟世界表象”,而世界模型是“掌握物理规律和因果关系并与之交互”,这也是通往 AGI 的必经之路。

因此,世界模型未来必将会在理解物理世界空间结构的同时,提升对物理规律和因果关系的刻画能力,而且通过与物理真实世界的交互实现从感知到决策的闭环。

“低价趋势肯定会延续”

InfoQ:2025 年模型价格战最关键的影响是什么?价格战倒逼厂商做了哪些架构演进?低价趋势在 2026 年是否会继续延续?

姚霆: 主要还是倒逼模型厂商去持续加速,一是加速研发新模型形成短暂的版本优势,二是加速模型的推理时间,时间就是金钱,三是加速模型架构的升级,引入性价比更高的架构设计来降低成本。低价趋势肯定会延续,因为市场还远没有饱和。

InfoQ:2025 年在 B 端和 C 端,都有哪些创新的商业模式出来吗?

姚霆: 创新的商业模式是很难的,所以我觉得更多是一些特色吧。

B 端和 C 端的界限越来越模糊,总体来说都是内容的生成者,真正的海量 C 端其实是内容的消费者,所以可以把两个端一起谈,商业模式的创新就是从售卖 API 提升到了售卖结果,以前 B、C 两端都是积分制,本质就是价值折算的积分,但是我们在不断探索按照结果来付费。

在移动端,我们也在突破过去 web 端复杂的积分逻辑对应的不同的会员等级,pro、ultra 等等,我们只会把功能区分为会员功能和非会员功能,然后按需充值即可,不会再纠结额度来觉得是否续费。

InfoQ:在您看来,2026 年大模型竞赛的核心是什么?您认为下一次“大模型代际飞跃”可能来自哪条技术路线?

姚霆:2026 年 大模型竞赛的核心,会从“技术能力”转向“价值落地能力”,类似于比拼“行业收入规模”和“客户留存率”。谁能更快将技术转化为行业实效,谁就能占据先机。

下一次“代际飞跃”很可能来自两个方向:

一是新颖的用户交互体验,随着基础原子能力目前逐渐饱和,2025 年 Agent 相关的应用出现了爆发式的增长,而 Agent 爆发的背后实际上代表了用户在认可大模型能力的同时又对于 AI 应用的交互体验提出了更高的要求,让大模型从单一的原子能力向完整解决方案提供者演变,一旦在用户交互方式、交互体验上跨越式提升,就会带来新的机遇。

二是专业级能力的大众化,目前大模型能力对于专业从业者来说已经达到一个很惊艳的程度,但是对于大众来说还是存在一些使用上的“困难”,这种困难可能来自于高昂的推理成本,编写专业级 prompt 的入门难度,以及缺乏大模型使用经验以及思维,而下一次飞跃可能就来自于如何拉近大模型对于大众的隔阂,出现真正的全民级 AI 应用。

 “模型和商业化一直会是两个最大挑战”

InfoQ:根据您的观察,科技公司 2025 年面临的压力如何?对此采取了什么样的应对措施?员工们的状态如何?

姚霆: 对我们这样的模型研发的公司来说,模型和商业化一直会是两个最大的挑战,这两个挑战汇集在一起就是对于底层模型架构的突破变成必选项,模型公司不能像过去那样不断的优化数据和推理来解决用户的问题,而是要在架构上做出突破,敢为人先。

非常开心的是我们的员工状态始终保持战斗状态,因为我们不要 80 ->85,而是要 120 分的创新和颠覆,同时模型团队也和业务团队有了更多的协同,这种协同对于模型团队的能力落地起到非常重要的作用。

InfoQ:经过一年竞赛,国内前沿 AI 水平取得了怎样的成绩?是否赶上了硅谷科技公司?

姚霆: 在多模态大模型这个赛道,我觉得国内外是百花齐放,例如我们在 2025 年 4 月的图像模型 HiDream-I1 开源打响了国内多模态生成式大模型登顶国际竞技场的第一枪,同时大家也开始重视了多模态生成式大模型的竞技场,这些过去只有硅谷科技公司的模型名单里开始快速出现国内的各家模型。

InfoQ:您认为,2026 年的技术赛点可能是什么?您会重点关注哪些行业和技术?

姚霆: 技术赛点从多模态模型架构上来说我觉得还有比较长的路,但是在应用上我觉得技术的赛点是多模态 agent 的成熟落地。2025 年上半年的 Manus,下半年持续火热的 vibe  coding 都是大语言模型的应用落地的典型案例,多模态模型看似比大语言模型更解决用户,但是生图生视频场景还没有出现真正技术应用上完全解决用户痛点的 agent,所以我们也会更关注多模态 agent 。

大模型长脑子了?研究发现LLM中层会自发模拟人脑进化

0%
icon展开列表
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img

大模型长脑子了?研究发现LLM中层会自发模拟人脑进化

生物智能与人工智能的演化路径截然不同,但它们是否遵循某些共同的计算原理?

最近,来自帝国理工学院、华为诺亚方舟实验室等机构的研究人员发表了一篇新论文。该研究指出,大型语言模型(LLM)在学习过程中会自发演化出一种协同核心(Synergistic Core)结构,有些类似于生物的大脑。

图片
  • 论文标题:A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning

  • 论文地址:https://arxiv.org/abs/2601.06851

图片

研究团队利用部分信息分解(Partial Information Decomposition, PID)框架,对 Gemma、Llama、Qwen 和 DeepSeek 等模型进行了深度剖析。

他们发现,这些模型的中层表现出极强的协同处理能力,而底层和顶层则更偏向于冗余处理。

协同与冗余:LLM 的内部架构

研究团队将大型语言模型视为分布式信息处理系统,其核心实验设计旨在量化模型内部组件之间交互的本质。为了实现这一目标,研究者选取了 Gemma 3、Llama 3、Qwen 3 8B 以及 DeepSeek V2 Lite Chat 等多种具有代表性的模型系列进行对比分析。

实验方法与量化指标

在实验过程中,研究者向模型输入了涵盖语法纠错、逻辑推理、常识问答等 6 个类别的认知任务提示词。

针对每一个提示词,模型会生成一段 100 个 Token 的回答,实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。

具体而言,研究人员计算了这些输出向量的 L2 范数,以此作为该单元在特定时间步的激活强度数据。

基于这些时间序列数据,研究团队应用了整合信息分解(Integrated Information Decomposition, ID)框架。

这一框架能够将注意力头对之间的交互分解为「持续性协同」和「持续性冗余」等不同原子项。

通过对所有注意力头对的协同值和冗余值进行排名并求差,研究者得到了一个关键指标:协同-冗余秩(Synergy-Redundancy Rank)。该指标能够清晰地标示出模型组件在处理信息时,究竟是倾向于进行独立的信号聚合,还是在进行跨单元的深度集成。

跨模型的空间分布规律

实验数据揭示了一个在不同架构模型中高度一致的空间组织规律。在归一化后的模型层深图中,协同分布呈现出显著的「倒 U 型」曲线 :

图片
  • 冗余外周(Redundant Periphery):模型的早期层(靠近输入端)和末期层(靠近输出端)表现出极低的协同秩,信息处理以冗余模式为主。在早期层,这反映了模型在进行基本的解词元化(Detokenization)和局部特征提取;而在末期层,则对应着 Token 预测和输出格式化的过程。

  • 协同核心(Synergistic Core):模型的中层则展现出极高的协同秩,形成了核心处理区。例如,在对 Gemma 3 4B 的热图分析中,中间层的注意力头之间表现出密集且强烈的协同交互,这正是模型进行高级语义集成和抽象推理的区域。

架构差异与一致性

值得注意的是,这种「协同核心」的涌现并不依赖于特定的技术实现。

在 DeepSeek V2 Lite 模型中,研究者即使是以「专家模块」而非「注意力头」作为分析单位,依然观察到了相同的空间分布特征。

这种跨架构的收敛性表明,协同处理可能是实现高级智能的一种计算必然,而非单纯的工程巧合。

这种组织模式与人脑的生理结构形成了精确的映射:人脑的感官和运动区域同样表现出高冗余性,而负责复杂认知功能的联合皮层则处于高协同的「全局工作空间」中心。

智能的涌现:学习驱动而非架构使然

一个关键的问题在于:这种结构是 Transformer 架构自带的,还是通过学习习得的?

研究人员通过分析 Pythia 1B 模型的训练过程发现,在随机初始化的网络中,这种「倒 U 型」的协同分布并不存在。随着训练步数的增加,这种组织架构才逐渐稳定形成。

图片

这意味着,协同核心是大模型获得能力的标志性产物

在拓扑性质上,协同核心具有极高的「全局效率」,有利于信息的快速集成;而冗余外周则表现出更强的「模块化」,适用于专门化处理。这种特征再次与人类大脑的网络架构形成了精确的平行关系。

协同核心的功能验证

为了验证协同核心是否真的驱动了模型行为,研究团队进行了两类干预实验:消融实验和微调实验。

消融实验:研究发现,消融那些高协同性的节点,会导致模型出现灾难性的性能下降和行为背离,其影响远超随机消融或消融冗余节点。这证明协同核心是模型智能的核心驱动力。

图片

微调实验:在强化学习微调(RL FT)场景下,仅针对协同核心进行训练,获得的性能提升显著优于针对冗余核心或随机子集的训练。有趣的是,在监督微调(SFT)中这种差异并不明显。研究者认为,这反映了 RL 促进通用化而 SFT 更多倾向于记忆的特性。

图片

结语

这项研究为大模型的可解释性开辟了新路径。它表明,我们可以从「自上而下」的信息论视角来理解模型,而不仅仅是「自下而上」地寻找特定的电路。

对于 AI 领域,识别协同核心有助于设计更高效的压缩算法,或者通过更有针对性的参数更新来加速训练。对于神经科学,这提供了一种计算上的验证,预示着协同回路在强化学习和知识迁移中可能扮演着至关重要的角色。

大模型虽然基于硅基芯片和反向传播算法,但在追求智能的过程中,它们似乎不约而同地走向了与生物大脑相似的组织模式。这种智能演化的趋同性,或许正是我们揭开通用智能奥秘的关键线索。

更多详情请参阅原论文。

跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

0%
icon展开列表
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img
Sakana让AI互相「猎杀」,而它们开始了趋同进化
01月11日
img

跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

图片

大语言模型(LLMs)的爆发式增长引领了人工智能领域的范式转移,取得了巨大的工程成功。然而,一个关键的悖论依然存在:尽管 LLMs 在实践中表现卓越,但其理论研究仍处于起步阶段,导致这些系统在很大程度上被视为难以捉摸的「黑盒」。

为了打破这一僵局,中国人民大学的研究者们采用了一种统一的基于生命周期的分类法,将 LLM 理论研究整合为六个阶段:数据准备、模型准备、训练、对齐、推理和评估。

本文系统综述了驱动 LLM 性能的底层理论与机制,深入分析了数据混合的数学依据、不同架构的表示极限以及对齐算法的优化动力学,并指出了合成数据自我提升、安全保证数学边界等前沿挑战。本综述旨在为 LLM 发展从工程启发式方法向严谨科学学科的转型提供结构化路线图。

图片
  • 论文标题:Beyond the Black Box: Theory and Mechanism of Large Language Models

  • 论文链接:https://arxiv.org/abs/2601.02907

引言

近年来,ChatGPT、DeepSeek、Llama、Claude 等模型的涌现标志着 AI 领域的深刻变革。随着系统规模的扩大,LLMs 展现出类似人类推理的行为,正改变着人类与信息交互的方式。然而,正如核物理的发展经历了从爱因斯坦的质能方程到原子弹爆炸的 40 年跨度,AI 领域的理论与应用同步也存在显著滞后。

尽管工程上取得了巨大成功,LLM 的理论理解仍面临两大挑战:一是规模带来的前所未有的数学复杂度;二是模型展现出的诸多「涌现」现象(如幻觉、涌现能力、Scaling Laws 等)难以在统一框架下解释。

为了解决研究碎片化的问题,来自中国人民大学高瓴人工智能学院的研究团队发布了最新综述论文 《Beyond the Black Box: Theory and Mechanism of Large Language Models》。本文不仅是一份文献索引,更是一份试图将 LLM 研究从 「工程启发式」推向「严谨科学」的路线图。

本综述提出了涵盖六大阶段的生命周期路线图。

图片

      图表 1: 大语言模型理论与机制路线图。

LLM 理论与机制的六大阶段

数据准备阶段 (Data Preparation):探讨如何保证更好的数据利用率,并量化数据特征对模型最终能力的影响,分析数据混合策略 (Data Mixture)、去重与过滤机制以及记忆 (Memorization) 与模型能力之间的关系。

模型准备阶段 (Model Preparation):从理论上评估架构能力,理解 Transformer 结构的表示能力极限、优化景观(如「河谷」假设)以及从展开优化视角设计新架构。

训练阶段 (Training):研究简单的学习目标如何锻造出复杂的涌现能力,分析 Scaling Laws 的本质、预训练的获益机制以及参数高效微调(PEFT,如 LoRA)的机制。

对齐阶段 (Alignment):探讨鲁棒对齐是否在数学上可实现,分析 RLHF(的动力学,研究「超级对齐」(Superalignment)与「弱到强泛化」 (Weak-to-Strong Generalization)。

推理阶段 (Inference):解密冻结权重的模型如何在测试时模拟学习与算法执行,分析提示工程 (Prompt Engineering)、上下文学习 (In-Context Learning) 的机制以及推理时扩展 (Inference-Time Scaling) 带来的推理能力提升。

评估阶段 (Evaluation):从理论上定义与衡量复杂的、主观的人类价值观,探讨基准测试的有效性、LLM-as-a-Judge 的可靠性以及安全性与透明度的形式化保证。

各个阶段代表性的研究内容如下所述。

1 数据准备阶段:智能的基础

图片

      图表 2: 数据准备阶段的理论概览。

数据准备不仅仅是工程上的设计,而是决定模型能力的基石。研究者们从三个维度剖析了数据的理论机制:

  • 数据混合的数学逻辑:研究者利用多源学习视角,证明了当多任务结构共享时,泛化界限不再取决于模型海量的原始参数,而是取决于总压缩编码长度。通过引入「数据混合定律」(Data Mixing Laws),小规模实验拟合验证损失函数,实现对大规模混合策略性能的预先计算。最终,研究者们使用各种不同的理论框架,动态寻找最优数据混合权重的前沿方法。

  • 去重与过滤的理论保障:实证研究确认了去重能直接减少不必要的记忆,从而降低隐私风险。各种理论框架证明了高质量、高信息密度的网页数据甚至能超越人工精选语料。

  • 记忆机制的量化分析:模型对数据的记忆并非简单的「死记硬背」。理解这种记忆机制是平衡知识获取与隐私保护的关键。研究者们认为模型通过整合模糊重复序列形成复杂记忆,也揭示了熵与记忆之间的相关性。

此外,这一阶段也存在着重要的前沿开放问题:

  • 合成数据与自主进化:合成数据能否为模型带来理论上的性能提升?模型是否能够通过生成合成数据从而实现自主进化?

  • 数据污染:训练与测试数据的泄漏为 LLM 的隐私问题带来了挑战,能否从理论上规避或者缓解这一问题?

2 模型准备阶段:架构的表示极限

图片

      图表 3: 模型准备阶段的理论概览。

选择何种模型架构不仅关乎效率,更决定了信息的表示上限。研究者们通过以下视角探讨了架构的本质:

  • 表示能力的边界:研究者们探讨了 Transformer 作为通用逼近器的数学证明,并分析了在无限精度下 Transformer 的图灵完备性。通过电路复杂度(Circuit Complexity)理论,研究者分析了 Transformer 等架构在处理层级结构语言时的表达上限与下限,揭示了模型宽度如何成为函数组合能力的通信瓶颈。

  • 优化景观的几何特性:研究者们提出了诸如「河谷(River Valley)模型」等假设,解释了 Warmup-Stable-Decay 类学习率调度如何引导参数在复杂的函数空间中跨越「山坡」并在「河床」方向高效前进。

  • 理论驱动的架构设计:从「展开优化(Unrolled Optimization)」和「测试时训练(TTT)」的视角,研究者将网络层等效为优化算法的迭代步骤,为理解前沿的模型架构提供了统一框架。

除此之外,研究者们也在关注模型架构的演进,并从理论视角对新架构进行设计与分析:

  • 线性注意力模型:线性递归模型在提升效率的同时,是否存在无法逾越的表示瓶颈(如关联回想能力的缺失)?

  • 循环模型与隐式推理:权重共享的循环架构是否能通过增加推断深度,在更少的参数量下实现更强的泛化?

3 训练阶段:模型能力的锻造炉

图片

      图表 4: 训练阶段的理论概览。

训练阶段将静态架构转化为具备智能的实体。研究者们对预训练和微调的机制进行了深入解构:

  • 预训练的收益机制:研究者论证了预训练本质上是学习数据的底层上下文结构,并提出了「压缩即智能」的观点,认为语言模型的目标是实现对海量数据的无损压缩。从信息论视角出发,论证了 LLM 作为强大的无损压缩器,其压缩效率与下游任务性能之间存在强线性关系。

  • Scaling Laws 的本质:通过对计算、数据和参数规模的幂律关系分析,研究者探讨了能力「涌现」背后的连续性过程,并分析了流形假设下内在维度如何决定缩放指数。

  • 微调的数学保障:针对 LoRA 等 PEFT 技术,研究者分析了其在低秩子空间中的优化动力学,证明了低秩适配器在对齐预训练特征梯度方面的有效性,并揭示了权重初始化(如 A 随机、B 置零)对收敛稳定性的关键影响。

此外,这一阶段也存在着优化层面的前沿探索:

  • 超参数迁移:如何实现在小规模模型上寻找的最优超参数,能够「零样本」地直接应用于万亿级模型?

  • 优化算法的演进:除了 Adam 等一阶优化器,矩阵敏感型优化器(如 Muon)如何利用 Hessian 结构的块对角特性加速收敛?

4 对齐阶段:安全与价值的数学边界

图片

图表 5: 对齐阶段的理论概览。

对齐不仅是指令遵循,更是人类价值观的注入。研究者们从安全性与动力学视角进行了审视:

  • 对齐的理论基础:研究者分析了安全对齐的数学边界,探讨了现有对齐方法是否只是「浅层防御」,以及对齐后的模型是否存在回复原始分布的「弹性」。研究者认为只要有害行为的概率不被完全消除,通过对抗性提示触发违规行为在数学上是不可避免的。

  • 弱到强泛化(W2SG):在超智能时代,弱监督者如何可靠地控制强受训者?研究者从偏差 - 方差分解等视角,分析了强模型纠正弱信号错误的机制,并界定了泛化增益。

  • 强化学习的作用:研究者探讨了 RL 是激活了预训练中的潜在模式(如代码能力、数学推理能力),还是通过长期的策略复位真正扩张了推理边界。同时量化了对齐与预训练知识保持之间的权衡,并从变分信息瓶颈视角提出了缓解「Reward Hacking」的方法。

此外,对齐阶段还面临着深层次的开放挑战:

  • 训练与对齐的关系:SFT 和 RL 在塑造模型行为上有何本质区别?为什么 RL 在泛化性上通常优于简单的行为克隆?

  • RL 的前沿疆界:在缺乏验证器的开放领域,如何设计高效的奖励信号?

5 推理阶段:解密静态模型的前向过程

图片

      图表 6: 推理阶段的理论概览。

推理是释放模型潜力的关键环节。研究者们解密了大模型推理中的「思维」过程:

  • 提示工程与机制分析:研究者从任务重参数化角度理解 Prompt,利用 Token 分布动力学和归纳头(Induction Heads)机制,剖析了 Prompt 如何引导模型内部的信息路由。

  • 上下文学习(ICL)的机制:研究者对比了「算法执行」与「任务定位」两种观点,探讨了 Transformer 是否在推断时隐式地运行了优化算法。

  • 推理时扩展(Inference-Time Scaling):研究者分析了 CoT 如何作为模型的 「深度扩展器」,证明思维链能显著提升 Transformer 的计算复杂度上限,并探讨了搜索算法如何通过外部计算换取推理质量。

此外,推理阶段也暴露了一些特殊的理论现象:

  • 过度思考(Overthinking):在推理时投入更多计算资源是否总是正向的?模型为何会在简单问题上陷入冗余推理?

  • 隐式推理(Latent Reasoning):模型能否在不输出显式 Token 的情况下,直接在隐空间中完成多路径的思维并行?

6 评估阶段:从基准测试到形式化保证

图片

      图表 7: 评估阶段的理论概览。

评估是大模型进步的标准,但当前的评估手段正面临严峻挑战:

  • 基准测试理论:研究者利用不同的理论框架分析了传统基准测试的饱和问题与捷径学习现象,并剖析了「LLM-as-a-Judge」模式中的系统性偏见。

  • 安全性与透明度:研究者深入探讨了可解释性(如 Sparse Autoencoders),对模型内部特征进行解构,并利用计算不可解性证明了在任何可计算的 LLM 中,幻觉都是不可消除的理论必然。

  • 抗误用机制:研究者通过水印(Watermarking)等技术,探讨了识别 AI 生成内容与保持文本质量之间的理论权衡。

此外,评估阶段也催生了关于模型内部表示的深刻讨论:

  • 线性表示假设:语义概念(如真实性)在模型潜空间中是否真的以线性方向编码?

  • 推理失效模式:如「逆转诅咒(Reversal Curse)」和「位置偏差(Lost-in-the-Middle)」,这些失败案例揭示了自回归模型在逻辑对称性上的本质缺陷。

结语:迈向 AGI 的未来

尽管我们已经迈出了从经验迈向科学的第一步,但随着 LLM 的不断发展,更多的前沿理论问题依然亟待解决。正如爱因斯坦所言:「科学的伟大目标是用最少数量的假设或公理推导出最大数量的经验事实。」我们希望为社区提供一份结构化的 LLM 理论研究路线图,共同揭开黑盒背后的真理。

作者介绍

刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文 100 余篇,其中以第一作者 / 通讯作者发表顶级期刊和会议论文近 50 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。获中国人民大学「杰出学者」、中国科学院「青年创新促进会」成员、中国科学院信息工程研究所「引进优青」等称号。主持国家自然科学面上 / 基金青年、北京市面上项目、中科院基础前沿科学研究计划、腾讯犀牛鸟基金、CCF - 华为胡杨林基金等项目。

甘泽宇,中国人民大学高瓴人工智能学院博士研究生,本科及硕士研究生毕业于中国人民大学信息学院。当前主要研究方向包括大模型机理分析。

今天凌晨,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块Engram,论文题为“Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”,梁文锋再次出现在合著者名单中。

与传统的大模型架构相比,该方法提出了一种新的“查—算分离”机制,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。代码与论文全文均已开源。

 

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

代码地址:https://github.com/deepseek-ai/Engram

 

这种查和算分离的 Engram 新方法的整体架构如下图所示:

 

为什么需要 Engram?

 

那么,我们为什么需要 Engram ?

 

目前主流的大语言模型架构依然基于 Transformer 和Mixture-of-Experts(MoE)结构。MoE 是目前推进参数规模和能力扩展的关键技术之一,通过动态路由机制,只激活部分参数以降低计算成本,同时在任务容量方面实现大规模扩展。DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先进的 MoE 方法进行扩展训练。

 

但在这些传统的 Transformer 架构(无论是 Dense 还是 MoE)中,模型的参数实际上承担着两种截然不同的角色:

 

事实性记忆(Memorization):存储海量的知识事实。例如,“法国的首都是哪里?”、“世界最高的山脉是哪座”等。这类信息相对死板,更多依赖于“查表”式的检索。

 

逻辑推理与计算(Calculation):负责复杂的逻辑链条、多步推理和情境理解。例如,“根据这段代码的逻辑推导可能的 Bug”、“解析一段复杂的哲学论证”。

 

目前的大语言模型倾向于将这两者混在一起。当你试图让模型记住更多知识时,你不得不增加参数量。而在传统的 Dense 模型中,参数量增加意味着前向传播时的计算量(FLOPs)也会同步激增。MoE 架构虽然通过稀疏激活解决了“算力随参数同步爆炸”的问题,但 DeepSeek 研究发现,MoE 专家在处理“死记硬背”的任务时依然不够高效

 

神经网络本质上是连续的数学变换,用高昂的矩阵运算去模拟简单的“查表检索”,本身就是一种极大的浪费。DeepSeek 的 Engram 正是为了打破这一困境——“该查表的查表,该算的算”

Engram 的核心思想与架构

 

聚焦到问题本身,Engram 方法为什么能解决上述问题?

 

“Engram”一词源自神经科学,意为“记忆痕迹”,它是一个可扩展、可查找的记忆模块,用于语言模型在推理过程中过去可能已经见过的模式或片段。

 

Engram 的核心技术之一是现代化的哈希 N-Gram 嵌入(Modernized Hashed N-gram Embeddings)

 

  • 传统方式:模型通过多层自注意力(Self-Attention)和 MLP 层的非线性变换,反复提取输入文本中的特征。

  • Engram 方式:它对输入的 Token 序列进行 N-Gram(连续 N 个词)切片,并利用哈希算法将这些片段映射到一个巨大的、可学习的查找表(Lookup Table)中。

 

由于采用哈希索引,这种查找是确定性且 O(1) 时间复杂度的。这意味着无论模型存储了多少万亿个记忆片段,检索的速度几乎是恒定的,且算力消耗极低。

 

O (1) 的含义是: 一次查找的耗时是常数级的,与 N-gram 表的规模无关。

 

也就是说,这种设计本质上将一部分“记忆职责”从深度神经计算中卸载出来(例如序列模式、固定知识段的识别与回填),使得模型既拥有活跃神经通道(例如 Transformer + MoE)处理复杂计算,也有静态记忆通道高效处理固定模式,这就是所谓的“稀疏性的新轴”(a new axis of sparsity)。

 

简单来说就是 MoE 负责:“计算密集”神经推理与复杂组合功能、Engram 负责:“记忆查找”固定模式以及模式重建,两者协同构成一个更高效的整体架构。

 

此外,它还具备条件记忆(Conditional Memory)。与简单的静态查找表不同,Engram 是“条件化”的。它会根据当前上下文的隐向量(Hidden States)来决定提取哪些记忆。

 

在架构设计上,Engram 模块位于 Transformer 层的早期阶段。它负责“模式重构(Pattern Reconstruction)”,即在计算层(MoE 或 Dense)开始干活之前,先把相关的背景事实和历史模式检索出来,作为“素材”喂给后续的逻辑层。

 

它与 MoE(Mixture of Experts)的关系是怎样的?

 

论文特别指出:Engram 提供了一个新的稀疏性轴,与 MoE 的条件计算不同,它通过条件查找提供静态记忆容量。下面图表中从目标、计算方式、优化方向和作用位置四个维度解释了 Engram 和 MoE 的区别。

 

最后,DeepSeek 将 Engram 与 MoE 结合,形成了一个双系统:

 

  • Engram 模块:负责海量知识点的“存储与快速检索”。

  • MoE 专家:摆脱了沉重的记忆负担,全身心投入到“逻辑推理与合成”中。

 

这种分工极大地优化了参数效率。在 27B 的实验模型中,Engram 模块可以占用大量的参数用于记忆,但在实际推理时,它只消耗极少的计算量(FLOPs)。

 

网友:V4 将采用这种架构

 

在 Reddit、X 和其他平台的相关帖子中,Engram 的技术核心受到了不少用户的肯定和技术肯定。众多网友认为这个模块的特点在于让模型架构处理“记忆模式查找”和“神经计算推理”两块职责分离,从而开启了新的稀疏性方向。

 

在 Reddit 平台有用户评论说:

 

 “Engram 嵌入方法很有意思。大多数模型仅通过 MoE 进行扩展,但 Engram 增加了静态记忆作为补充的稀疏性轴,查找复杂度为 O(1)。他们发现 MoE 和 Engram 之间存在 U 形缩放规律,这指导着如何在两者之间分配容量。分析表明,这减轻了早期层级静态模式重建的压力,从而保留了用于复杂推理的深度。确定性寻址意味着它们可以将嵌入表卸载到主机内存中,而不会增加太多推理开销。”

 

同时,有用户对这种基于 n-gram lookup 的机制表达了直观兴趣,他评论道:

 

“即便是在不依赖 GPU 的环境下也能实现这种 O(1) 查找方式,让不少开发者对本地部署这样的大模型功能有了更实际的期待。”

 

在部分技术性评论中,有人指出:

 

即从已有技术逻辑来看,在 LLM 中加入静态记忆查找似乎是“顺理成章”的发展方向。

 

这类观点反映了一个重要观点:专家群体开始从纯参数扩张思维转向更“智能”的架构设计,包括查表式模块和神经网络的协同。

 

不少高级开发者在讨论中进一步提到,这种设计在理念上类似于对传统 NLP 技术(如 n-gram embedding)的现代化转换,结合了高效寻址机制(deterministic addressing)和神经推理模块,这种组合在纸面上看具有较高的可行性和实用性(这一点正是 Engram 的核心贡献)。 

 

另一条社区评论指出,Engram 很可能是DeepSeek 即将发布的 V4 模型的核心技术基础

 

业内观察者认为 Engram 模块可能会成为 DeepSeek V4 的重要组成部分,并预示 DeepSeek 下一代模型会在记忆和推理协同上实现架构级提升。

 

在 X 平台,也有网友表达了同样的猜测,认为 V4 也将采用这种架构。

还有网友调侃,原本想抄袭下谷歌的技术,但现在要抄袭 DeepSeek 了,因为它比谷歌更好!

还有网友表示,其实 Meta 之前也有过类似想法,但用到的技术不同。

参考链接:

https://www.reddit.com/r/LocalLLaMA/comments/1qb034t/github_deepseekaiengram_conditional_memory_via/?utm_source=chatgpt.com

https://x.com/scaling01/status/2010748516788777445

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

这个没听说过,不过看纸面参数好像还行

  • 在 qwen3 基础上进行后训练
  • 同时提供 30A3B 和 235A22B 两种架构版本
  • 据称在 BrowserComp 测试中表现优异
  • 技术报告即将发布
  • MiT 许可证

比如一下上个版本提升:


在线体验:https://dr.miromind.ai/
GitHub:https://github.com/MiroMindAI/MiroThinker
Hugging Face:MiroThinker-v1.5 - a miromind-ai Collection


📌 转载信息
原作者:
artorius
转载时间:
2026/1/6 17:04:36