标签注意力机制下的文章

过去八年，Transformer 几乎重塑了整个人工智能研究版图。自 2017 年 Google 在「Attention Is All You Need」中提出这一架构以来，「注意力机制」逐渐从一种工程技巧演变为深度学习的通用范式——从自然语言处理到计算机视觉，从语音、多模态到科学计算，Transformer 正在成为事实上的基础模型骨架。

以 Google、OpenAI、Meta、Microsoft 为代表的工业界不断推动其规模化与工程化极限，而斯坦福、MIT、伯克利等高校则在理论分析、结构改进与新范式探索上持续输出关键成果。在模型规模、训练范式与应用边界不断被拓展的同时，Transformer 领域的研究也呈现出高度分化与快速演进的趋势——这使得系统性梳理与精选代表性论文，变得尤为必要。

为了让更多用户了解学术界在人工智能领域的最新动态，HyperAI超神经官网（hyper.ai）现已上线「最新论文」板块，每天都会更新 AI 前沿研究论文。

最新 AI 论文：https://go.hyper.ai/hzChC

本周，我们为大家精心挑选了 5 篇有关 Transformer 的热门论文，涵盖北大、DeepSeek、字节跳动 Seed、Meta AI 等团队，一起来学习吧！⬇️

本周论文推荐

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

北京大学与 DeepSeek-AI 的研究者提出 Engram，一种具有 O(1) 查找复杂度的可扩展条件记忆模块，通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补，从而释放早期层用于更深层的推理计算，并在推理任务（BBH +5.0，ARC-Challenge +3.7）、代码与数学任务（HumanEval +3.0，MATH +2.4）以及长上下文任务（Multi-Query NIAH：84.2 → 97.0）上取得显著提升，同时保持等参数量与等 FLOPs 的效率。

论文及详细解读 ： https://go.hyper.ai/SlcId

Engram 模型结构示例

STEM: Scaling Transformers with Embedding Modules

卡内基梅隆大学与 Meta AI 的研究人员联合提出一种静态的、基于标记索引的稀疏架构——STEM。用层内嵌入查找替代 FFN 的上投影，实现稳定训练，将每标记的 FLOPs 和参数访问量减少约三分之一，并通过可扩展的参数激活提升长上下文性能。通过将容量与计算和通信解耦，STEM 支持异步预取的 CPU 卸载，利用具有大角度分布的嵌入实现更高的知识存储容量，同时无需修改输入文本即可实现可解释、可编辑的知识注入,在知识和推理基准测试中，相比密集基线性能提升高达约 3–4%。

论文及详细解读 ： https://go.hyper.ai/NPuoj

STEM 系统架构示例

数据集由多个来源组成：OLMo-MIX-1124（3.9T标记），为 DCLM 与 Dolma1.7 的混合；NEMOTRON-CC-MATH-v1（数学导向）；以及NEMOTRON-PRETRAINING-CODE-v1（代码导向）。

数据集

SeedFold: Scaling Biomolecular Structure Prediction

字节跳动 Seed 团队提出 SeedFold，一种可扩展的生物分子结构预测模型，通过扩大 Pairformer 的宽度提升模型容量，采用线性三角注意力机制降低计算复杂度，并利用包含 2650 万样本的蒸馏数据集，在 FoldBench 上达到最先进性能，且在蛋白质相关任务上超越 AlphaFold3。

论文及详细解读**：** https://go.hyper.ai/9zAID

新型线性三角注意力模块示例

SeedFold 的数据集包含 2650 万样本，通过从两个主要来源进行大规模数据蒸馏扩展：实验数据集（0.18M）和源自 AFDB 与 MGnify 的蒸馏数据集。

数据集

Are Transformers Effective for

Time Series Forecasting?

本文发现，尽管 Transformer 在时序预测领域迅速流行，其自注意力机制的排列不变性会损失关键时间信息。通过对比实验，简单的单层线性模型在多个真实数据集上显著超越了复杂的 Transformer 模型。这一发现挑战了现有研究方向，并呼吁重新评估 Transformer 在时序任务中的有效性。

论文及详细解读**** ： https://go.hyper.ai/Hk05h

现有基于 Transformer 的时间序列预测方案的流程示例

相关 benchmarks 如下：

Reasoning Models Generate

Societies of Thought

谷歌、芝加哥大学与圣塔菲研究所的研究人员提出，像 DeepSeek-R1 和 QwQ-32B 这样的先进推理模型之所以表现卓越，并非仅仅因为更长的思维链，而是通过隐式模拟一种「思想社会」——即模型内部具有不同人格与专长的多样化视角之间类似多智能体的对话。通过机制可解释性与受控强化学习，他们证明了对话行为（如提问、冲突、调和）以及视角多样性与准确率之间存在因果关系，其中对「惊讶」的话语标记进行引导可使推理性能翻倍。这种思想的社会化组织使得对解空间的系统性探索成为可能，表明集体智能原则——多样性、辩论与角色协调——是有效人工推理的核心基础。

论文及详细解读 ： https://go.hyper.ai/0oXCC

多维度框架示例

数据集包含 8,262 个来自多个领域的推理问题，涵盖符号逻辑、数学求解、科学推理、指令遵循及多智能体推理，支持多视角推理，用于训练与评估模型。

数据集

以上就是本周论文推荐的全部内容，更多 AI 前沿研究论文，详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文，有意向者可添加神经星星微信（微信号：Hyperai01）。

下周再见！

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化

展开列表

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化

今天

性能提升60%，英特尔Ultra3这次带来了巨大提升

01月14日

继宇树后，唯一获得三家大厂押注的自变量：具身模型不是把DeepSeek塞进机器人

01月14日

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

01月14日

端到端智驾新SOTA | KnowVal：懂法律道德、有价值观的智能驾驶系统

01月14日

仅用10天？Anthropic最新智能体Cowork的代码竟然都是Claude写的

01月14日

AAAI 2026｜AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

01月14日

用AI从常规病理切片重建空间蛋白图谱：基于H&E图像的高维蛋白质表达预测

01月14日

京东首届AI影视创作大赛启动最高奖金10万元邀全民共创AI视频

01月14日

合合信息多模态文本智能产品“上新”，覆盖AI教育、AI健康、AI Infra多元场景

01月14日

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

01月14日

跳出「黑盒」，人大刘勇团队最新大语言模型理论与机理综述

01月14日

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

01月14日

相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会（报名开启）

01月13日

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

01月13日

无需重新训练，即可学习新任务，Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱

01月13日

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

01月13日

OpenAI的首款硬件：是AI耳机，今年销量要冲5000万

01月13日

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

01月13日

大模型中标TOP10里的黑马：中关村科金的应用攻坚之道

01月13日

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化

生物智能与人工智能的演化路径截然不同，但它们是否遵循某些共同的计算原理？

最近，来自帝国理工学院、华为诺亚方舟实验室等机构的研究人员发表了一篇新论文。该研究指出，大型语言模型（LLM）在学习过程中会自发演化出一种协同核心（Synergistic Core）结构，有些类似于生物的大脑。

论文标题：A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
论文地址：https://arxiv.org/abs/2601.06851

研究团队利用部分信息分解（Partial Information Decomposition, PID）框架，对 Gemma、Llama、Qwen 和 DeepSeek 等模型进行了深度剖析。

他们发现，这些模型的中层表现出极强的协同处理能力，而底层和顶层则更偏向于冗余处理。

协同与冗余：LLM 的内部架构

研究团队将大型语言模型视为分布式信息处理系统，其核心实验设计旨在量化模型内部组件之间交互的本质。为了实现这一目标，研究者选取了 Gemma 3、Llama 3、Qwen 3 8B 以及 DeepSeek V2 Lite Chat 等多种具有代表性的模型系列进行对比分析。

实验方法与量化指标

在实验过程中，研究者向模型输入了涵盖语法纠错、逻辑推理、常识问答等 6 个类别的认知任务提示词。

针对每一个提示词，模型会生成一段 100 个 Token 的回答，实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。

具体而言，研究人员计算了这些输出向量的 L2 范数，以此作为该单元在特定时间步的激活强度数据。

基于这些时间序列数据，研究团队应用了整合信息分解（Integrated Information Decomposition, ID）框架。

这一框架能够将注意力头对之间的交互分解为「持续性协同」和「持续性冗余」等不同原子项。

通过对所有注意力头对的协同值和冗余值进行排名并求差，研究者得到了一个关键指标：协同-冗余秩（Synergy-Redundancy Rank）。该指标能够清晰地标示出模型组件在处理信息时，究竟是倾向于进行独立的信号聚合，还是在进行跨单元的深度集成。

跨模型的空间分布规律

实验数据揭示了一个在不同架构模型中高度一致的空间组织规律。在归一化后的模型层深图中，协同分布呈现出显著的「倒 U 型」曲线：

冗余外周（Redundant Periphery）：模型的早期层（靠近输入端）和末期层（靠近输出端）表现出极低的协同秩，信息处理以冗余模式为主。在早期层，这反映了模型在进行基本的解词元化（Detokenization）和局部特征提取；而在末期层，则对应着 Token 预测和输出格式化的过程。
协同核心（Synergistic Core）：模型的中层则展现出极高的协同秩，形成了核心处理区。例如，在对 Gemma 3 4B 的热图分析中，中间层的注意力头之间表现出密集且强烈的协同交互，这正是模型进行高级语义集成和抽象推理的区域。

架构差异与一致性

值得注意的是，这种「协同核心」的涌现并不依赖于特定的技术实现。

在 DeepSeek V2 Lite 模型中，研究者即使是以「专家模块」而非「注意力头」作为分析单位，依然观察到了相同的空间分布特征。

这种跨架构的收敛性表明，协同处理可能是实现高级智能的一种计算必然，而非单纯的工程巧合。

这种组织模式与人脑的生理结构形成了精确的映射：人脑的感官和运动区域同样表现出高冗余性，而负责复杂认知功能的联合皮层则处于高协同的「全局工作空间」中心。

智能的涌现：学习驱动而非架构使然

一个关键的问题在于：这种结构是 Transformer 架构自带的，还是通过学习习得的？

研究人员通过分析 Pythia 1B 模型的训练过程发现，在随机初始化的网络中，这种「倒 U 型」的协同分布并不存在。随着训练步数的增加，这种组织架构才逐渐稳定形成。

这意味着，协同核心是大模型获得能力的标志性产物。

在拓扑性质上，协同核心具有极高的「全局效率」，有利于信息的快速集成；而冗余外周则表现出更强的「模块化」，适用于专门化处理。这种特征再次与人类大脑的网络架构形成了精确的平行关系。

协同核心的功能验证

为了验证协同核心是否真的驱动了模型行为，研究团队进行了两类干预实验：消融实验和微调实验。

消融实验：研究发现，消融那些高协同性的节点，会导致模型出现灾难性的性能下降和行为背离，其影响远超随机消融或消融冗余节点。这证明协同核心是模型智能的核心驱动力。

微调实验：在强化学习微调（RL FT）场景下，仅针对协同核心进行训练，获得的性能提升显著优于针对冗余核心或随机子集的训练。有趣的是，在监督微调（SFT）中这种差异并不明显。研究者认为，这反映了 RL 促进通用化而 SFT 更多倾向于记忆的特性。

结语

这项研究为大模型的可解释性开辟了新路径。它表明，我们可以从「自上而下」的信息论视角来理解模型，而不仅仅是「自下而上」地寻找特定的电路。

对于 AI 领域，识别协同核心有助于设计更高效的压缩算法，或者通过更有针对性的参数更新来加速训练。对于神经科学，这提供了一种计算上的验证，预示着协同回路在强化学习和知识迁移中可能扮演着至关重要的角色。

大模型虽然基于硅基芯片和反向传播算法，但在追求智能的过程中，它们似乎不约而同地走向了与生物大脑相似的组织模式。这种智能演化的趋同性，或许正是我们揭开通用智能奥秘的关键线索。

更多详情请参阅原论文。

标签注意力机制下的文章

AI 论文周报丨Transformer前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化｜

搓了一个 AGI 雏形：抛弃 Transformer，走 “先验 + 具身” 的婴儿发育路线

一代目 Demo

一代目 Demo 展示

最新文章

最近回复

分类

归档

其它

标签 注意力机制 下的文章

AI 论文周报丨Transformer前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化 ｜

搓了一个 AGI 雏形：抛弃 Transformer，走 “先验 + 具身” 的婴儿发育路线

一代目 Demo

一代目 Demo 展示

最新文章

最近回复

分类

归档

其它

标签注意力机制下的文章

大模型长脑子了？研究发现LLM中层会自发模拟人脑进化｜