标签 稀疏化 下的文章

过去八年,Transformer 几乎重塑了整个人工智能研究版图。自 2017 年 Google 在「Attention Is All You Need」中提出这一架构以来,「注意力机制」逐渐从一种工程技巧演变为深度学习的通用范式——从自然语言处理到计算机视觉,从语音、多模态到科学计算,Transformer 正在成为事实上的基础模型骨架。

以 Google、OpenAI、Meta、Microsoft 为代表的工业界不断推动其规模化与工程化极限,而斯坦福、MIT、伯克利等高校则在理论分析、结构改进与新范式探索上持续输出关键成果。在模型规模、训练范式与应用边界不断被拓展的同时,Transformer 领域的研究也呈现出高度分化与快速演进的趋势——这使得系统性梳理与精选代表性论文,变得尤为必要。

为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。

本周,我们为大家精心挑选了 5 篇有关 Transformer 的热门论文,涵盖北大、DeepSeek、字节跳动 Seed、Meta AI 等团队,一起来学习吧!⬇️

本周论文推荐

1

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

北京大学与 DeepSeek-AI 的研究者提出 Engram,一种具有 O(1) 查找复杂度的可扩展条件记忆模块,通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补,从而释放早期层用于更深层的推理计算,并在推理任务(BBH +5.0,ARC-Challenge +3.7)、代码与数学任务(HumanEval +3.0,MATH +2.4)以及长上下文任务(Multi-Query NIAH:84.2 → 97.0)上取得显著提升,同时保持等参数量与等 FLOPs 的效率。

论文及详细解读 https://go.hyper.ai/SlcId

Engram 模型结构示例

2

STEM: Scaling Transformers with Embedding Modules

卡内基梅隆大学与 Meta AI 的研究人员联合提出一种静态的、基于标记索引的稀疏架构——STEM。用层内嵌入查找替代 FFN 的上投影,实现稳定训练,将每标记的 FLOPs 和参数访问量减少约三分之一,并通过可扩展的参数激活提升长上下文性能。通过将容量与计算和通信解耦,STEM 支持异步预取的 CPU 卸载,利用具有大角度分布的嵌入实现更高的知识存储容量,同时无需修改输入文本即可实现可解释、可编辑的知识注入,在知识和推理基准测试中,相比密集基线性能提升高达约 3–4%。

论文及详细解读 https://go.hyper.ai/NPuoj

STEM  系统架构示例

数据集由多个来源组成:OLMo-MIX-1124(3.9T标记),为 DCLM 与 Dolma1.7 的混合;NEMOTRON-CC-MATH-v1(数学导向);以及NEMOTRON-PRETRAINING-CODE-v1(代码导向)。


数据集

3

SeedFold: Scaling Biomolecular Structure Prediction

字节跳动 Seed 团队提出 SeedFold,一种可扩展的生物分子结构预测模型,通过扩大 Pairformer 的宽度提升模型容量,采用线性三角注意力机制降低计算复杂度,并利用包含 2650 万样本的蒸馏数据集,在 FoldBench 上达到最先进性能,且在蛋白质相关任务上超越 AlphaFold3。

论文及详细解读**:** https://go.hyper.ai/9zAID


新型线性三角注意力模块示例

SeedFold 的数据集包含 2650 万样本,通过从两个主要来源进行大规模数据蒸馏扩展:实验数据集(0.18M)和源自 AFDB 与 MGnify 的蒸馏数据集。

数据集

4

Are Transformers Effective for

Time Series Forecasting?

本文发现,尽管 Transformer 在时序预测领域迅速流行,其自注意力机制的排列不变性会损失关键时间信息。通过对比实验,简单的单层线性模型在多个真实数据集上显著超越了复杂的 Transformer 模型。这一发现挑战了现有研究方向,并呼吁重新评估 Transformer 在时序任务中的有效性。

论文及详细解读**** https://go.hyper.ai/Hk05h

现有基于 Transformer 的时间序列预测方案的流程示例

相关 benchmarks 如下:

5

Reasoning Models Generate

Societies of Thought

谷歌、芝加哥大学与圣塔菲研究所的研究人员提出,像 DeepSeek-R1 和 QwQ-32B 这样的先进推理模型之所以表现卓越,并非仅仅因为更长的思维链,而是通过隐式模拟一种「思想社会」——即模型内部具有不同人格与专长的多样化视角之间类似多智能体的对话。通过机制可解释性与受控强化学习,他们证明了对话行为(如提问、冲突、调和)以及视角多样性与准确率之间存在因果关系,其中对「惊讶」的话语标记进行引导可使推理性能翻倍。这种思想的社会化组织使得对解空间的系统性探索成为可能,表明集体智能原则——多样性、辩论与角色协调——是有效人工推理的核心基础。

论文及详细解读 https://go.hyper.ai/0oXCC

多维度框架示例

数据集包含 8,262 个来自多个领域的推理问题,涵盖符号逻辑、数学求解、科学推理、指令遵循及多智能体推理,支持多视角推理,用于训练与评估模型。

数据集

以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。

下周再见!

梯度传输的带宽消耗始终是制约效率的关键枢纽,而梯度压缩作为突破这一瓶颈的核心手段,其真正的技术难点从未停留在压缩比例的提升,而是如何在极致削减数据传输量的同时,守住收敛稳定性的底线。很多实践者容易陷入“压缩率越高越好”的认知误区,却忽视了异步环境下各节点计算节奏差异、梯度更新延迟等因素与压缩操作的叠加效应,往往导致模型训练出现震荡加剧、收敛曲线平缓甚至倒退的问题,这种问题在千万级以上参数模型的长周期训练中表现得尤为明显,不少团队耗费大量算力资源,最终却因梯度压缩策略不当导致训练半途而废。真正的技术深耕者会发现,梯度压缩的本质并非简单的信息删减,而是梯度特征的结构化保留与噪声过滤,如何在数据量锐减的情况下,让核心梯度信息完整传递并有效作用于模型更新,才是决定训练成败的关键,这需要跳出单纯的算法优化,从梯度传播规律、节点协同逻辑、误差补偿机制等多维度构建系统性解决方案,实现效率与精度的双向平衡。

异步分布式训练的核心挑战在于各节点的独立性与全局模型的一致性之间的天然矛盾,而梯度压缩的介入会进一步放大这种矛盾,其根源在于梯度过时与压缩误差的双重叠加。在异步架构中,各工作节点独立完成本地计算后直接上传梯度,无需等待其他节点,这种模式虽然提升了资源利用率,但不同节点的计算速度、数据处理规模存在天然差异,部分节点可能因硬件性能不足或数据批次复杂,导致上传的梯度基于的是较早版本的全局参数,形成明显的梯度过时现象,这种现象在异构算力集群中更为突出,GPU节点与CPU节点的计算效率差异可能让梯度版本差达到数轮之多。当引入梯度压缩后,无论是量化操作对梯度精度的损耗,还是稀疏化对梯度维度的裁剪,都会在梯度过时的基础上增加新的误差源,这些误差如果不能得到有效管控,就会在迭代过程中不断累积,最终破坏梯度下降的整体方向,让模型参数更新偏离最优路径。解决这一问题的关键在于建立“动态感知-误差校准”的联动机制,通过实时捕捉各节点的计算状态、参数版本差异,为不同节点的压缩梯度分配动态权重,让过时程度较轻、信息密度较高的梯度获得更高的更新优先级,同时对压缩过程中丢失的细粒度特征进行合理推演补偿,从而在保持异步训练高效性的前提下,最大限度降低误差累积对收敛的影响。

梯度压缩的精度守护不能依赖单一的压缩算法优化,而需要构建“结构化保留-自适应调整”的双重保障体系,让压缩操作与训练进程深度耦合。传统的固定阈值稀疏化或均匀量化方法,之所以容易导致收敛波动,核心在于其忽略了梯度在不同训练阶段的分布特性差异——训练初期梯度分布分散,核心特征不突出,过度压缩会丢失关键更新信号,导致模型无法快速找到有效下降方向;训练后期梯度逐渐集中,冗余信息增多,但细粒度梯度对精度微调至关重要,简单的量化会抹平这些关键差异,让模型难以逼近最优收敛点。基于实践中的观察与探索,有效的做法是采用基于梯度分布特征的动态压缩策略,通过分析梯度的概率分布形态、特征重要性排序,建立层级化的保留机制,对影响模型决策的核心梯度分量采用低压缩比甚至不压缩,对冗余梯度则根据其贡献度动态调整压缩强度,比如在计算机视觉模型训练中,针对卷积层的梯度采用差异化压缩,对边缘检测相关的梯度分量重点保留。同时,将压缩策略与模型的训练状态实时联动,通过监测训练损失曲线的变化速率、参数更新的稳定性,自适应调整压缩参数,当发现收敛出现波动时,自动降低压缩强度或启动误差补偿机制,确保压缩操作始终服务于收敛目标,而非单纯追求传输效率。

误差补偿机制是梯度压缩中守护收敛稳定性的隐形核心,其设计的关键在于精准识别压缩过程中丢失的有效信息,并通过合理的推演与反馈实现损失弥补。很多压缩方案之所以失败,并非因为压缩比例过高,而是缺乏有效的误差补偿逻辑,导致每次压缩造成的信息损失不断累积,最终偏离最优收敛路径,这种累积误差在小批量训练场景中尤为致命,可能让模型在几轮迭代后就出现性能断崖式下跌。实践中发现,梯度压缩造成的误差并非随机噪声,而是具有明显的结构性特征——量化误差多集中在梯度的细粒度分量,这些分量看似对单次更新影响微小,却在长周期训练中决定着模型的最终精度;稀疏化误差则表现为部分低频但关键的梯度信号被过滤,这类信号往往与模型的泛化能力密切相关。针对这些特性,可构建双轨制误差补偿体系:一方面,通过维护本地残差梯度缓存,将每次压缩过程中丢弃的梯度信息以残差形式累积,在下一轮迭代中与新计算的梯度融合后再进行压缩,实现误差的渐进式抵消,这种方式尤其适合处理量化带来的细粒度误差;另一方面,引入梯度相关性校准机制,通过分析历史梯度更新与模型性能变化的关联规律,对当前压缩后缺失的关键特征进行合理推演,生成补偿梯度并融入全局更新过程,这种方式能有效修复稀疏化导致的低频信号丢失问题。

异步环境下的节点协同策略对梯度压缩的收敛效果具有决定性影响,其核心在于通过优化节点间的信息交互逻辑,降低压缩误差与梯度过时的叠加效应。在传统异步训练中,参数服务器被动接收各节点上传的压缩梯度并直接聚合,这种模式容易导致不同节点的梯度误差相互干扰,尤其是当部分节点的压缩梯度存在较大偏差时,会直接影响全局模型的更新方向,让收敛曲线出现剧烈震荡。通过大量实践验证,优化节点协同的关键在于建立“梯度质量评估-有序聚合”机制,参数服务器在接收压缩梯度时,首先对其质量进行多维度评估,包括梯度与当前全局参数的匹配度、压缩误差的预估大小、节点历史贡献度等,这些评估维度并非固定不变,而是根据训练阶段动态调整权重,比如训练初期侧重梯度匹配度,训练后期侧重压缩误差控制。根据评估结果对梯度进行优先级排序,优先聚合质量较高、误差较小的梯度,同时对质量较低的梯度进行适度加权衰减,降低其对全局更新的干扰,避免低质量梯度主导参数更新方向。此外,通过动态调整节点的梯度上传频率,让计算性能强、数据质量高的节点获得更频繁的上传权限,减少低质量梯度的传输与聚合,从源头降低压缩误差对收敛的负面影响,形成节点协同与梯度压缩的良性循环。

梯度压缩的收敛稳定性最终需要在大规模、长周期的训练场景中得到验证,而实践中的核心认知在于,压缩策略的设计必须兼顾精度守护与工程可行性,避免陷入“为了稳定而牺牲效率”的另一个极端。在千万级参数模型的训练实践中发现,单纯追求理论上的精度无损压缩是不现实的,合理的精度损耗是换取效率提升的必要代价,关键在于建立“损耗可控-动态平衡”的决策框架,明确模型精度的容忍阈值,这个阈值需要结合具体任务需求设定,比如工业级模型可接受1%以内的精度损耗,而科研级模型则需要控制在0.5%以下。通过设定收敛精度的容忍阈值,在训练过程中实时监测精度变化,当损耗在阈值范围内时,最大化压缩效率;当损耗超出阈值时,自动启动调整机制,通过降低压缩比、强化误差补偿等方式将精度拉回可控范围。