标签自回归模型下的文章

在图像生成领域，扩散模型因其训练稳定和泛化能力强已逐渐走入主流行列。然而，面对海报、PPT、科普图等需要准确传达复杂信息的「知识密集型」场景时， 传统模型存在指令理解与细节刻画难以兼顾的短板。 另一个长期存在的问题是生成图像中的文字经常出现笔画错误或难以辨识，严重影响实用价值。

基于此，智谱于 2026 年 1 月联合华为开源了新一代图像生成模型 GLM-Image。 该模型基于昇腾 Atlas 800T A2 和昇思 MindSpore AI 框架完成全流程训练。其核心特点是采用了创新的「自回归+扩散解码器」混合架构（9B 自回归模型 + 7B DiT 解码器）， 将语言模型的深度理解能力与扩散模型的高质量生成能力相结合。

此外，模型通过改进 Tokenizer 策略，原生支持从1024×1024 到 2048×2048 的任意比例图像生成，无需重新训练。 GLM-Image 的创新性还体现在以下两个方面：

*解决文字渲染难题： 在 CVTG-2K 和 LongText-Bench 权威评测中，其文字准确率等关键指标均位列开源模型第一，显著提升了图像中文字的生成准确性。

*定义高性价比应用： 在 API 调用模式下，生成单张图片的成本仅需 0.1 元，成本仅为主流闭源模型的 1/10 至 1/3，为商业化应用提供了高性价比选择。

目前，「GLM-Image 精准语义高保真图像生成模型」已上线 HyperAI 官网（hyper.ai）的教程版块， 快来输出无限创意吧！

在线体验： https://go.hyper.ai/2jcCU

效果示例：

Demo 运行

1.进入 hyper.ai 首页后，选择「GLM-Image 精准语义高保真图像生成模型」，或进入「教程」页面选择。页面跳转后，点击「在线运行此教程」。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

注：页面右上角支持切换语言，目前提供中文及英文两种语言，本教程文章以英文为例进行步骤展示。

3.选择「NVIDIA RTX Pro 6000」以及「PyTorch」镜像，按照需求选择「Pay As You Go（按量付费）」或「Daily Plan/Weekly Plan/Monthly Plan（包日/周/月」，点击「Continue job execution（继续执行）」。

HyperAI 为新用户准备了注册福利，仅需 $1，即可获得 20 小时 RTX 5090 算力（原价 $7），资源永久有效。

4.等待分配资源，当状态变为「Running（运行中）」后，点击「Open Workspace」进入 Jupyter Workspace。

效果演示

页面跳转后，点击左侧 README 页面，进入后点击上方 Run（运行）。

待运行完成，即可点击右侧 API 地址跳转至 demo 页面

以上就是 HyperAI超神经本期推荐的教程，欢迎大家前来体验！

教程链接：

https://go.hyper.ai/2jcCU

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

展开列表

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

今天

端到端智驾新SOTA | KnowVal：懂法律道德、有价值观的智能驾驶系统

今天

仅用10天？Anthropic最新智能体Cowork的代码竟然都是Claude写的

今天

AAAI 2026｜AP2O-Coder 让大模型拥有「错题本」，像人类一样按题型高效刷题

今天

用AI从常规病理切片重建空间蛋白图谱：基于H&E图像的高维蛋白质表达预测

今天

京东首届AI影视创作大赛启动最高奖金10万元邀全民共创AI视频

今天

合合信息多模态文本智能产品“上新”，覆盖AI教育、AI健康、AI Infra多元场景

今天

500万次围观，1X把「世界模型」真正用在了机器人NEO身上

今天

跳出「黑盒」，人大刘勇团队最新大语言模型理论与机理综述

今天

百川开源全球最强医疗大模型M3，「严肃问诊」定义AI医疗新能力

今天

相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会（报名开启）

01月13日

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

01月13日

无需重新训练，即可学习新任务，Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱

01月13日

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

01月13日

OpenAI的首款硬件：是AI耳机，今年销量要冲5000万

01月13日

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

01月13日

大模型中标TOP10里的黑马：中关村科金的应用攻坚之道

01月13日

刚刚，梁文锋署名开源「记忆」模块，DeepSeek V4更细节了

01月13日

一个模型统一4D世界生成与重建，港科大One4D框架来了

01月13日

端到端智驾的算力困局，九章智算云这样破局

01月12日

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

站在 2026 年的开端回望，LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年，Transformer 架构以绝对的统治力横扫了人工智能领域，但随着算力成本的博弈和对推理效率的极致追求，挑战者们从未停止过脚步。

知名 AI 研究员 Sebastian Raschka 的最新洞察中，他不仅回应了关于「Transformer 是否会被取代」的年度终极之问，更敏锐地捕捉到了近期业界的一个重要转向：从单纯追求模型参数的「大力出奇迹」，转向了混合架构与效率微调的精细化战争。

同时，文章还探讨了一个极具潜力的变量：扩散语言模型。这类模型在 Google 等巨头的布局下会有怎样的表现？它们在「工具调用」上的天然缺陷是否会成为阿喀琉斯之踵？而在高质量数据日益枯竭的今天，扩散模型又是否能凭借「超级数据学习者」的特性，成为打破数据墙的关键？

以下内容编译自 Sebastian Raschka 的最新博文，并结合文中提及的前沿论文及往期深度分析进行了系统性拓展，以便读者获取更完整的上下文视角。

博客地址：https://x.com/rasbt/status/2010376305720594810

最近几周，我经常被问到的一个问题是：在 2026 年，我们是否会看到自回归 Transformer 架构（即标准的 LLM）的替代方案。

就目前而言，我坚信 Transformer 在未来（至少一到几年内）仍将保持其在 SOTA 性能方面的地位。它是当前 AI 生态系统的基石，拥有最成熟的工具链和优化方案。

但是，情况确实会发生一些微调。这并不是说架构会一成不变，而是这种变化更多体现在「效率」和「混合」上，而非彻底的推倒重来。

效率战争：混合架构与线性注意力的崛起

临近去年年底，我们看到业界更加关注混合架构以及如何提高其效率。当然，这并不是什么新想法，但近期来自顶尖实验室的发布表明，目前的侧重点已明显向此倾斜。

我们回顾一下 DeepSeek V3 以及随后的 R1，它们展示了混合专家模型（MoE）和多头潜在注意力（MLA）的强大之处。DeepSeek V3 通过 MLA 显著减少了推理时的 KV Cache 占用，而 MoE 架构则允许模型在拥有 6710 亿参数的同时，每次推理仅激活 370 亿参数。这种在保持模型巨大容量的同时极致压缩推理成本的设计思路，正是 2025 年末到 2026 年的主旋律。

但这还不是全部。除了 MoE，我们看到了更激进的效率尝试，例如 Qwen3-Next、Kimi Linear、Nvidia Nemotron 3，以及采用了稀疏注意力机制的 DeepSeek V3.2。（如果您对更多细节感兴趣，我在之前的《Big LLM Architecture Comparison》一文中对此进行了报道。）

^{带有这类效率调整的 Transformer 架构示意图。}

相关链接：https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

为什么大家都在卷「线性注意力」或「稀疏注意力」？

标准的 Transformer 注意力机制（Scaled Dot-Product Attention）具有 O(N^2) 的复杂度，这意味着随着上下文长度的增加，计算成本呈二次方爆炸式增长。

Qwen3-Next 和 Kimi Linear 采用了一种混合策略：它们并非完全抛弃标准注意力，而是将高效的线性层（如 Gated DeltaNet）与全注意力层以一定比例（如 3:1）混合。这种设计试图在捕捉长距离依赖（全注意力的强项）和推理速度（线性层的强项）之间找到最佳平衡点。
DeepSeek V3.2 则引入了稀疏注意力，通过只计算最重要的 Token 之间的相互作用，进一步降低了计算开销。

这些「微调」表明，2026 年的竞争不再仅仅是看谁的模型更聪明，而是看谁能在更长的上下文、更低的延迟下提供同等的智能。

扩散语言模型：速度与代价的博弈

话说回来，除了 Transformer 的变体，扩散语言模型怎么样？

扩散语言模型之所以具有吸引力，是因为它们能够以相对快速且低廉的成本生成 Token。与自回归模型（AR）那种「一个字接一个字」的串行生成不同，扩散模型采用的是并行生成。

想象一下，自回归模型像是一个人在打字，必须打完上一个字才能打下一个；而扩散模型更像是在冲洗一张照片，整段文字从模糊的噪声中同时显现，经过数次「去噪」迭代后变得清晰。

我前阵子在《Beyond Standard LLMs》一文中对此多写了一些。简而言之，我认为 2026 年我们会看到更多相关内容，Google 可能会推出 Gemini Diffusion 作为其更便宜的 Flash 模型的替代品。Google 已经在其技术博客中暗示了这一点，强调其生成速度「明显快于我们目前最快的模型」。

相关链接：https://magazine.sebastianraschka.com/p/beyond-standard-llms

然而，虽然扩散语言模型的优势在于它们可以并行生成 Token，但这同时也是一个巨大的缺点。因为由于并行生成的特性，它们无法在响应链中原生地整合工具调用。

在自回归模型中，模型可以生成「调用计算器」的指令，暂停，等待结果，然后再继续生成。而在扩散模型中，整个响应是同时生成的，很难在中间插入一个外部工具的交互步骤。这使得它们在作为智能体使用时面临巨大挑战。

^{文本扩散过程示例。}

此外，虽然众所周知文本扩散推理效率更高，但最近的研究也表明，如果你为了提升质量而增加去噪步数以匹配自回归模型的性能，那么最终的计算预算其实是相差无几的。

数据枯竭时代的「超级学习者」

那么，我想表达什么呢？既然扩散模型有这些缺陷，为什么我还认为它值得关注？

我原本计划讨论一月份发布的近期一系列有趣的研究，但我还是想简要重点介绍一篇我在「待读论文」清单上的、2025 年 11 月的有趣论文，它强调了扩散语言模型的一个有趣优势：《Diffusion Language Models are Super Data Learners》。

论文地址：https://arxiv.org/abs/2511.03276

^{来自论文《Diffusion Language Models are Super Data Learners》的带注释图表。}

这篇论文提出了一个在 2026 年至关重要的观点：当高质量数据变得稀缺时，扩散模型可能是更好的学习者。

众所周知，互联网上的高质量文本数据正在接近枯竭。对于自回归（AR）模型来说，通常我们只让模型把数据「看」一遍（1 Epoch）。如果让 AR 模型反复在同一份数据上训练，它们很容易过拟合，即死记硬背训练数据，导致在未见过的新任务上表现下降。

然而，上述论文表明，当进行多 Epoch 训练时，文本扩散模型的表现可能优于标准的自回归（AR）大语言模型。

根据论文的研究结果，在严格控制的预训练设置下，当唯一数据量有限时，通过增加训练轮数，扩散语言模型的表现持续超越了自回归模型。

这一现象被称为「Crossover（交叉点）」：

当数据量充足时，AR 模型学得更快。
但当数据受限时，DLM 是最终的赢家。例如，一个 10 亿参数的 DLM 模型，仅仅通过反复训练 10 亿个 Token（这在今天看是非常小的数据量），在 HellaSwag 和 MMLU 基准测试上分别达到了 >56% 和 >33% 的准确率，且没有使用任何特殊技巧。

为什么会这样？论文归结为三个因素：

任意顺序建模：AR 模型被迫只能从左到右学习，而扩散模型可以学习文本中任意位置之间的依赖关系。
超高密度计算：通过迭代的双向去噪，DLM 在训练时实际上对每个样本进行了更深度的压榨。
内置的蒙特卡洛增强：扩散过程本身就是一种数据增强。同一个句子，每次加噪的方式都不一样，相当于把一条数据变成了无数条变体。

更有趣的是，论文发现，对于 DLM 来说，验证集损失的上升并不意味着下游能力的下降。即便模型在验证集上看起来「过拟合」了，它在实际任务（如代码生成、推理）上的表现仍在提升。

由于成本原因，过去没有人会在多个 Epoch 上训练大语言模型。但在数据枯竭的今天，如果我们不得不进行多 Epoch 训练，扩散模型似乎提供了一条新出路。

这确实是有趣的结果！

标签自回归模型下的文章

在线教程丨GLM-Image基于自回归+扩散解码器混合架构，精准理解指令写对文字

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起｜

最新文章

最近回复

分类

归档

其它

标签 自回归模型 下的文章

在线教程丨GLM-Image基于自回归+扩散解码器混合架构，精准理解指令写对文字

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起 ｜

最新文章

最近回复

分类

归档

其它

标签自回归模型下的文章

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起｜