Google DeepMind 学习系列笔记（1） Build Your Own Small Language Model

作者: 纯情
时间: 2026-02-04
分类: 开源
评论

语言模型是如何进行预测下一个词的？

简单来说，语言模型是通过根据当前给出句子，结合语境进行计算下一个词出现的概率分布，然后从中选择一个作为输出结果

比如：

输入: Jide was hungry so she went looking for...

可能的预测结果: food(0.75) snacks(0.2) leftovers(0.05)

最终大概率输出: Jide was hungry so she went looking for food

为什么采用概率进行预测？

采用概率的方式进行随机采样，可以改善内容生成的多样性，在大部分场景下，我们更希望同样的输出可以有不同的输出
模型有时可能会出错，采用概率的方式，可以通过执行多次生成，来得到一个更加合理的结果
尽管使用了概率，但仍然可以进行确定性的结果输出，可以通过每次都获取概率最大的词汇的方式(贪心)，来确保每次输入都可以得到同样的输出结果

N-grams 模型

概述

N-grams 模型简单来说就是先统计一个词在与其他词进行组合的概率，也就是它们一起出现的概率，然后在给定的一个句子去生成完整的一段话时，就是基于前面进行统计计算的概率进行预测；

比如说，你经常会见到"这座山很高"的描述，但你很少见到"这座山很早上"的描述，那么在给定"这座山"这个上下文去生成完整的一段话时，预测得到"很高"接在后面的概率就比"早上"要高

统计公式

N-grams 模型的统计方式就是一个简单的条件概率公式

比如：

$$
P( 水秀 | 山清 )
$$

表示在"山清"一词在前面出现的前提下,"水秀"一词它一起组合的概率

这个概率的计算结果根据条件概率公式

$$
P(B|A) = \\frac{Count(A B)}{Count(A)}
$$

得到:

$$
P( 水秀 | 山清 ) = \\frac{Count(山清水秀)}{Count(山清)}
$$

其中Count(山清水秀)表示在文本集中"山清水秀"出现的次数,Count(山清)就是在文本集中出现的次数,P( 水秀 | 山清 )就是相对于其它词与"山清"进行组合出现的概率(在文本集中不只是"水秀"和"山清"一起组合出现)

N 词统计

N-grams 中的"N"表示一个预测上下文窗口大小(由几个字组合)

当

N=1 时,就只是统计单独一个词出现的概率, 比如"桂林山水甲天下",就将拆成"桂","林","山","水","甲","天","下"去进行统计
N=2 时,统计连续两个字出现的概率,"桂林山水甲天下",将拆成"桂林","林山","山水","水甲","甲天","天下"
N=3 时,统计连续三个字出现的概率,"桂林山水甲天下",将拆成"桂林山","山水甲","甲天下"去进行统计

现在换个例子,我们假设"白云山"在文本集中出现了600次,"白云"在文本集中出现了900次,而"白云下"只出现了10次,那么

"白云"和"山"一起出现的概率是

$$
P(山|白云) = \\frac{Count(白云山)}{Count(白云)} = \\frac{600}{900} = 0.66
$$

而"白云"和"下"一起出现的概率是

$$
P(下|白云) = \\frac{Count(白云下)}{Count(白云)} = \\frac{10}{900} = 0.011
$$

当在给定"白云"时,预测下一个出现的词相比于"下","山"的出现概率会更高,即输出"白云山"的概率将远大于"白云下"

图例

![N-grams 图例](https://zpekii.github.io/assets/img/2025-11-4-google-deep-min...)

N-grams 模型的局限性

能力受语料库大小限制
无法处理数据集中从未出现过的词汇预测
因为能力受预料库大小限制,所以很容易出现高重复度的内容输出,生成不够多样
缺乏上下文意识,N-grams只考虑句子的最后 n - 1 个词,忽略了长距离文本的依赖关系,生成的内容可能出现描述前后不一致的情况

Transformer 模型

相比于 N-grams 模型, Transformer 模型生成的内容比前者更流利、上下文更相关的原因主要是以下两方面:

Transformer 模型有更大的上下文窗口
Transformer 模型基于能够学习复杂和抽象内容的神经网络

训练一个模型的过程

机器训练简单过程描述

预测：模型观察一串单词（输入），并尝试预测下一个标记（目标）
比较：然后将预测结果与实际进行比较。模型预测与目标之间的差异将记录成一个 Loss 值。高 Loss 值表示模型猜测错误，低 Loss 值表示猜测接近实际
调整：基于这一损失，模型略微调整参数以提升下一次猜测。这种猜测、检查 Loss 值和调整的过程称为优化

机器学习开发流程

准备数据集(data): 收集资料->清洗数据,过滤有害或有偏见的内容->拆分和格式化数据,将内容分解成模型能理解的小单位
训练(Train):使用一个现有的预训练模型,在此基础上进行训练(从零开始成本很高)
微调(Fine-tune): 根据特定目的和期望行为进行微调,此步骤包括
- 监督微调(SFT:Supervised Fine-tuning):预训练模型会在专门为 目标任务创建的较小且高质量的数据集上进一步训练
- 人类反馈强化学习(RLHF:Reinforcement Learning from Human Feedback):这一阶段侧重于使 AI 的行为与人类偏好对齐，使其更具帮助性和无害性
评估(Evaluate): 在正式发布给用户前,除了在准确性，还包括性能、安全性、公平性和整体实用性方面进行严格评估外,还需要进行人类评估
部署(Deploy): 在满足评估标准后,进行部署投入实际应用,并在此期间进行监控

author: Smoothcloud润云-Zpekii

从识别字符到理解结构，“树模型”让AI“看懂”复杂手写数学公式

作者: 纯情
时间: 2026-02-04
分类: 资讯
评论

论文名称：A tree-based model with branch parallel decoding for handwritten mathematical expression recognition

作者：Zhe Li, Wentao Yang, Hengnian Qi, Lianwen Jin, Yichao Huang, Kai Ding

发表期刊：Pattern Recognition (Volume 149, 2024)

一、背景与问题提出

手写数学表达式识别是一项具有高度挑战性的视觉—语言理解任务，其难点主要来源于数学表达式本身所具有的结构复杂性与表达多样性。与普通文本不同，数学表达式中的符号数量庞大，且符号之间并非简单的线性排列，而是通过上下标、分式、根式等形式构成复杂的二维空间关系。这种“非线性、层级化”的空间结构使得识别过程不仅需要准确区分单个符号，还必须正确理解符号之间的相对位置与组合关系，从而显著提高了整体识别难度。

与此同时，手写数学表达式在尺度和形态上呈现出高度多样性。不同符号在尺寸、笔画粗细以及空间分布上差异明显，同一表达式中也可能同时包含大尺寸的主符号和小尺寸的上下标符号。这种多尺度特性使得单一尺度的特征提取方式难以兼顾全局结构与局部细节，因此如何有效建模多尺度特征成为该领域亟需解决的关键问题。现有研究通常借助多尺度编码和数据增强策略来缓解这一挑战，但仍存在表达能力不足的问题。

此外，标注数据的稀缺性与书写风格的多样性进一步制约了模型性能。高质量的手写数学表达式标注成本较高，公开数据集规模有限，而不同书写者在符号形态、连笔方式和空间布局上的差异又显著增加了数据分布的复杂性，导致模型在实际应用中泛化能力不足。因此，如何通过生成式方法、弱监督或半监督学习等手段扩充数据、提升模型鲁棒性，成为当前研究的重要方向。

在建模方式上，主流方法通常将数学表达式转化为 LaTeX 等线性序列进行预测，依赖 RNN 或 Transformer 等序列化解码模型。然而，这类方法的解码时间步数往往与输出序列长度直接相关，当表达式较长或结构复杂时，解码过程不仅效率低下，而且错误容易在长序列中累积，严重影响识别精度。这一“长序列注意力解码瓶颈”已成为制约现有方法实用性的核心问题之一。更为重要的是，许多现有方法主要聚焦于符号级别的识别，将结构信息隐式地交由模型学习，缺乏对数学表达式语法规则和层级结构的显式建模。这种做法往往导致识别结果在形式上虽然由合法符号组成，但在结构或语义上不符合数学语法约束，降低了结果的准确性与可解释性，也限制了模型在复杂表达式场景下的表现。

基于上述背景，《A tree-based model with branch parallel decoding for handwritten mathematical expression recognition》（以下简称“论文”）关注并尝试回答以下关键问题：

（1）如何通过减少序列解码的时间步数来缓解长序列建模带来的效率与稳定性问题；

（2）如何显式地建模符号之间的空间关系与结构信息，以提升数学表达式识别的结构准确性；

（3）以及如何充分利用这些结构信息，实现多分支或并行化的解码机制，从而在保证识别精度的同时显著提升整体推理效率与性能。

二、研究内容与创新点

针对上述提出的挑战和问题，论文提出了一种创新的解决方案，主要体现在以下几个方面。首先，设计了一种基于树结构的模型——“分支并行解码的树模型（BPD）”，通过显式建模数学表达式树中的符号及其关系，有效捕获了表达式的层级结构。该模型采用编码器–解码器架构，其中编码器利用卷积神经网络（CNN）提取图像特征，并对特征进行位置编码，以增强位置感知能力。解码器部分基于Transformer结构，通过符号预测器和关系预测器，分别识别符号及其间的空间关系。

同时，核心创新在于引入“查询构建模块”，该模块利用已预测的关系信息，构建新的解码查询，从而实现多分支的并行解码。这一设计大幅度减少了传统方法中逐个深度优先解码的长序列长度，有效缓解了长序列注意力解码的问题，从而提升了识别速度和准确性。此外，本方法还采用了“多子树节点（MCN）”标记处理多子节点的问题，实现对多分支结构的同步预测，从而更好地适应复杂的表达式结构。综上所述，本文的主要创新点在于通过显式结构建模、引入并行解码策略以及特殊的节点关系处理策略，提出了一种高效、准确且具有语法合理性的手写数学表达式识别新框架，为解决长序列解码瓶颈和结构理解不足的问题提供了有效的解决方案。

主要技术亮点包括：

树结构建模：充分利用数学表达式的结构特性，将表达式解析成树状结构，并逐步预测节点及其关系。
分支平行解码：假设不同分支之间相互独立，利用预测的关系信息，同时对多个分支进行并行解码，降低解码步骤，从而提高效率。
查询构建模块：动态生成新的解码查询，使得分支可以在解码过程中实现“并行处理”，减轻sequence长序列带来的性能瓶颈。

Fig.1 这张图展示了本文提出的更新型树结构模型的整体架构。该模型主要由四个核心部分组成：编码器、解码器、符号预测器以及关系预测器。此外，还引入了查询构建模块，用于实现多分支的平行解码，从而有效降低解码时间。

首先，编码器部分采用一款33层的ResNet-like卷积网络，用于从手写数学表达式图像中提取深层特征。为了增强模型的空间定位能力，编码器将位置信息编码融入到提取的特征中，使用二维正弦和余弦函数生成位置编码，并将其与特征相加，得到位置感知的特征表示。这一过程确保模型能够充分利用空间结构信息，便于后续的关系预测。

在解码阶段，模型采用基于Transformer的结构来进行符号和关系的预测。每个解码步骤t中，查询向量Qt由前一轮预测的符号或关系的嵌入向量与上一轮的解码查询拼接而成
$ Q_{t}=Concat(Q_{t-1},Emb(y_{t-1})) $。为了保证因果性和模型训练的效率，采用了带掩码的多头自注意力机制（masked multi-head attention）。在训练时，应用下三角掩码，避免模型看到未来信息，从而符合自回归的预测原则。

具体的多头注意力机制通过将查询、键、值分别经过不同的线性变换后，分别得到多组投影，计算每一组的加权和$ Attn(q,k,v)=softmax(\frac{qk^{t}}{\sqrt{d_{k}}}v) $。多头的输出随后拼接在一起，再通过线性层整合，提升模型的表达能力。对于输入特征，模型还进行了reshape操作，将二维空间特征展平为一维序列，使其能够适配Transformer架构。在这一基础上，模型采用了多头注意机制，结合位置编码，逐步捕获全局信息。

在每一层的Transformer中，经过多头注意力后，还加入了前馈网络
，通过两层线性变换配合ReLU激活，增强模型的非线性表达。这些操作共同作用，使模型既能建模节点之间的全局关系，又能在不同尺度上捕获特征。

除了符号预测外，模型还引入关系预测器，专门用以识别节点之间的结构关系，如上下、左右等。预测结果通过线性+softmax分类器输出$ X'=ReLU(XW_{1}+b_{1})W_{2}+b_{2} $，为树结构建立明确的节点与边的关系。

最后，为了应对树的多分支情况，模型中的查询构建模块会根据已预测的符号和关系，动态生成新的查询，指导下一轮同时解码多个子分支，从而做到了“branch parallel decoding”。这一创新设计显著减少了解码的时间步数，对比传统逐步深度优先的解码，极大提高了效率和准确性。

综上所述，该模型在Transformer架构基础上，结合树结构建模和动态查询机制，有效实现了复杂数学表达式的结构化识别，兼顾效率与准确性，为手写数学表达式识别提供了新思路。

三、主要结论

本文提出的基于树结构的分支并行解码模型（BPD），成功实现了对手写数学表达式的准确识别。该模型通过引入显式的结构预测、“查询构建模块”以及多分支并行解码策略，有效减少了传统序列解码中长序列带来的性能瓶颈，显著提升了识别速度和精度。实验结果表明，在多个公开数据集上，所提模型在表达率（ExpRate）、结构识别率（StruRate）等指标均优于现有的序列和树结构化方法，尤其在处理复杂表达式时表现出明显优势。不仅如此，该模型还具备较好的语法合理性，能够更好地遵循数学表达式的结构规则。

Table 1验证了所提出的树结构分支并行解码模型（BPD）在不同数据集上的优越性能，显示其在实际应用中具有较强的泛化能力和实用价值。该技术通过显式预测符号关系和多分支并行解码，有效提高了识别准确率，从而突破了传统序列解码在处理复杂表达式时的瓶颈。Table 2进一步证明了该模型在应对不同结构复杂度的表达式中，都表现出更优的识别效果，尤其在结构复杂度较高的情形下，显示出模型的鲁棒性和稳定性。这一技术创新确保了模型在复杂场景下的优异表现。Table 3强调了所提的多分支并行解码机制相较于深度优先的树结构解码方式，在识别速度和性能方面的显著提升，充分验证了分支并行解码技术在缩短解码时间和提升识别效率中的关键作用。最后，Table 4对比了我们的方法与先前先进的树结构方法，结果表明本技术在整体识别性能和结构理解能力方面具有明显优势，有效推动了手写数学表达式识别技术的发展，展示了其在提升系统性能和实际应用中的巨大潜力。

总体而言，本文的研究不仅提升了手写数学表达式识别的性能，也为基于结构的表达式解析提供了新的技术思路，有望在实际应用中推广，为数学教育、科学计算等领域的发展提供有力的技术支持。

四、产品应用

为应对教育、科研及专业文档数字化中对数学公式精准识别的迫切需求，合合信息将手写数学表达式识别技术深度融入至公司产品矩阵，实现了技术研发从实验室到产业应用的跨越。

1. 智能文本处理企业级AI产品线——TextIn

基于本文提出的数学表达式识别模型，TextIn 企业级智能文本处理平台实现了对扫描文档及手写内容中数学公式的高效、精准识别，并可将识别结果结构化输出为标准化数学表达形式，为后续的数学内容理解、编辑、检索与分析等应用提供稳定可靠的底层能力支撑。

该能力可广泛应用于教育机构试题库建设、科研论文与学术资料处理以及各类专业文档管理场景，能够自动提取并还原符号密集、结构复杂的数学公式，显著提升数学内容的数字化水平与结构化处理效率，体现了本文研究成果在真实业务环境中的应用价值。

                        图说：TextIn识别数学试卷手写公式

2. AI错题学习管理工具——蜜蜂试卷

蜜蜂试卷是合合信息面向K12学生及家长推出的AI移动端智能错题学习助手，支持手写体试卷智能识别、AI批改、错题分析及 “举一反三”的互动学习功能。基于数学表达式识别技术，蜜蜂试卷支持学生手写数学作业的自动识别与解析，系统能够将用户提交的手写数学答案快速、准确地转换为 LaTeX 或结构化数学数据，为自动评分、步骤分析与错误诊断提供可靠输入基础，显著提升作业批改与反馈效率。

总体而言，本文提出的方法在数学表达式识别任务中展现出显著优势，尤其在处理结构复杂、层级关系丰富的数学公式时，具备更高的准确性与稳定性。结合公司现有产品矩阵，该技术可在文本处理、学术研究与教育信息化等领域实现更加智能、高效的内容处理方案，为教育数字化与智能化教学提供关键技术支撑。这不仅有效提升了产品的技术竞争力，也与未来智能教育与智慧办公的发展趋势高度契合。

智源多模态大模型登 Nature，确立自回归成为生成式人工智能统一路线

作者: 纯情
时间: 2026-01-29
分类: 资讯
评论

整理 | 华卫

1 月 28 日，智源多模态大模型成果"Multimodal learning with next-token prediction for large multimodal models（通过预测下一个词元进行多模态学习的多模态大模型）"上线国际顶级学术期刊 Nature，预计 2 月 12 日纸质版正式刊发。

Nature 编辑点评这项研究：Emu3 仅基于预测下一个词元（Next-token prediction），实现了大规模文本、图像和视频的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

https://www.nature.com/articles/s41586-025-10041-x

2018 年以来，GPT 采用 “预测下一个词元（Next-token prediction，NTP）”的自回归路线，实现了语言大模型重大突破，开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线，自回归路线是否可以作为通用路线统一多模态？一直是未解之谜。

智源这项成果表明，只采用自回归路线，就可以统一多模态学习，训练出优秀的原生多模态大模型，对于确立自回归成为生成式人工智能统一路线具有重大意义。在后续迭代的 Emu3.5 版本，确实证明了这一范式的可拓展性，并达成预测下一个状态（Next-state prediction)的能力跃迁，获得可泛化的世界建模能力。

从语言到多模态：“预测下一个词元”的潜力与未解之问

“预测下一个词元”彻底改变了语言模型，促成了如 ChatGPT 等突破性成果，并引发了关于通用人工智能（AGI）早期迹象的讨论。然而，其在多模态学习中的潜力一直不甚明朗。

在多模态模型领域，视觉生成长期以来由结构复杂的扩散模型主导，而视觉语言感知则主要由组合式方法引领，这些方法通常将 CLIP 编码器与大语言模型（LLMs）结合。尽管已有一些尝试试图统一生成与感知（如 Emu 和 Chameleon），但这些工作要么简单将 LLM 与扩散模型拼接在一起，要么在性能效果上不及那些针对生成或感知任务精心设计的专用方法。这就留下了一个根本性的科学问题：单一的预测下一个词元框架是否能够作为通用的多模态学习范式？

就此，智源提出了 Emu3，基于“预测下一个词元”的全新多模态模型，将图像、文本和视频统一离散化到同一个表示空间中，并从零开始，在多模态序列混合数据上联合训练一个单一的 Transformer。这一架构证明了仅凭“预测下一个词元”，就能够同时支持高水平的生成能力与理解能力，并且在同一统一架构下，自然地扩展到机器人操作以及多模态交错等生成任务。此外，研究团队还做了大量消融实验和分析，验证了多模态学习的规模定律（Scaling law）、统一离散化的高效性、以及解码器架构的有效性。

Emu3 架构图

实验显示，Emu3 在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美：在文生图任务中，其效果达到扩散模型水平；在视觉语言理解方面，可以与融合 CLIP 和大语言模型的主流方案比肩。此外，Emu3 还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型，Emu3 通过自回归方式逐词元（token）预测视频序列，实现基于因果的视频生成与延展，展现出对物理世界中环境、人类与动物行为的初步模拟能力。

从模型到范式：Emu3 对多模态学习的启示

不同于 Sora 的扩散式视频生成，Emu3 采用纯自回归方式逐词元（token）生成视频，能够在给定上下文下进行视频延展与未来预测，并在文本引导下生成高保真视频。此外，Emu3 还可拓展至视觉语言交错生成，例如图文并茂的菜谱生成；也可拓展至视觉语言动作建模，如机器人操作 VLA 等，进一步体现了“预测下一个词元”的通用性。

智源研究团队对相关研究的多项关键技术与模型进行了开源，以推动该方向的持续研究。其中包括一个稳定且通用的视觉分词器（tokenizer），可将图像与视频高效转换为离散词元来表示。同时，研究通过大规模消融实验系统分析了多项关键技术的设计选择，例如：分词器（tokenizer）码本尺寸、初始化策略、多模态 dropout 机制以及损失权重配置等，揭示了多模态自回归模型在训练过程中的动态特性。研究还验证了自回归路线高度通用性：直接偏好优化（DPO）方法可无缝应用于自回归视觉生成任务，使模型能够更好地对齐人类偏好。

研究有力表明了预测下一个词元可作为多模态模型的核心范式，突破语言模型的边界，在多种多模态任务中展现了强劲性能。通过简化复杂的模型设计、聚焦统一词元，该方法在训练与推理阶段均展现出显著的可扩展性，为统一多模态学习奠定了坚实基础，有望推动原生多模态助手、世界模型以及具身智能等方向的发展。

在此研究基础上，悟界·Emu3.5 进一步通过大规模长时序视频训练，学习时空与因果关系，展现出随模型与数据规模增长而提升的物理世界建模能力，并观察到多模态能力随规模扩展而涌现的趋势，实现了“预测下一个状态”的范式升级。

前端同事看走眼了，这个“游戏网页”其实全是 AI 写的！

作者: 纯情
时间: 2026-01-28
分类: 资讯
评论

Vibe Coding 的进化速度，可能还是超乎了我们的想象。

今天，我们在测试 Kimi K2.5 的网页生成功能时，旁边的前端开发同事还以为是真实的网页场景，低声问我：“你这是在写代码吗，还是在摸鱼打游戏？”

直到我说出这是 AI 生成的，而且是只用了几句话就做出来的效果，这让她大为惊讶。

该网页长这样，现在如果不明说的话，确实已经难辨“真假”。

Kimi K2.5 在今天刚刚上新，它没有把重点放在“单项能力突破”上，而是试图把视觉理解、代码生成、交互设计，以及多 Agent 协作，都压进了同一个模型里，一口气提供了四种使用模式。

在笔者看来，其中最有意思的，当属 Agent 集群模式——这也是在国内 AI 上第一次出现的功能，它可以让原本耗时数天的工作，现在仅需十几分钟就能做完，简直是指数级的提效。

比如，要做 100 家公司的市场调研，它能指挥一群不同行业背景的“分析师”分头行动，十几分钟出结果，而不是几个星期；面对 300 页的复杂翻译项目，它能动员一个“语言学专家”团队，快速、准确地完成交付。

四种模式具体如下。不同需求的用户，从随手一问，到需要并行推进的复杂任务，都能找到明确的入口：

快速模式，提供最快的响应体验。
思考模式，可以用来解答复杂问题。
Agent 模式，擅长深度研究、PPT、Excel、Word、PDF 和网页生成等任务——目前 K2.5 已经开始掌握 Office 套件的核心技能，其协助办公的能力不容小觑。
重磅全新模式：Agent 集群模式，适合需要并行处理的复杂任务

另外，新编程产品 Kimi Code不仅能直接在终端里运行，还能无缝集成到 VSCode、Cursor、Zed 这些 IDE 里，支持直接输入图片和视频。

月之暗面 CEO 杨植麟，这次亲自为新模型发布录制了视频。

Kimi K2.5 实测

看起来很强是一回事，那用起来是不是另一回事？以下是各种实操案例，InfoQ 也上手测了几组。

几分钟搓出前端网页，能修改细节、还能有声音

为了测试 Kimi K2.5 的视觉理解能力和 Vibe Coding 水平，我们首先直接甩出一张产品页面截图，再配上几句文字描述，看看它能不能自己看懂、自己理解，顺手还能复刻出一个像模像样的产品页面。

比如让 K2.5 做个一个最近很火的心灵疗愈类项目，给的 Prompt 如下：

模仿情绪疗愈类产品，生成一个情绪记录类 APP，适合年轻人释放情绪，让人一眼觉这里允许脆弱的地方。

可以说，这个 Prompt 提示不多，要求不少，对模型视觉理解能力、逻辑思维、产品思维以及设计审美能力都是考验。

从结果看，K2.5 对“情绪”这个概念本身是有一定理解和思考的。它生成的是一个以沉浸体验为核心的情绪页面，而不是常规的情绪记录工具。

视觉上，明显没走浅色卡片流那条老路，而是用了低对比背景、连续画面和节奏型动效（类似呼吸或旋涡），交互重点放在“停留”和“进入状态”上。

在功能组织上，输入、反馈和过渡是连在一起的：用户不是“点一个按钮开始记录”，而是被自然引导进入输入状态——这种设计说明它在生成时已经考虑了状态流转，而不是只输出一个静态页面。

接下来，我们不再给任何视觉参考，只输入文字提示，让 K2.5 独立完成整个网页设计。

我们给的 Prompt 很简单：

做一个类似 4399 的小游戏平台，要有完整的游戏分类频道；但视觉审美要大厂级、高端网游风，整体要酷炫、有冲击力，并且可交互。

结果 Kimi K2.5 没让人失望。

它给出的页面并不是“看起来像网页”的静态效果，而是已经具备明确产品结构的原型。相比以往很多生成结果只停留在大色块 + 随机模块的拼接，它能正确理解“小游戏平台”这一产品类型，在首页层面同时给出清晰的分类入口、内容推荐区和主视觉焦点。

视觉风格上，它没有沿用早期生成工具常见的“低饱和扁平模板”，而是接近成熟网游官网或内容平台的布局逻辑，这一点与一些真实产品如大型游戏平台的信息层级更为接近。

更关键的是，这种效果并非通过多轮细化 Prompt 得到，而是在一次相对抽象的指令下完成，说明模型已经开始具备从“需求描述”直接映射到“产品级页面结构”的能力，而不只是做样式渲染。

类似的例子还有不少。下面这些网页，都是 K2.5 在图像生成工具的辅助下，仅凭一条 Prompt直接生成的完整原型。

除了做整个页面，我们还单独测评了一下 K2.5 对动效的理解能力。

左侧是我们输入的一段小视频，右侧是它生成的效果。结果 K2.5 几乎是完整复刻，拖动鼠标，图片会随之产生位移变化，逻辑和节奏都对得上，动效也足够丝滑。

飞书文档 - 图片

也就是说，K2.5 并不是在“画动效”，而是真的理解了交互在时间维度上的设计意图。

对开发和设计而言，这意味着动效不再从一堆参数和曲线开始，而是可以先把想法直接跑成一个可交互的原型，用几分钟看清值不值得投入工程成本。

以前要干好几天的活，十几分钟就能搞定

至于 K2.5 的 Agent 集群模式，最直观的能力就是：把时间尺度直接拉短了。过去需要“按天算”的复杂任务，现在往往十几分钟就能跑完一整轮。

来看一个实测例子。

一次性向 Kimi 的 Agent 集群投喂了 40 篇论文，主题横跨心理学与 AI。任务是，在此基础上产出一份系统性的研究综述。

Kimi 的处理流程大致分成了三步：第一步，完整通读。主 agent 多次调用工具，按顺序把 40 篇论文逐篇过了一遍，确保所有关键信息都被纳入同一上下文，而不是零散记忆。

第二步，并行写作。在理解整体结构后，Kimi 自动派生出多个子 agent——可以理解为它的“分身”，分别负责不同章节的撰写，各自并行推进。

第三步，统一收敛。主 agent 最后回到台前，负责校对、取舍和整合，把各个子 agent 的成果汇总成一份长达几十页的专业 PDF 级综述。

整个过程里中，几乎看不到人工干预。

##当 Transformer 开始吃力，K3 可能用上原创架构 KDA

我们先后测评了一整天，总体感受很明确：

Kimi K2.5 在自己擅长的多个方向上，已经跑得相当顺了。比如网页设计生成、动效理解、多 Agent 协作等场景，完成度和稳定性都比较成熟；不过也有短板，比如在 3D 建模这类强几何约束的任务上，表现还欠佳。

当这些能力被一项项跑出来之后，更现实的问题也浮现出来：如果这些复杂推理真的要被当成日常能力反复调用，底层的计算方式还能不能长期扛得住？

月之暗面给出的一个解法，是 Kimi Linear，而 Kimi Linear 中的一个核心创新点，是一个新的实验性架构：KDA（Kimi Delta Attention），一种线性注意力模块的相关思路。

杨植麟此前在 Reddit 上的 AMA（Ask Me Anything）等公开交流中已经透露，下一代 K3 模型，可能会使用月之暗面的这个新架构 KDA。

要讲清楚 KDA 的优势，我们还得先从 Transformer 架构说起。

本质上，Transformer 的注意力机制是全连接的：每个 token 都要和上下文里的其他 token 打一次交道。结果，输入一长，计算量就按平方增长（O(N²)）；生成新 token 时，还要不断回查之前的 KV Cache。

当上下文一拉长，显存压力迅速飙升，尤其是在 128K 以上的场景里，几乎是“显卡先崩，钱包随后”。

——而且模型越强，这个问题就越明显。

也正因为如此，过去几年里，线性注意力一直是业内反复被拿出来讨论的一条路：把注意力计算从 O(N²) 压到 O(N)，让模型跑得更快、也更省。

但现实是，早期不少线性注意力方案确实快了，却很难兼顾记忆能力：信息留不住，推理质量也跟着打折。

而 KDA 核心思想可以概括为一句话：不再每次都“全量算一遍注意力”，而是每次只计算“状态 + 增量（Delta）更新”。

这里的 Delta（增量）是关键。它在数学上保证了稳定性，即使是在百万级 token 序列中，梯度也不会爆炸或消失。这也让 Kimi Linear 能在超长上下文中跑得稳。

在保持模型能力的同时，还可以显著降低长上下文和连续推理的计算成本——思路有点像 MoE 架构。

##One more thing

在测试 Kimi K2.5 的视觉理解能力时，我们索性出了一道“狠题”。

——甩过去一段动画，让它先吃透画风和叙事方式，再换个主题，重写一支动画脚本。说实话，这活儿对专业动画师都不轻松，我们还特意把 “Agent 集群”模式打开了。

结果最有意思的不是生成内容本身，而是页面最底下那行小字：

“这个任务 Kimi 自己就能完成，不需要 Agent 集群。部分额度已退回。”

体验传送门：https://www.kimi.com/

烧 2 万亿美元却难用？Gary Marcus 狂喷 AI 赛道不靠谱：推理模型只是“模仿秀”，OpenAI 一年后倒闭？

作者: 纯情
时间: 2026-01-27
分类: 资讯
评论

整理 | 华卫

“一圈又一圈的循环融资，投资回报率却不尽如人意，这些 AI 系统实际用起来也远没有想象中好用，或许方向本身就站不住脚。”

近日，知名 AI 专家、认知科学家 Gary Marcus 在一场访谈中愤愤表示，“整个世界都在全力押注神经网络，还在这个我始终觉得毫无道理的理念上投入了巨资，但大语言模型根本无法带我们抵达 AGI 这一终极目标。”

这场对话由曾因成功预测 2008 年金融危机而闻名的传奇投资人、华尔街最具影响力人物之一 Steve Eisman 发起，他与 Marcus 共同探讨了当下 AI 进展的方方面面，包括商业路径、社区现状和未来方向等。Marcus 认为，大语言模型已经达到了收益递减的阶段。并且，他指出，现在 AI 领域根本没有技术壁垒了，所有 AI 企业的研发思路基本一致。

对于大量人才从大厂离职去办初创公司的现象，Marcus 直言道，“如果 OpenAI 真的能在下周推出 AGI，谁会在这个即将改变世界的关键节点离职，去创办一家可能要花四年时间才能做出成果的小公司？显然没人会这么做，大家都会想留在公司见证这个时刻。”在他看来，这些企业内部的人也清楚，他们根本没有做出宣称的那种突破性成果。

值得一提的是，他认为，OpenAI 最终会成为 AI 领域的 WeWork，这家公司原本计划以 500 亿美元的巅峰估值风光上市、却在一夕之间破产。“我觉得最终 OpenAI 可能会被微软这样的企业收购。OpenAI 每个月的亏损大概有 30 亿美元，一年就是 300 多亿美元，即便最近完成了 400 亿美元的融资，也只够支撑一年的运营。”

谈及各家模型的未来，Marcus 的预测是，“大语言模型会成为一种标准化商品，各家的模型只会比上一年的版本稍有提升，差距微乎其微，最终品牌差异会变得无关紧要。当产品变成商品后，价格必然下跌。”

以下是详细对话内容，我们在不改变原意的基础上进行了翻译和删减，以飨读者。

2 万亿美元押注 Transformer，根本“毫无道理”？

Steve Eisman：大家好，我是 Steve Eisman。今天我们请到了一位特别的嘉宾，他就是 Gary Marcus。他是大语言模型的坚定质疑者，而大语言模型正是整个 AI 领域的核心根基。接下来，Gary 会和我们分享他的观点，聊聊大语言模型到底是什么。

Gary Marcus：谢谢你的邀请，也感谢一两个月前你在 CNBC 对我的盛赞。

Steve Eisman：不客气，这都是你应得的。在正式开始之前，我的观众大多还不了解你，不如先和大家说说你的背景，让大家知道你在这个领域发表观点是完全有底气的。

Gary Marcus：我这辈子几乎都在研究智能相关的问题。我 10 岁学会编程后，就开始涉足 AI 领域了。我的职业生涯中，很大一部分精力都用在研究自然智能上，比如人类的智能、还有孩子是如何学习语言这类问题。我在 MIT 的博士论文围绕两个方向展开，一个是儿童的语言学习机制，另一个就是神经网络。神经网络是 AI 领域的一种特定研究方法，也被用于人类思维的建模，它的设计灵感可以说和大脑有一点松散的关联。这其实是个很巧妙的营销说法，会让人觉得它是完全基于大脑研究的，但事实并非如此，二者只是浅层关联。早年间神经网络就曾风靡一时，我在上世纪 90 年代就研究过这类模型，发现它们并不能很好地模拟人类的思维方式，但我还是投入了大量精力，想弄清楚它们的实际工作原理。

2012 年深度学习重新兴起时，我当时就觉得，这些东西我早就研究过了，和我博士论文里的内容高度相似。我在 2001 年写过一本名为《The Algebraic Mind》的书，在书里我其实就预判到了如今大语言模型出现的幻觉问题，还有一些推理层面的缺陷，这些都是我们今天要探讨的话题。所以当深度学习再次成为热点时，我一眼就看出了其中的诸多问题，对我来说这些问题都很熟悉。2012 年，我在《The New Yorker》上发表了一篇文章，标题是《Is Deep Learning a Revolution in Artificial Intelligence?》，我在文中写道：“深度学习确实很有意思，我很佩服 Jeff Hinton，他能长期坚持自己的研究方向。”

Steve Eisman：Jeff Hinton 是谁？

Gary Marcus：他是去年诺贝尔生理学或医学奖的得主，也是深度学习领域的核心奠基人之一。

Steve Eisman：原来如此。

Gary Marcus：他的一些学生，最近也开始认同我的观点了。Jeff Hinton 确实是这个领域的大人物，在神经网络一度无人问津的时期，是他一直坚守，这份坚持值得肯定。但当然，他的研究并非全无可议之处，我们这里就不细谈了。他让神经网络重获关注，而更值得你的听众了解的是，真正让这个领域迎来爆发的，是他的学生 Ilya Sutskever，或许还有另外几位研究者。他们找到了方法，能让这套研究了许久的系统落地应用。要知道，神经网络的研究最早能追溯到上世纪 40 年代，Jeff Hinton 也在上世纪 80 年代中期做出了不少重要贡献。而这些研究者发现，借助英伟达研发的图形处理器（GPU），就能实现神经网络的高效运行。

彼时的英伟达，生产 GPU 主要是为了满足电子游戏的需求。这些原本为游戏设计的 GPU，核心优势在于并行计算，简单来说，就是能同时处理多个计算任务，而非按顺序逐个完成。传统的中央处理器（CPU），运行软件程序时基本是逐行执行的，虽然现在的技术已经有了改进，但这仍是计算机科学入门课程里会教的基础原理。而 GPU 能把一个复杂问题拆解成无数个小任务，同时进行处理，它的设计初衷就是为了计算机图形处理。比如要渲染电子游戏的下一帧画面，如果逐行处理，耗时会非常久，而用 GPU 的话，能同时处理整个画面，一个子处理器负责一个像素点，以此类推。不得不说，GPU 在图形处理上的表现堪称完美，我偶尔也玩电子游戏，深知 GPU 的算力有多惊人。

Ilya Sutskever，还有另一位我一时想不起名字的论文合作者，他们证明了 GPU 是运行神经网络的绝佳载体，至于神经网络的具体定义和实际意义，我们之后可以再聊。他们的这一发现，让神经网络的运行实现了两大突破：一是速度大幅提升，二是能处理海量数据。在此之前，六十多年的神经网络研究做出的基本都是些玩具级的模型，而他们证明，借助 GPU 这项技术能真正实现规模化的实际应用，能在更大的维度上落地。可以说，我们如今看到的所有深度学习成果，都源于 2012 年的这次突破。

而在这一突破出现后，两件事接踵而至：《The New York Times》刊发了文章，盛赞深度学习的惊人潜力；第二天，我就在《The New Yorker》的博客上发表了文章。我在文中表示，深度学习固然出色，但也存在诸多问题，它注定会在一些领域表现优异，却在另一些领域束手无策。它擅长模式识别和统计分析，这一点毋庸置疑，但人类的认知活动中还有大量的抽象思维过程。比如我们能理解家谱的逻辑，进而对现实世界的相关问题进行推理，而深度学习模型永远无法擅长这类任务，它的架构本身就不适合做抽象推理。从早年对神经网络的研究以及对人类认知机制的研究中，我早就看清了这一点。你应该读过 Daniel Kahneman 的经典著作《Thinking, Fast and Slow》吧？

Steve Eisman：我读过。

Gary Marcus：Daniel Kahneman 在书中提出了双系统认知理论，他将人类的认知分为系统一和系统二。系统一的思考速度快，是无意识的、基于统计的、本能的反应；而系统二的思考速度更慢，更具思辨性，核心是逻辑推理。神经网络本质上就相当于人类的系统一，这本身没问题，系统一也是人类认知的重要组成部分，但人类的认知还有系统二的部分。尤其是在理性思考时，我们会依赖系统二，进行更审慎、更有逻辑的推理。而神经网络模型，从始至终都不擅长系统二的这类任务，直到现在依然如此。我在 2012 年就指出，深度学习模型只能实现系统一的功能，却无法完成系统二的思考。

而在这之后的 14 年里，整个世界都在全力押注神经网络。这里要说明的是，我们所说的神经网络，就是如今的大语言模型，大语言模型是神经网络的一种形式，抱歉，我之前没明确说明这一点。事实上，2012 年时大语言模型还未出现，后续又有不少技术突破，其中关键的就是 2017 年发表的 Transformer 论文，这也是大语言模型的起源。而全世界在这一领域的投资规模达到了天文数字，据我粗略估算，已经有 1 到 2 万亿美元了，全都投在了这个我始终认为毫无道理的理念上。这些研究者的想法是，只要持续发展神经网络，就能实现智能所需的一切能力，抵达 AGI 的目标，但他们却忽视了系统二的核心价值。

一开始，他们只是把神经网络当成一个巨大的黑箱，直到现在，还有很多人抱着这样的想法。他们觉得，只要把海量数据喂进去，就能得到一个拥有智能的系统，却从未从科学的角度深入思考过真正的智能究竟该具备怎样的架构。我认为这些人太过天真，我也一直试图指出这一点，这也让我成了这个领域里的“孤行者”。很长一段时间里，人们对我的观点不屑一顾，甚至不只是不屑，而是鄙夷。

Steve Eisman：没错，他们对你的态度远不止是不屑，而是赤裸裸的鄙夷。

Gary Marcus：我们还能举出很多这样的例子。我对他们的这种态度感到失望，这个话题我们可以聊很久。他们甚至对我公开表现出敌意，比如我了解到，OpenAI 内部还为我做了专属的表情包。

Steve Eisman：我也看到过这个消息。

Gary Marcus：某种程度上，这也算是一种认可吧，既觉得荣幸，又觉得有些离谱，你能看出来，我一直试图用平常心看待这件事。但这也能从侧面说明问题，Sam Altman 还在推特上称我为“喷子”。他们就是不想听我的观点，而我核心的观点，都写在了 2022 年发表的论文《Deep Learning is Hitting a Wall》里。我在这篇论文中指出，当时“规模化扩张”的理念已经开始流行，也就是通过不断投入更多数据、更多 GPU，把模型做得越来越大，他们认为只要模型足够大，就会拥有超乎想象的能力。

我先暂停一下，和大家解释下这个“规模化扩张”的理念。他们确实有一些数据能支撑这个观点，但这种想法依然太过天真。我把这种理念称作“万亿磅婴儿谬误”，道理很简单：一个婴儿出生时 8 磅重，一个月后长到 16 磅，并不意味着他会一直这样翻倍增长，到上大学时长成万亿磅的巨人。他们就是做出了这样天真的推断，我相信你在商业领域也经常见到这种情况。很多手握巨资的聪明人，都押注了这个理念，他们说，“我们从数据中看到了这样的发展规律，只要投入足够多的数据，就能实现真正的智能。”

“大模型不会思考，重构信息碎片致幻”

Steve Eisman：先稍停一下，我们倒回去说。大语言模型到底能做什么？这些研发者又认为它们本该实现什么功能？我真想把这个问题彻底讲清楚。

Gary Marcus：你这个问题问得特别好。大语言模型的核心工作原理，就是预测序列中的下一个内容。你可以想想苹果手机的自动校正功能，原理差不多，虽说那功能有时候能把我逼疯，你继续说。这个功能并非总能生效，核心逻辑就是你在输入句子时，它会预判接下来可能要打的内容。比如你打出“在……见我”，它大概率会推测你想说“在餐厅见我”。它会对人类的语言表达做统计分析，效果还算过得去，但绝非完美，偶尔还会出错，让人恼火，这就是我们说的自动补全。

而我把大语言模型称作“超级版自动补全工具”，它们只是用一种特殊的方式完成这种预测，这就是其最本质的功能。它们的运作方式里还有些有意思的点，其中一个就是会把所有信息拆解成细碎的片段，之后再重新整合，这就导致信息之间的关联会被切断。也正是因此，它们才会时不时出现幻觉现象，凭空编造内容。

Steve Eisman：我们稍后再细说幻觉这个问题。

Gary Marcus：好，回头再聊。幻觉是这类模型的典型错误之一，早在 2001 年，大语言模型甚至还没被发明出来的时候，我就指出过这个问题。我当时就说，如果一直沿着这个方向研究下去，必然会出现这个问题，而事实也确实如此。大语言模型把信息拆分成碎片，再通过这些碎片预测后续内容。如果用整个互联网的内容对它们进行训练和数据投喂，它们的表现会好得让人意外，因为几乎任何你能想到的问题，注意，这里的“几乎”是关键，几乎所有问题，此前都有人提出过，也有人给出过答案。从某种程度来说，这些模型就是功能强大的记忆机器。

就在前几天，《大西洋月刊》还刊发了相关的文章，而且一直以来都有大量证据能证明这一点。比如你输入《哈利·波特》的部分内容，它能直接补完整段文字，本质上就是因为它记住了这些内容。如果一个模型能记住整个互联网的信息，那确实算得上很厉害。比如你问“道奇队在搬到洛杉矶之前，主场在哪”，网上有大量相关表述，它会告诉你是布鲁克林，大概率能给出正确答案。但仅仅依靠这种方式，模型根本无法形成抽象的概念和思想，还会因为信息碎片的拆解和错误整合出现各种问题。

Steve Eisman：那我们现在聊聊幻觉吧。到底什么是 AI 幻觉？举个例子，再说说出现这种情况的原因。

Gary Marcus：幻觉就是模型凭空编造内容，还无比笃定地呈现出来，但这些内容根本不符合事实。

Steve Eisman：那给我们举个例子。

Gary Marcus：我最喜欢的一个例子和 Harry Shearer 有关，你可能听过他的名字，看过《摇滚万万岁》吗？

Steve Eisman：当然看过。

Gary Marcus：他在这部影片里饰演贝斯手，巧的是，他还是我的朋友。他出演了《摇滚万万岁》，还和 Christopher J. Guest 合作了多部影片，参演了《楚门的世界》，还为《辛普森一家》里的伯恩斯先生等多个角色配音，他的知名度还挺高的，这点对接下来的故事很重要。先倒回说个题外话，我之前遇到的最典型的幻觉案例，主角是我自己。有人发给我一份我的人物简介，里面说我养了一只叫 Henrietta 的宠物鸡，但我根本没养过，这就是个很典型的幻觉案例，纯粹是凭空编造的。后来发现，有位插画师大概叫 Gary Oswald，写过一本关于 Henrietta 去上学的书，模型不过是把这些碎片化的信息胡乱拼凑在了一起。

Steve Eisman：那为什么会出现这种幻觉呢？

Gary Marcus：这就和我刚才说的信息碎片化拆解有关了。我再给你讲讲 Harry Shearer 的那个例子。我总拿宠物鸡 Henrietta 的事举例，有一天他给我发消息，说他没遇到过宠物鸡这种事，却遇到了和自己相关的幻觉案例。他比我有名多了，至少以前是。我当时也算小有名气，而模型给出的信息里，说他是英国的配音演员和喜剧演员，但他根本不是英国人。你只要花两秒看一下维基百科，就会发现他出生在洛杉矶。他名气不小，你也能在烂番茄、互联网电影数据库上查到他的资料，他接受过很多采访，也聊过自己的成长经历，他小时候还在洛杉矶的《杰克·本尼秀》里当过童星，想找到正确的信息一点都不难。

我们会错误地把大语言模型当成和人类一样拥有智能的个体，但实际上，它们所做的只是重构信息碎片之间统计层面的大概率关联，所以难免会出错，这种重构过程也常会出现偏差。Harry Shearer 这个案例就是如此，模型其实就是在构建一个信息集群，用统计学的方式预测各类信息之间的关联。而现实中确实有很多英国的配音演员和喜剧演员，比如 Ricky Gervais、Don Cleeve 等等。模型就把这些信息混为一谈了，这种信息融合的方式整体来看效果还算不错，但你永远无法确定它给出的某一个具体信息是准确的，所以幻觉现象才会频繁出现。

有人专门追踪过相关的法律案件，发现律师提交的辩护状里，有很多引用的判例都是模型编造的，根本不存在。我第一次关注这件事时，他已经发现了约 300 起这样的案件，三个月后再看，数量涨到了 600 起。这些律师不仅用 ChatGPT 这类工具代写文书，还因此被法官发现，受到了处罚。模型会出错，而最危险的是，这些错误还很容易被忽略，人们根本发现不了。还有一个例子，CNET 是最早用 AI 写稿的媒体之一，他们首批用 AI 写的 75 篇文章里，有近一半都存在错误，编辑们却没发现。因为这些文章语法通顺、格式规范，也没有拼写错误，人们很容易就放松了警惕。

我把这种现象称作“看着没问题效应”。大语言模型带来的这种效应，还催生了一个新词汇，我真后悔不是我发明的，叫“低效工作产物”。这个词大概是去年由几位教授提出的，指的是人们用 AI 写报告、提交给雇主，表面上看没什么问题，实则漏洞百出，因为大语言模型根本不具备真正的理解能力。

Steve Eisman：你的意思是，大语言模型并不会思考。

Gary Marcus：它们确实不会思考，只是把统计学上大概率关联的内容拼凑在一起。

Steve Eisman：只是简单拼凑。

Gary Marcus：没错。我还喜欢用“黏合”这个词，它们只是把信息黏合在一起。从统计学角度来说，大部分内容的拼凑是合理的，但总有一部分是错误的，而这些模型根本无法区分对错，也不会主动告知你。它们永远不会说，“维基百科显示 Harry Shearer 出生在洛杉矶，但作为大语言模型，我感觉他可能出生在伦敦，你可以去核实一下”。它们从来不会给出这样的提示，只会把所有内容都当作百科全书里的标准答案呈现出来，无论真假，这也是这类模型的危险之处。

Steve Eisman：确实是这样。

Gary Marcus：这类问题其实有很多，这个案例属于另一种情况，但也和模型的本质缺陷有关。这个问题的根源在于，所有大语言模型都有数据截止日期，它们的训练都是在某个特定时间点完成的，核心模型所掌握的信息，也只到这个时间点为止。研发者会给它们加各种补救措施，比如接入网络搜索功能，但这些补救措施和核心模型的融合效果都很差，不同系统的表现略有差异而已。这类模型最大的问题就是无法应对新事物、新情况，也是它们最根本的缺陷。早在 1998 年，我就通过研究早早发现了这一点。如果一个模型本质上只是个功能强大的记忆机器，当你向它输入一个超出其训练数据范围的内容时，它就会失灵。

有个例子特别能说明问题，具体细节我不太清楚，但特斯拉的 AI 系统也大量采用了这种记忆式的运作方式，而且其系统的复杂程度并不高。有人用过特斯拉的召唤功能，你应该记得马斯克说过，未来可以从纽约远程召唤洛杉矶的特斯拉，但现在显然做不到，不过据说能在停车场里召唤车辆。有人在一场航空展上试过这个功能，你能在油管上找到相关视频。这个人召唤自己的特斯拉，想在航空展上秀一下，结果车子径直撞上了一架价值 350 万美元的私人飞机。

原因就是，特斯拉的训练数据里，根本没有教系统如何应对飞机，毕竟谁会专门训练汽车躲避飞机呢？系统对世界没有形成通用的认知，比如“不要撞上挡路的大型贵重物体”，它根本不懂这些，只会识别训练数据里的自行车、行人等目标，它的识别分类里根本没有“飞机”这一项，所以才会直接撞上去。

所有 AI 企业都变了：悄悄复用经典符号式工具

Steve Eisman：那你有没有了解到，随着这场争论的风向转变，各大企业内部现在的情况如何？

Gary Marcus：我了解到的情况主要有几点。首先，我一直都在说，单纯的大语言模型行不通，必须结合传统的符号式 AI 技术。但之前他们都对此嗤之以鼻，觉得这套技术早就过时了，没必要用，还说人脑的工作模式本就不是这样。而现在，他们都悄悄在一定程度上采用了这项技术，比如引入代码解释器来运行 Python 代码，这些都是经典的符号式工具。说白了，他们正在偷偷把系统二的相关能力融入模型中，只是没有大肆宣扬，但这一改变确实带来了不小的提升。

马斯克发布 Grok 4 时的演示就很能说明问题，我还为此写过一篇文章，标题是《为何 GPT-3 和 Grok 4 无意间印证了神经符号 AI 的正确性》。文章里放了当时的演示图表，能清晰看到，正是那些他们不愿提及的符号式工具的加入，让模型的表现变得更好。如今模型的些许提升，绝大部分都来自这个原因，而非单纯的大语言模型优化，他们其实已经悄悄放弃了纯大语言模型的研发思路。而这对你所关注的商业领域来说意义重大，因为这些符号式工具根本不需要在 GPU 上运行，普通的 CPU 就足够了。

Steve Eisman：原来如此。

Gary Marcus：对我而言，从技术角度来说，这印证了我一直以来倡导的研发思路是正确的。这是第一个变化。第二个变化是，各大企业的很多人都离职去创办自己的初创公司了。你可以想想，如果 OpenAI 真的能在下周推出 AGI，谁会在这个即将改变世界的关键节点离职，去创办一家可能要花四年时间才能做出成果的小公司？显然没人会这么做，大家都会想留在公司见证这个时刻。

所以，大量人才离职的事实就说明，这些企业内部的人也清楚，他们根本没有做出宣称的那种突破性成果。还有一个变化，就是谷歌正在迎头赶上。就像我几年前在 Substack 专栏里预测的那样，因为现在所有企业的研发思路基本一致，这个领域根本没有技术壁垒。

Steve Eisman：没错，完全没有技术壁垒。

Gary Marcus：你和其他一些人都认为，如果所有人都在做大语言模型的规模化扩张，那么最终的赢家就是最有实力承担这笔扩张成本的企业。而放眼整个行业，谁的资金实力能超过谷歌？根本没有。

Steve Eisman：确实。

Gary Marcus：我其实也表达过类似的观点，只是表述略有不同，你的这个说法其实也没错。我当时的观点是，行业头部企业会逐渐趋同，而随着大语言模型成为标准化商品，行业内会引发价格战，服务定价会大幅下降。事实也确实如此，现在大语言模型的按 token 计费价格，已经暴跌了 99%。价格战确实爆发了，而最终的受益者自然是谷歌，这一点我当初虽然没有直接点明，但也有所预判。我大概是在 2024 年 3 月，也可能是 2023 年 8 月开始写相关文章，当时就说，所有企业都在遵循同一种研发思路，没人掌握什么独门绝技，这就意味着头部企业的产品会越来越趋同。

大语言模型会成为一种标准化商品，各家的模型只会比上一年的版本稍有提升，差距微乎其微，最终品牌差异会变得无关紧要。这一趋势带来的结果就是，谷歌迎头赶上了，中国的企业也追上来了，Anthropic 同样不甘落后。就像你说的，当产品变成商品后，价格必然下跌。这对终端消费者来说是好事，但对企业的商业模式来说却是巨大的打击。毕竟企业原本的设想是，花巨资采购 GPU，然后靠模型服务赚回巨额利润。

推理模型进行不了逻辑分析，再升级也没价值？

Steve Eisman：我们能不能聊聊推理模型？先给我的观众解释一下，推理模型和大语言模型有什么区别？推理模型是基于大语言模型研发的吗？

Gary Marcus：推理模型是在大语言模型的基础上运作的，但它不会像大语言模型那样直接给出第一个想到的答案，而是会反复迭代、花费时间去推敲，试图得出最优解。至于具体的研发细节，各家企业都没有公开太多。传统的神经网络模型，在某种意义上都是一次性输出结果的，当然现在行业内对“一次性”的定义有所不同。简单来说，就是把数据输入模型后，神经网络会立刻完成一次正向传播，粗略来讲，模型中的每个神经元都会处理信息并生成对应的结果。而推理模型则会进行多次传播，这是本质上的区别。

我有个朋友把传统模型的输出方式称为“恒时推理”，意思是模型生成答案的时间基本固定，无论什么问题，耗时都相差无几：把数据输入模式识别器，模型会根据现有的模式给出最优解。而推理模型采用的是全新的“变时推理”模式，我之后会聊聊它的适用场景和短板，这种模式的特点是，处理不同的问题，耗时会有所不同。目前还没有企业能完全解决推理模型的所有技术难题，但在一些场景下，它的表现确实不错。

据我了解，推理模型的研发思路之一，就是让模型模仿人类解决问题的思考过程，毕竟这些模型本质上都是模仿系统。比如在解决几何题或代数题时，模型会刻意模仿人类的解题步骤。人类解决这类问题需要一步步推导，融合了推理能力的神经网络模型，同样需要分步骤完成。

Steve Eisman：那推理模型的优势是什么？又有哪些明显的短板？

Gary Marcus：在回答这个问题之前，我想先提一点：推理模型的成本天生就更高，因为它需要占用 GPU 更长的时间来生成答案。

Steve Eisman：好的。

Gary Marcus：那我来说说它的适用场景和短板。推理模型最擅长的，是那些能生成形式规范、可验证的数据来训练模型的领域。比如数学和计算机编程，我们可以编写程序生成各种不同的代码片段来训练模型，也能生成各类几何证明题的解题思路。这类领域之所以适合推理模型，是因为它们都属于封闭领域，相关的知识边界是明确的。

Steve Eisman：没错，数据库中的知识量和相关的有效知识量都是有限的。

Gary Marcus：对，就是这个意思。所以推理模型在几何、编程这类领域的表现最好，而在开放式的现实世界中，它的表现就差强人意了。我总会从你所熟悉的金融领域举例子，当然你肯定有更贴切的案例，比如长期资本管理公司的破产。其实那也是一种模型失效的情况，只是模型的原理不同，当时没人考虑到俄罗斯债券市场崩盘的可能性，最终导致美国金融市场出现了大幅动荡。这是因为当时的金融模型，其参数设定根本没有覆盖这类极端情况。

而现在的推理模型，也面临着类似的问题：它其实并不具备真正的思考能力，哪怕是关于债券的基本问题，它也无法进行真正的逻辑分析。如果用它处理的问题，和训练数据中的内容高度相似，那一切都顺理成章；但一旦超出了它的认知范围，就像我们之前聊到的特斯拉的例子，模型就会立刻失效。

Steve Eisman：也就是它依然无法应对新事物、新情况。

Gary Marcus：没错，即便升级到了新的推理模型，核心问题依然是无法处理未知信息。它只是在原有基础上做了些许改进，但本质上还是受限于对新事物的适配能力。而关键问题在于，现实世界中，大多数有价值的问题都包含着一定的新要素、新情况，并非全是已知的问题。当然，也有例外，我们确实可以用这种不擅长处理新事物的技术，在一些狭窄的领域做出成绩，比如国际象棋和围棋。这些领域的规则千百年间基本没有太大变化，有海量的历史数据可供参考，模型还能通过自我对弈生成更多训练数据。

但在开放式的现实世界中，比如政治、军事战略领域，永远会出现训练数据中没有的新情况。比如，如何应对一位总统授意将军用飞机伪装成民用飞机，去袭击另一个国家的行为？这种情况此前从未发生过，想要分析这类问题，根本无法依靠过往的数据，必须依靠抽象的概念思考，比如权力、外交规则、国际格局的构建逻辑等，这些都是相关领域的学者更擅长的内容。要做到这一点，模型需要接受正确的训练，具备抽象思维能力，而不是单纯依赖数据。即便是在商业应用中，比如看似简单的客户服务，也会遇到类似的问题：用户总会用全新的方式提出问题，而一旦出现这种情况，模型就会因为无法应对新情况而失效。

OpenAI 只够支撑一年，要么倒闭、要么求救微软？

Steve Eisman：假设我任命你为 AI 领域的总负责人，由你掌控所有相关企业，指导整个行业的研发方向。如果你把这些企业的负责人都召集到一起，你会告诉他们，想要实现真正的突破，需要做些什么？

Gary Marcus：我会告诉他们，整个行业需要更多的学术思维多样性。就像在你的金融领域，你会告诉人们不要把所有鸡蛋放在一个篮子里，要做资产配置，分散投资股票、债券、黄金、房地产等。而 AI 领域在过去这些年，就是把所有的精力都押在了一个思路上，大语言模型的规模化扩张，这是行业唯一的研发方向。不可否认，这个思路确实带来了一些成果，模型并非毫无用处，我们也确实能利用它解决一些问题，但它终究无法带我们实现所谓的通用人工智能（AGI）这一终极目标，而且这还是一种成本极高、效率极低的研发方式。你可以对比一下，我的孩子只需要少量的信息和学习，就能理解这个世界，而大语言模型却需要学习整个互联网的海量数据，二者的效率差距简直可笑。

这些企业花费巨资，做出的却是效率低下、可靠性堪忧，但又有一定使用价值的模型。我们需要的是其他更高效、更经济、更可靠的研发思路，企业应该投入资金去探索这些新方向。但问题的根源，其实也来自你所熟悉的金融领域：风险投资家能从那些听起来合理的投资项目中，赚取 2%的管理费。我很好奇你对这个观点的看法，因为这毕竟是你的专业领域。试想一下，作为风险投资家，如果有一个项目能让你管理一万亿美元的资金，哪怕你根本不在乎项目最终的结果，也能赚到 2%的管理费，这足以让你成为亿万富翁。我并不是说所有的风险投资家都是这样想的，我见过很多投资人，他们确实真心想推动技术进步。

但就像任何行业一样，很多投资人都带着功利的心态。对这些功利的投资人来说，最理想的投资标的，就是那些听起来前景广阔、无需真正落地、成本极高的项目，这样他们就能赚取巨额的管理费。我认为，这就是整个行业都沉迷于规模化扩张的原因：投资人能从中赚取不菲的管理费，而且数额极其可观。但从学术研究的角度来说，这绝不是正确的选择，最终也没有带来理想的结果，反而造成了巨额的资金浪费。风险投资家赚走了管理费，而那些有限合伙人，最终会损失大量的资金。

Steve Eisman：你是不是觉得，这个行业的泡沫快要破裂了，还是说现在根本没法判断？

Gary Marcus：其实炒股的那句老话你我都懂，市场保持非理性的时间，可能比你保持偿付能力的时间还要长。

Steve Eisman：没错。

Gary Marcus：我去年用一个比喻形容当下的情况，就像《兔八哥》里的歪心狼跑到了悬崖边，它不往下看，就不会掉下去。当然这不符合物理规律，但很有意思。而现在，你所在的投资圈里，已经有人开始往下看了。我觉得从去年 11 月开始，就不断有投资人说，他们看到了一圈又一圈的的循环融资，投资回报率却不尽如人意，这些 AI 系统实际用起来也远没有想象中好用，或许这个赛道本身就不靠谱。我个人觉得，英伟达的产品做得非常出色，生态体系也很完善，不只是芯片本身，配套的软件等方方面面都很好。我见过黄仁勋，他给我留下了很深的印象，英伟达的产品确实很棒。

但问题的关键是，他们最终能卖出多少芯片？我认为，目前的芯片销售全靠市场投机，大家都在赌，我稍后再说说其他人的看法。所有人都在投机，认为这类芯片的需求会无限大，而这种投机的底层逻辑，是相信这些 AI 模型最终能实现 AGI。真正的 AGI 能完成人类能做的所有事，其商业价值不可估量，每年创造数万亿美元的价值都有可能。但《华盛顿邮报》几天前报道了一项一个月前完成的研究，研究显示，人类日常的工作中，只有 2.5%的工作能真正由 AI 系统完成。所以人们幻想中 AI 能完成的大部分工作，其实它都做不到，也根本做不好。这就意味着，最终所有在芯片上的投资，都会变得毫无意义。

而在这些企业里，OpenAI 可能是最脆弱的那个。OpenAI 有超过一万亿美元的未兑现承诺，却从未实现过盈利，如今又身处一个产品高度同质化的市场。它最大的竞争对手谷歌已经迎头赶上，甚至可以说实现了反超，还拿下了和苹果的合作大单，这可是笔大生意。所以我觉得 OpenAI 现在已经手忙脚乱了，实在看不出它的估值有任何合理性。

Steve Eisman：对我所在的投资圈来说，如果投资人开始从 OpenAI 撤资，而它又融不到新的资金，那会给整个生态系统带来连锁反应。

Gary Marcus：没错，这正是我认为即将发生的事。我觉得最终 OpenAI 可能会被微软这样的企业收购。我这几年一直说，OpenAI 最终会成为 AI 领域的 WeWork。未来人们都会疑惑，它当初怎么会有那么高的估值，这完全不合逻辑。OpenAI 的年收入只有几十亿美元，却每个月亏损数十亿美元，还有众多竞争对手，这样的企业根本撑不下去。如果投资人撤资，或者不再继续注资，OpenAI 就会陷入巨大的危机。它每个月的亏损大概有 30 亿美元，一年就是 300 多亿美元，即便最近完成了 400 亿美元的融资，也只够支撑一年的运营。

Steve Eisman：没错，也就一年的时间。

Gary Marcus：而且现在很多人都在持观望态度，他们会觉得，谷歌才是更适合这场竞争的玩家，毕竟谷歌已经追上来了。如果这场竞争只拼规模，那赢家必然是谷歌，这是毋庸置疑的。谷歌有能力做出巨额投入，甚至根本不需要英伟达的芯片，因为他们自研了张量处理单元，能实现类似的功能，所以谷歌的抗风险能力更强。他们有稳定的财务支撑，最终一定会赢。

Steve Eisman：没错。

Gary Marcus：只要有一部分人意识到，OpenAI 想要活下去，需要的资金量是天文数字，它的处境就会变得岌岌可危。它下一轮可能需要 1000 亿美元的融资，而全世界能拿出这么多钱的人，可能也就五个。就算其中四个愿意投资，只要有一个拒绝，就会出问题；而如果五个都拒绝，它要么倒闭，要么只能去找微软求救。

“脱离世界模型做 AI，根本行不通”

Steve Eisman：Gary，在我们结束访谈前，还有什么我该问却没问的问题吗？

Gary Marcus：我觉得这次访谈特别棒。要说还有什么重要的点没聊到，那应该就是“世界模型”这个概念。

Steve Eisman：没错，我本来也想聊这个。你一直说我们需要构建世界模型，这个概念完全超出了我的专业领域，不如你给大家解释一下，到底什么是世界模型？

Gary Marcus：不同的人对世界模型有不同的定义，简单来说，它就是在计算机系统中，构建一个能表征外部现实世界的体系。我说说我认为我们需要的世界模型是什么样的：软件内部需要有一个结构，能对应现实世界中的各种事物。比如导航系统的世界模型，需要能表征道路的分布、连接方式，以及不同路段的通行时间。在传统的 AI 领域，世界模型是研发的起点，所有的研究都基于此，没人会想过脱离世界模型做研发。Herbert Alexander Simon 是上世纪 50 年代 AI 的奠基人之一，他写过一本自传叫《Models of My Life》，他一生都在研究各类模型和世界模型，并且认为，做好 AI 的关键就是构建正确的世界模型。

而大语言模型却试图脱离世界模型运作。构建一个针对特定事物的世界模型，尤其是复杂事物，需要付出巨大的努力。比如过去研发专家系统时，研究者需要构建能模拟医生思考方式的模型，能表征病人身体机能、生理结构的模型，这个过程非常繁琐。当时还有一个专门的领域叫知识工程，做这项工作成本极高，没人愿意做。大语言模型和其他类型的神经网络出现后，研发者宣称，不用再做这些繁琐的工作，只需要让系统从数据中自主学习就行。

但事实证明，这根本行不通。就像大语言模型会把出生在洛杉矶的 Harry Shearer 说成是伦敦人，原因就是它没有一个完善的世界模型，无法像设计精良的软件那样，精准调取正确的信息。所以我们必须在 AI 系统中融入世界模型，才能避免幻觉现象的发生。

Steve Eisman：我还是不太理解世界模型到底是什么。

Gary Marcus：用非专业的语言解释确实有难度，简单说，它就是对世界的一种表征，而且这个“世界”不一定是现实世界。比如我们对《星际迷航》《星球大战》《哈利·波特》这些虚构世界，也会有对应的世界模型。这也是人类和当前 AI 系统最本质的区别：当我们看一部电影、读一本书时，会在脑海中构建出这个世界的运行规则，并且能判断情节是否符合这个世界的逻辑，会不会有不合理的设定。比如看了《哈利·波特》，我们会知道里面的人能骑着扫帚飞，但不会把这个设定和现实世界混淆，不会回家后跳上扫帚就想从窗户飞出去。

人类能快速构建并同时掌握多个世界模型，就算看一部新的科幻剧，20 分钟左右就能理解这个全新世界的规则，这是人类的天赋。但在 AI 领域，无论是传统的符号式 AI，还是现在的大语言模型，都做不到这一点。传统 AI 的优势是可以人工构建世界模型，你可以雇一群学者花六周时间，把一个问题的相关规则梳理清楚，构建成模型。最近离世的顶级研究者 Doug Lenat 就做过这样的研究，他为《罗密欧与朱丽叶》构建了世界模型，他的系统能真正理解这部剧的关键情节，而非从网上的读书笔记中获取二手信息，表现非常惊艳。但问题是，我们不知道该如何让传统 AI 自主学习、构建世界模型。而大语言模型则完全做不到构建世界模型，只是在假装自己能做到。

我有个很经典的例子，就算用整个互联网的内容训练大语言模型，让它接触海量的国际象棋规则和对局记录，它依然会走出违规的棋步，因为它从未真正抽象出国际象棋的运行逻辑。这一点就足以说明问题了。试想一下，一个人看了一百万盘象棋对局，读了维基百科、象棋网站上的所有规则，还看了 Robert James Fischer 的象棋著作，不可能连基本的棋规都掌握不了，但 AI 就是做不到。

所以我们需要研发能自主归纳出世界模型的 AI 系统，这类系统能从数据中挖掘因果规律，识别其中的核心要素。这是一个难题，不是说有人明天回家鼓捣一下就能解决的。长期以来，无论是传统 AI 还是大语言模型，都在回避这个问题，而现在，我们必须直面它。

Steve Eisman：看来这需要很长的时间来研究。

Gary Marcus：确实需要很久。我想说的是，AI 确实会以我们难以想象的方式改变世界，但绝不是现在，靠当下的这项技术根本做不到。我们需要把这一点考虑进去，做出合理的投资决策。现在的问题是，我们到底是在投资基础研究，还是在为一项已经成熟的技术做规模化投入？答案显然是后者。而当下的市场，大多是在投机，赌那些目前行不通的技术，只要做得更大，就能凭空实现突破。

但事实上，单纯的规模化根本解决不了这些核心问题，我们真正需要的是扎实的基础研究。这是我过去五年一直强调的观点，也是 SSG 在去年 11 月提出的观点，而 Ilya Sutskever 也表达了类似的看法。当我们这些背景截然不同的人，都达成了这样的共识，行业内的人其实应该认真听一听。

参考链接：

https://www.youtube.com/watch?v=aI7XknJJC5Q

X开源Grok驱动的算法代码，揭秘内容传播机制

作者: 纯情
时间: 2026-01-25
分类: 开源
评论

X 正式开源其基于 Grok 的推荐算法，公开了回复加权机制、链接惩罚规则及相似聚类技术（SimClusters） 。开发者通过剖析代码，解锁了内容互动预测的核心逻辑 —— 这一举措在平台透明度承诺下，正重塑创作者的运营策略。

为践行透明度承诺，埃隆・马斯克旗下的 X 平台采取大胆举措：开源经重构的推荐系统，揭开了驱动用户信息流的复杂底层架构。2026 年 1 月 20 日，X 工程团队与马斯克本人通过平台发文宣布该消息，相关代码托管于 github.com/xai-org/x-algorithm，其核心采用支撑 xAI 公司 Grok 模型的 Transformer 架构。此次开源兑现了马斯克 1 月 10 日的承诺，包含详尽的开发者说明文档，并计划每四周更新一次 —— 这一行动背后，是社交媒体信息流面临的监管压力日益加剧。

此次披露正值 X 因算法 “低效” 饱受诟病之际，马斯克在回复中坦言：“我们深知当前算法存在不足，亟需大幅优化，但至少大家能实时看到我们以透明方式努力改进的过程。” 与竞争对手不同，X 主动开放算法供公众审视，马斯克强调：“没有其他社交媒体公司会这么做。”

X 平台上的开发者初步代码评审显示，该算法已从 “刚性规则驱动” 转向 “AI 预测驱动”。据 StockTwits 报道，代码仓库详细披露了内容推荐逻辑，但专家指出，训练模型权重等关键要素并未包含在内。

Transformer核心赋能互动预测

算法的核心是一个轻量版 Grok 变体，借助 Transformer 架构，每日对 1 亿条帖子进行用户反应预测 —— 包括点赞、回复、转发、收藏等行为。X 工程团队在推文中证实：“其采用与 xAI Grok 模型相同的 Transformer 架构。” 据 News9live 分析，这一设计用机器学习取代了传统启发式规则，优先推送更可能引发用户互动的内容。

X 平台用户 @bytebot（科林・查尔斯）剖析代码后表示：“基于 Grok 的 Transformer 排序机制，有效避免了信息茧房问题。” 关注账号的 “圈内内容” 将获得优先推荐，而 “圈外内容” 则依赖机器学习预测，且包含图片、视频等媒体形式的内容会获得权重加成。内容时效性是重要考量因素，当目标受众活跃时，近期发布的内容将更具优势。

创作者可信度通过历史互动数据体现，若高活跃度用户关注的账号发布内容，其排名会相应提升。不过，该代码未包含嵌入表、Phoenix 检索细节及垃圾邮件过滤器等模块，表明此次开源聚焦核心排序逻辑，属于部分披露。

回复链与停留时间成关键信号

回复被证实为权重最高的互动信号。用户 @barkmeta（巴克）总结：“务必回复评论 —— 算法对‘评论 + 作者回复’的权重设定，是单纯点赞的 75 倍。无视评论等同于扼杀内容传播力。” 用户 @GodsBurnt（石博）也呼应：“‘75 倍规则’是代码中最强信号：评论 + 作者回复的组合效应无可替代。”

收藏行为的权重乘数为 50 倍，这意味着具备参考价值的内容将获得更多曝光；而停留时间 —— 通过用户观看视频或点击 “展开更多” 的行为来衡量 —— 同样具有决定性作用。正如查尔斯所指出的：“观看时长为王，若用户快速划走，内容排名将大幅下滑。” 视频和系列推文因能更好地吸引用户注意力，表现尤为突出。

负面信号的惩罚力度显著：屏蔽和静音操作的负面影响是取消关注的 10 倍。具有争议性但非垃圾信息的内容可能获得较高传播度，而引发用户反感的内容则会被降低曝光。

链接惩罚与垂直领域锁定重塑发布策略

外部链接会触发 “链接税” 机制，据石博透露，内容曝光量可能骤降高达 400%：“链接会扼杀可见度，应将其放在个人简介或置顶推文里。” 创作者建议通过简介放置链接或自动回复引导等方式，让用户留在平台内 —— 这与算法 “抵制用户流失” 的设计倾向高度一致。

相似聚类技术（SimClusters）强化了内容的垂直领域属性。巴克警告：“坚守自身领域…… 若偏离垂直赛道（如加密货币、科技等），将无法获得任何流量支持。” 该系统会按主题对用户和内容进行聚类，对偏离主题的内容实施降权处理，以确保信息流相关性。

这些从 GitHub 代码中拆解的机制表明，算法更青睐互动性强的对话式内容，而非单纯的被动浏览。据 Hypebeast 报道，马斯克承诺将持续更新算法，以回应外界对信息流机制及 Grok 整合效果的密切关注。

开发者从代码解析中提炼运营指南

用户 @razroo_chief（查理・格林曼）基于算法逻辑设计了一款 Claude 提示词，旨在最大化多维度信号权重：“核心优化目标：停留时间…… 回复量…… 转发量…… 点赞量…… 收藏量。” 该提示词建议，内容应采用反直觉的开篇、结构化的机制解析，并以冷静、系统的语气呈现深度洞察 —— 摒弃浮夸表达，聚焦科技系统、行为模式等主题的知识性输出。

发布后首小时的早期互动数据会显著影响算法预测结果，标签（Hashtag）仍具备实用价值，而富含媒体元素的内容格式更具竞争力。标签有助于内容发现，但积累高活跃度粉丝群体，其重要性远超单一运营技巧。

@GodsBurnt 走红的指南中强调：“收藏量是黄金指标…… 停留时间：若用户未点击‘展开更多’或观看视频，内容将被降权。” 这一机制让内容传播更趋公平，奖励具有深度关联价值的内容，而非浅层数据表现。

Grok演进推动算法全面革新

马斯克过往推文记录了算法迭代轨迹：2025 年 5 月，他宣布用 Grok 替代原有算法以实现突破性优化；同年 10 月，该模型已能每日处理 1 亿条帖子，基于内容质量进行精准匹配；8 月，Grok 4 Mini 的测试版本动用了 2 万台 GPU，在延迟控制与性能提升之间实现平衡。

The Verge 回顾了马斯克 2023 年推特（现 X）的代码公开行动 —— 当时的更新并不规律，与此次承诺形成鲜明对比。路透社指出，马斯克曾在 1 月 10 日承诺，将在 7 天内公开完整的自然流量与广告算法代码。

News9live 详细报道了 Phoenix 系统从人工规则向 AI 驱动的转型，通过 Transformer 架构预测用户互动行为，且更侧重回复而非点赞数据。

透明度举措遭遇监管压力

据 TechSpot 观察，马斯克的透明度举措旨在回应外界对平台 “不透明” 的指责，但过往类似承诺的执行力度参差不齐。ComputerWeekly 强调，此次开源包含了全部推荐算法代码。

WebProNews 报道称，用户可通过自然语言自定义信息流，例如输入 “无政治内容，仅展示 AI 创新”，这一功能进一步凸显了与 Grok 模型的深度整合。而此时，欧盟与美国正针对算法偏见问题展开调查。

StockTwits 呼吁专家对开源代码进行深度评审，尽管存在部分缺失，但此次披露已覆盖推荐机制的核心运作逻辑。

对平台与创作者的深远影响

对行业内部人士而言，此次开源揭示了算法 “重预测” 的排序逻辑：早期回复会引发雪球效应，媒体内容能持续吸引注意力，垂直领域定位可集中流量资源。Hypebeast 指出，此次代码发布与外界对 Grok 的审视密切相关，X 承诺将提供完整访问权限并持续更新。

创作者需及时调整策略：快速回应评论、避免在推文中直接嵌入外部链接、打造能提升用户停留时间的内容格式。正如巴克总结的：“与受众保持互动，建立深度关系，让用户留在平台内。”

X 的开源模式向竞争对手发起挑战 —— 将 xAI 的技术优势与开放代码相结合，在公众监督下持续优化信息流。这一举措或将重塑社交媒体算法的行业生态。

大模型剪枝新范式：先浓缩，再剪枝——DenoiseRotator技术解读

作者: 纯情
时间: 2026-01-24
分类: 开源
评论

论文原文：https://arxiv.org/abs/2505.23049
项目地址：https://github.com/Axel-gu/DenoiseRotator
视频解读（B 站）：https://www.bilibili.com/video/BV1XDUYBTEjr

在大语言模型（LLM）快速发展的今天，庞大的参数规模带来高昂的推理存储成本和回复时延，已成为实际应用中的关键挑战。特别是在面向人机对话的应用场景，模型推理效率直接影响到对话体验。在推理优化方法中，参数剪枝作为一项经典的模型压缩技术，旨在通过剔除模型中“不重要”的权重来实现参数量的显著降低与计算效率的提升。然而，传统的“剪枝-微调”范式或直接的后训练剪枝方法，往往带来明显的模型性能损失，特别是在硬件友好的半结构化稀疏（如 2:4 稀疏）场景下，该问题尤为突出。这使得应用中的模型效果和推理效率，呈现一个“鱼和熊掌”的两难局面。

面对这项挑战，美团 LongCat Interaction 团队联合上海交通大学听觉认知与计算声学实验室，以及香港科技大学的研究者，共同完成了大模型剪枝方法的创新研究，提出了名为 DenoiseRotator 的新技术。通过首先对参数矩阵进行变换，“浓缩”对结果有影响力的参数，再对重要性最低的参数进行剪枝，实现了大模型剪枝的新范式。DenoiseRotator 能够与现有的剪枝算法快速集成，有效缓解模型压缩带来的性能损失。这一研究成果已在 2025 年的 NeurIPS 会议上发表。

01 动机：传统剪枝的局限性——密集训练与稀疏推理的隐式冲突

传统后训练剪枝的一般流程可概括为：对一个已训练好的 稠密模型，基于某种启发式准则（如权重幅值或 Wanda、SparseGPT 等算法）为每个参数赋予“重要性分数”，随后根据预设的稀疏度阈值，移除分数较低的一部分权重。尽管流程清晰，该方法存在一个本质局限：其整个剪枝过程建立在 固定不变的参数空间 上，本质上是一种 被动的筛选机制。这进一步凸显了以下深层冲突：

密集训练 的本质是隐式地激励模型 充分利用每一个参数。每个参数都承载了一定的知识或推理能力，并通过参数间的协同工作共同支撑模型的整体表达能力。
稀疏推理 则要求模型仅基于 被保留的部分参数 完成推理任务，并保持高性能。

这种训练目标与推理机制之间的内在不一致，意味着 直接裁剪必然会导致部分知识或推理能力的丢失，从而破坏原有参数间协同工作的平衡，引发性能下降。

02 技术方案：DenoiseRotator——从“被动筛选”到“主动优化”的范式转变

针对上述挑战，我们重新思考剪枝范式：能否在剪枝前先对模型进行 稀疏性引导的优化，使其 自身结构更易于被剪枝？基于此，我们提出了“重要性浓缩”的全新思路，并开发了 DenoiseRotator 框架予以实现。

2.1 核心思想：重要性浓缩

我们的核心目标是在执行剪枝之前，将原本分散在众多参数上的重要性，尽可能地 集中到一个较小的参数子集中。这样，在后续剪枝过程中，被移除权重所包含的关键信息将大幅减少，从而显著增强剪枝的鲁棒性。
为量化并优化“浓缩”效果，我们引入了 信息熵 作为衡量指标。通过将参数重要性分数归一化为概率分布，其熵值直接反映了重要性的集中程度：熵越低，表明重要性越集中于少数参数。因此，我们的优化目标明确为 最小化归一化重要性分布的熵。

2.2 实现机制：可学习的正交变换

DenoiseRotator 通过向 Transformer 层中引入 可学习的正交矩阵，实现重要性分布的熵减与浓缩。

如上图所示，我们在 Transformer 层的特定位置（例如 Attention 模块的 Value 和 Output 投影层前后）插入正交矩阵。这些矩阵对原始权重进行“旋转”变换，在 保持模型输出完全不变（得益于正交变换的计算不变性）的前提下，重新分配参数的重要性。

2.3 关键优势

训练与剪枝解耦：DenoiseRotator 采用 模块化设计，正交矩阵的优化与具体剪枝方法完全独立。我们首先利用校准数据，以最小化重要性熵为目标训练这些正交矩阵；训练完成后，将其合并回原始权重。此时，我们获得了一个“易于剪枝”的优化版稠密模型，可 无缝对接 任何现有剪枝工具（如 SparseGPT、Wanda）进行后续操作。

优化过程稳定：正交变换具有保范数特性，确保在重新分布重要性时，既不会人为引入也不会丢失总重要性量，从而保证了优化过程的稳定性，不影响原始模型性能。

下图直观展示了 DenoiseRotator 的有效性。以 LLaMA-3-8B 模型首层输出投影层为例，经我们的方法变换后，参数重要性分布从分散趋于高度集中，为后续剪枝奠定了坚实基础。

03 实验验证

在前文中，我们介绍了 DenoiseRotator 的核心思想——通过重要性浓缩提升剪枝鲁棒性。那么，这一方法在实际效果上表现如何？我们针对多个主流开源大模型进行了全面评测，涵盖语言建模和零样本推理任务，并与现有剪枝方法进行了对比。

3.1 实验设置：覆盖多模型、多任务、多剪枝方法

为全面评估 DenoiseRotator 的有效性，我们在多样化的实验设置下进行了系统性验证。实验覆盖了从 Mistral-7B、LLaMA3（8B/70B）到 Qwen2.5（7B/14B/32B/72B）等多个主流开源大模型，评测任务包括语言建模（使用 WikiText-2 验证集的困惑度 PPL 作为指标）和零样本推理（在 PIQA、WinoGrande、HellaSwag、ARC-e 和 ARC-c 五个基准任务上评估平均准确率）。在基线方法方面，我们将 DenoiseRotator 与三类剪枝方法结合：经典方法 Magnitude，以及先进方法 Wanda 和 SparseGPT，并在非结构化（50%稀疏）和半结构化（2:4 稀疏）两种稀疏模式下进行对比评测。

3.2 主要结果：语言建模与零样本推理全面提升

下表展示了不同模型在剪枝前后的困惑度（衡量语言建模能力）与零样本任务表现。DenoiseRotator 在所有模型和稀疏模式下均显著降低剪枝造成的性能下降，尤其在 2:4 稀疏下提升更为明显。

3.3 深入分析：熵减如何驱动剪枝鲁棒性？

我们通过消融实验验证了 重要性熵与剪枝效果的直接关联。以 LLaMA3-8B 为例，记录不同训练步数下的熵值变化与模型性能：

熵减少 13%（步数 100）即可带来零样本任务准确率提升 3.66%（66.88%➡70.54%），困惑度降低 19.5%（9.567➡7.701）。进一步优化可继续降低困惑度，验证了 重要性集中度与剪枝鲁棒性的正相关。

3.4 部署效率：轻量开销，显著收益

参数增量：每层新增一个（hidden_size, hidden_size）正交矩阵。以 LLaMA3-8B 为例，总参数量增加约 0.5B（占原模型 6.7%）。通过分块对角矩阵（见论文附录）可进一步降低开销，适合资源受限场景。
推理耗时：单层 Transformer 的 2:4 稀疏计算耗时 4.37ms，加入正交矩阵后仅增加 0.32ms（1.24× 加速比 vs 稠密层）。

04 总结

DenoiseRotator 提出了一种创新的剪枝视角：将模型准备（重要性浓缩）与模型压缩（剪枝）两个阶段解耦。通过可学习的正交变换，主动实现参数重要性的浓缩，从而显著提升后续剪枝的鲁棒性。该方法具备 即插即用 的特性，为大规模语言模型的高效、高性能压缩提供了新的技术路径。

项目地址：https://github.com/Axel-gu/DenoiseRotator

希望跟大家一起学习交流。如果大家对这项工作感兴趣，欢迎在 GitHub 上 Star、Fork 并参与讨论！

学界大佬吵架金句不断，智谱和 MiniMax 太优秀被点名，Agent 竟然能写 GPU 内核了？！

作者: 纯情
时间: 2026-01-24
分类: 资讯
评论

“如果一个 AI 能解 IMO，但解决不了任何现实问题，那它不是通用人工智能。”

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家，蒂姆·德特默斯对 AGI 给出的判断，他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI 从神坛上拽了下来。

有意思的是，几天后，加州大学圣地亚哥分校助理教授、Together AI 内核副总裁丹·傅，给出了完全相反的判断。他写了一篇 《通用人工智能终将成为现实》，说 我们也许早就已经实现了 AGI。

于是，两篇文章，一场关于 “AGI ” 的争论，被带进了播客现场。

这场讨论并非空谈，两位嘉宾都是同时深耕学术界与产业界的一线研究者。

蒂姆·德特默斯长期深耕深度学习量化领域，即模型压缩，如何在更低精度、更少算力下，让模型保持可用性能。

在蒂姆·德特默斯看来，判断 AGI 是否成立，首先要回到一个常被忽略的前提：计算是物理的。

在他看来，内存迁移、带宽、延迟，以及冯·诺依曼瓶颈，决定了算力不可能无限扩张。他说 “几乎所有指数增长，最终都会撞上资源和物理极限”。 所以，指数增长终将放缓，Scaling Law 也不例外。

但丹·傅显然不这么看。在他看来，现在谈“算力见顶”，还太早了。丹·傅每天都在和 GPU 内核、算力利用率打交道，在他看来，“我们甚至还没真正用好上一代硬件。”

在现实系统中，算力其实被严重低估和浪费了， 大量性能消耗在内核调度、系统开销和工程细节上。更关键的是，人们今天评测和使用的“最强模型”，往往是基于一到两年前的算力集群训练出来的，它们并不能代表当下硬件和大规模集群所能达到的真实上限。

他因此提出了一个直观的估算思路，用来说明算力增长的潜力来自多个维度的叠加：

新一代硬件带来约 2–3 倍的性能提升；
系统与工程优化将算力利用率提升约 3 倍；
更大规模的集群再带来约 10 倍的规模效应。

这三者相乘，意味着可用算力在理论上可以提升接近 90 倍。这并不是纸面上的推算，而是正在产业中逐步发生、逐步兑现的现实潜力。

有意思的是，当争论继续推进，两人反而在一个问题上开始靠拢：AGI 到底是什么？

关于 AGI 的定义，大致有两种主流视角：

一种从认知能力出发，看模型能否覆盖足够多的认知任务；

另一种则从经济角度出发，看它是否真的改变了生产方式。

这一点上，双方达成一个共识：AGI 是什么并不重要，重要的是，它有没有改变我们工作的方式。

在访谈后后半部分，大家从未来拉回到了现实，Agent 成为了关键话题。

丹·傅在节目中提到一个有趣的时间点：2025 年 6 月， 那是他第一次意识到，Agent 可能真的越过了拐点。

他当时发现机器学习工程中最难的技能之一、编程领域的终极难题——“GPU 内核编程” 被代码智能体啃下来了。他自己亲测：原本一个 GPU 内核功能开发得磨一周，那天靠着代码智能体，一天就搞定了三四个，工作效率直接提升了 5 倍。而他的团队用上后，那些原本需要整支团队耗数月的复杂系统开发，也变得轻装上阵。

这让丹·傅想起了自己对自动驾驶的态度变化，从长期怀疑到真正坐上 Waymo，他意识到技术的突破可能藏在某个猝不及防的瞬间。

针对 Agent 的爆发式潜力，蒂姆·德特默斯曾发布了一篇掷地有声的文章 《要么善用 Agent，要么被时代淘汰》。在他看来，代码 Agent 本身就是高度通用的 Agent，因为代码几乎可以描述和解决所有数字化问题。他甚至直言，“超过 90% 的代码和文本，本就应该由 Agent 来生成。但同时他也强调，“人类必须对最终结果承担责任，而非盲目依赖 AI 的输出。”

两人将 Agent 形象地比作“需要精细化管理的实习生”，只要给它明确背景信息、拆解任务边界、设定执行约束，人类无需过度干预其执行过程，而是把注意力聚焦在把控方向上，用专业判断力校验结果。而在 Agent 时代，真正吃到红利的将是有深厚积累的专家，其专业基础越深厚，Agent 能为其创造的效率增量就越显著。

在节目的最后，关乎对 AI 行业未来的预判，双方抛出了一系列深刻洞见。

在他们看来，小模型会成为行业新热点、开源模型会进一步飞跃；新硬件、多模态、端侧 AI 都会有进一步发展。

其中，硬件赛道将走向多元化发展，模型训练与推理环节的专业化分化会进一步加剧。

更值得关注的是，Transformer 架构独霸天下的时代会落幕，各类新架构会登上时代舞台。

他们还特别提到了中国的 GLM-4.7、MiniMax、DeepSeek 等优秀模型，对中国大模型的快速进步表达了高度认可。

在他们看来，相比技术路线相对集中的美国，中国团队反而更敢于探索多种可能性，比如状态空间模型、线性注意力以及混合架构等，通过架构创新或极致性能，让开源模型脱颖而出。

同时，他们也指出，中国的模型团队在技术路线上更务实。与“先做出最强模型，再等待应用出现”的硅谷思路不同，中国团队更关注模型是否真正能落地、是否能在现实场景中产生价值。正是这种务实的发展思维，可能会在未来深刻影响人工智能的技术形态以及它所能创造的社会价值。

以下是播客全文，更多精彩细节，欢迎来看：

“AGI 能否成为现实”之争

主持人：蒂姆，几周前你发表了一篇极具争议性的精彩博文，标题是 《通用人工智能为何不会成为现实》。而丹，你在几天后也发布了一篇同样引人入胜的回应博文，标题为 《通用人工智能终将成为现实》。我想先了解一下二位的背景，你们都有着一个有趣的特点，就是兼具产业界和学术界的从业经历。蒂姆，不如你先讲讲吧。

蒂姆・德特默斯：我是卡内基梅隆大学机器学习与计算机科学系的助理教授，同时也是艾伦人工智能研究所的研究科学家。

我过往的研究主要聚焦于高效深度学习量化技术，简单来说就是模型压缩， 把大模型从 16 位精度压缩到 4 位精度左右，这方面我做了不少核心研究。比如一种高效的微调方法，我们将模型压缩至 4 位精度，在模型上使用适配器，这样所需的内存相比全精度模型能减少多达 16 倍。

目前我正致力于代码 Agent 的研究， 我们将在约两周后发布一项非常令人振奋的成果，打造出了目前最先进的 Agent，它能快速适配私有数据，在任意代码库上都能实现出色的性能表现，这一成果真的让人充满期待。

主持人：丹，该你了。

丹・傅：我是加州大学圣地亚哥分校的助理教授，同时担任合聚人工智能公司的内核副总裁。

在产业界，我的工作主要集中在提升模型的运行速度，GPU 内核正是将模型转化为实际在 GPU 上运行程序的关键，你可以把它理解为专门的 GPU 程序。

我的博士阶段以及实验室的大量研究都围绕这一方向展开，比如我研发了快速注意力机制，这是一款针对当下多数语言模型核心运算的高效内核。我还研究了 Transformer 架构之外的替代架构， 比如状态空间模型等。

在合聚人工智能，我主要关注如何打造当下最优的语言模型，以及如何进一步提升它们的运行速度。

就在本期节目录制的今早，我们还和库尔索公司联合发布了一篇博文，介绍了我们如何为其多款模型实现加速，并助力他们在英伟达的布莱克韦尔（Blackwell） GPU 上推出了作曲者 2.0 模型，这大概就是我的工作内容。

从 AGI 的定义，聊到对 AGI 的现实判断

主持人：接下来我们聊聊通用人工智能的话题，节目后半段再探讨 Agent 和代码 Agent，以及二位的相关见解。通用人工智能这个术语被大家广泛使用，但我想大家都认同，目前还没有人能准确定义它。为了本次探讨，二位认为什么样的通用人工智能定义是实用的？

丹・傅：当然。我和蒂姆在这一系列博文中 反复探讨的一个问题，就是通用人工智能的定义。

就我而言，我最近一直在思考，以当下的模型发展水平，尤其是语言模型，再结合后续会谈到的 Agent 来看，以 5 年前、10 年前，甚至我和蒂姆刚开始读博时任何人给出的通用人工智能定义，我们其实已经实现了当时的设想。如今的模型能写代码、能生成人类语言，即便有时用词上会有些小瑕疵，但确实能完成这些令人惊叹的任务。我还会思考，这种技术发展到何种程度，会引发一场新的工业革命，真正改变我们当下的工作方式，并产生巨大的经济影响。

在软件工程领域，我觉得我们已经身处这样的变革中，或者说即将迎来全面变革。虽然在一些高度专业化的领域，比如模型未必能写出世界上最优质的福兰语和钴语言代码，但在网页开发，甚至很多底层系统工程方面，它们的表现已经非常出色。

我写那篇博文的一个原因就是，审视当下的发展，我们或许已经实现了通用人工智能，或者说某种形式的通用人工智能。即便尚未完全实现，下一代正在训练的模型，只要比当下的模型表现更好，我们就已经取得了令人惊叹的突破。

蒂姆・德特默斯：我写那篇博文时发现，自己竟然忘了在文中给出通用人工智能的定义，尽管整篇文章都围绕这个主题展开。我想这在某种程度上也反映了我们对通用人工智能的思考现状 —— 我们并未认真去界定它。当然，目前存在多种定义，各有优劣，正如你所说，没有一个定义能获得所有人的认同。

我简单提几种比较主流的，一种是将通用人工智能视为认知能力、认知任务的集合，关注模型能完成哪些认知层面的工作。 软件工程、文本创作都是高度依赖认知的任务，而让机器人在空间中移动则更偏向操作层面，当然也有人认为肢体移动的规划也属于认知范畴，但多数人会将其区分开来，认为所有数字化的任务都属于认知领域，物理层面的操作则超出了这一范畴。

另一种我认为很有意义的定义视角是经济层面，看人工智能是否能引发一场新的工业革命，是否具备广泛的实用性，能应用到各个领域，推动各类工作的效率提升，就像计算机的出现那样。当然，计算机刚出现时，生产率其实出现了下降，直到其在经济中广泛普及，生产率才重新回升。通用人工智能的发展或许也会经历类似过程，在软件工程等领域，其带来的效率提升已经十分显著。

主持人：我们直接切入核心争论吧。蒂姆，你曾提到 AGI 的相关构想的起源，这一点让我觉得很有意思，你能展开讲讲吗？

蒂姆・德特默斯：好的。先梳理一下整体的背景，当下关于 AGI 的一些观点，根植于特定的思维模式，主要来源于有效利他主义社群和理性主义社群。

我 15 年前也曾是这些社群的一员。在推特上，总能看到有人说 “两年内就能实现通用人工智能”，一年后又有人说 “两年内就能实现通用人工智能”，年年如此。我觉得这种想法有些草率，也体现出一种信息茧房的状态，持这种观点的人很少接触不同的想法。这也是我写那篇博文的主要动机，我希望提出一些不同的观点，为当下主流的思考提供一种反视角。

算力是否见顶

主持人：你核心的观点是，这些构想与实际的计算现实之间存在矛盾，这样概括准确吗？

蒂姆・德特默斯：没错。这其中既涉及物理层面的限制，也有理论层面的问题，而这两方面都存在 一个共同的规律 —— 收益递减。所有指数级增长的事物最终都会放缓，因为发展需要资源，而资源总会耗尽，这里的资源可以有多种解读。

从物理层面来看，技术的进一步发展会变得越来越困难，几乎所有研究和开发领域都是如此。前期的进展往往容易实现，而后续要取得突破，需要投入更多资源，发展速度也会越来越慢。

再看计算设备的物理现实，以及计算本身的结构， 其实有用的计算主要包含两个环节：

首先是将数据从不同位置收集起来，汇聚到指定位置，然后对这些信息进行整合，完成信息的转化处理。简单来说，就是结合已知信息，计算出未知的新信息。有用的信息，必然是从已有的信息中转化而来的。如果只是大量转移信息，却不进行处理，就无法产生新信息；如果只是对现有信息进行大量计算，又会错失跨领域的洞察和间接的启发。我认为这一点与我们当下的神经网络架构高度契合。

早期的卷积神经网络表现出色，原因就在于它们几乎不怎么移动内存，而是专注于大量计算，这意味着这类设备需要强大的浮点运算能力，而内存带宽则没那么重要。当发展到大规模密集计算、大矩阵运算阶段，就到了当下神经网络的发展方向，但此时仍保留着循环机制的特点，需要关注之前的状态。不过由于循环的特性，计算的内存复用率极低。

而 Transformer 架构，先是通过大矩阵将前一层的输入信息进行转化，再通过注意力机制实现跨时间或空间的信息关联。我认为这是处理信息最根本的两种方式：一是让信息之间建立关联，或对信息进行转化；

二是让信息与关联较远的其他信息建立联系，也就是挖掘长期关联，并基于已有信息进行转化。

主持人：你认为这一发展进程正在放缓，对吧？你的博文中有一句非常引人注目的话，称 “图形处理器的发展将不再有实质性突破”，这是核心观点，能说说原因吗？

蒂姆・德特默斯：这个观点包含两层含义，首先是一个非常根本的物理问题，也就是我刚才提到的内存转移和计算的关系。

计算要产生价值，就必须将内存数据转移到进行计算的本地区域，这其实是一个几何问题。你需要一个大容量的信息存储区，然后将其中的信息转移到计算区域。而我们已经找到了实现这一过程的最优物理方式：配备大容量但速度较慢的动态随机存取存储器，再将数据转移到高速缓存中。

从几何结构来看，这是实现高速运算的最优解，针对特定规模的计算任务，这种架构的效率是最高的。如果是矩阵乘法这类不同规模的计算任务，就需要使用图形处理器而非中央处理器，因为图形处理器虽然延迟更高，但吞吐量更大，能传输更多数据，只是速度稍慢。我们可以对缓存的结构、大小，以及核心的共享方式做一些微调，但归根结底，核心的问题始终存在 —— 这是一个几何难题，空间的利用方式是有限的，这就决定了数据的访问模式和延迟始终存在固定的限制，其中最大的延迟来自大容量的动态随机存取存储器，这也是主要的性能瓶颈。这一瓶颈也被称为 冯・诺依曼瓶颈，几乎所有计算机都受此限制，具体来说，就是需要将程序传输到执行区域才能运行。对于神经网络而言，就是要将权重和输入数据传输到张量核心这一执行单元。

想要绕开这一瓶颈的方法寥寥无几，唯一的途径是进行本地内存存储和本地计算，市面上也有一些处理器尝试实现这一点，比如存算一体处理器，能在很大程度上在芯片内部解决冯・诺依曼瓶颈问题，但这类处理器仍需要从外部向芯片内传输数据，这就使得冯・诺依曼瓶颈从芯片内部转移到了存储设备或网络层面，问题只是发生了转移，本质并未改变。你仍需要通过网络将存储在磁盘或内存中的程序加载到芯片中，这还是同一个物理问题，只是调整了几个变量而已。这是问题的第一个层面，目前还没有能解决这一问题的架构。

第二个层面，也是我的核心观点所在：想要突破瓶颈，需要依靠新技术，但当新技术的潜力被充分挖掘后，又需要新的技术实现进一步突破。

比如，我们从动态随机存取存储器发展到了高带宽存储器，也就是堆叠式的动态随机存取存储器，速度大幅提升，但这种存储器的堆叠层数有限，因为其制造和测试的难度极高，良品率很低。到 2026 年，高带宽存储器的产能将会不足，无法实现规模化生产，因为制造难度实在太大。我们已经见证了诸多技术创新，张量核心的出现是一大突破，8 位精度、4 位精度的量化技术也相继落地，我和其他研究者的研究都表明，这些技术在信息论层面和实际应用中都是接近最优的。

如果基于足够多的数据进行训练，4 位精度是不够的，实际需要 8 位精度，这意味着量化技术已经发展到了极限。硬件的潜力也被挖掘殆尽，目前没有新的技术可以突破，我们能做的只是优化制造工艺，降低成本，却无法提升速度。各项功能的开发也已到极致，稀疏化技术是很多人尝试的方向，这一研究已经持续了 50 年，我自己也做过相关尝试，这或许是最后一个可探索的方向，但 4 位精度的量化技术已经意味着量化领域的发展走到了尽头。

简单来说 ，功能和硬件都已被开发到极限，这就是我们当下的处境。

主持人：太有意思了。丹，你对这些观点有什么看法？

丹・傅：我非常认可蒂姆的这篇博文，因为当下有不少关于通用人工智能的讨论，只是简单地按照指数增长的趋势去推演，认为到某个时间点，人工智能会发展到掌控整个宇宙的程度，我一直觉得这种思考方式有些片面。我认同蒂姆从实际物理限制角度出发的分析，正如他所说，这些都是依赖物理输入、进行实际物理计算的系统。

我的观点是，看看当下的系统和我们训练的模型，我们甚至连上一代硬件的潜力都远未充分挖掘，更不用说新推出的硬件了。

从技术层面，我在博文中主要提出了两个核心观点：

第一，看看当下那些表现出色的模型，我在博文中主要以开源模型为例，因为开源领域会更多地披露模型的训练过程和所耗资源，而开放人工智能和思存人工智能等公司并未公开相关数据。

以 DeepSeek 模型为例，这是目前最优秀的开源模型之一，它在 2024 年底完成训练，使用的是上一代的英伟达 H800 GPU，这款显卡因出口限制做了性能阉割，并非原版 H100。根据公开报告，该模型的训练使用了约 2000 块 H800 显卡，耗时约一个月。计算一下实际的算力利用情况会发现，芯片的有效利用率仅约 20%，行业内将这一指标称为模型浮点运算利用率。而在 21 世纪 20 年代初，我们在旧硬件上训练不同架构的模型时，轻松就能实现 50% 甚至 60% 的模型浮点运算利用率。如果能将这一指标提升，再加上我的好友崔最近发布了一系列能优化模型训练的新内核，单是这一项优化，就能让算力利用率提升 3 倍。

第二，需要意识到的是，这款 2024 年年中开始训练的 DeepSeek 模型，在 2026 年初仍是众多优秀开源或类开源模型的基础。而从那之后，我们已经搭建了全新的算力集群，搭载了当下最新的硬件，比如英伟达的布莱克韦尔系列显卡。普尔赛德、瑞弗莱克申等公司都在搭建包含数万个 B200、GB200 芯片的算力集群。

对比来看，新一代硬件即便保持和之前相同的精度、相同的配置，运算速度也能提升 2 至 3 倍，算力集群的规模更是扩大了 10 倍，再加上 3 倍的纯技术优化空间，整体的可用算力能提升 3×3×10，也就是 90 倍。这还没有考虑未来的算力集群建设，只是当下已经落地、有人正在用于模型训练的集群。

我的核心观点是，单从这些基础的硬件条件来看，就能发现可用算力相比我们当下所依赖的模型，还有多达两个数量级的提升空间，也就是 100 倍。 当然，我们可以争论算力规模扩大是否会带来收益递减，缩放曲线是否依然有效，但现实的算力潜力就摆在眼前。

这还没考虑蒂姆提到的那些点，比如目前的训练大多采用 8 位精度，而 4 位精度的训练方法才刚刚开始形成相关研究成果；GB200 芯片有 72 个连接速度极快的核心，而我们甚至还没看到基于这款芯片训练的首个预训练模型。开放人工智能的报告中提到，GPT-5.2 是首个基于 H100、H200 和 GP200 芯片训练的模型，这在我看来，意味着它的预训练其实是在老旧的算力集群上完成的，只是在新的 GP200 芯片上进行了一些微调。

主持人：你提到，不仅硬件的利用率不足，模型本身也是硬件发展的滞后指标，对吧？

丹・傅：没错。我们当下能使用、能体验到的模型，都是在一两年前搭建的算力集群上完成预训练的。

因为搭建一个算力集群需要时间，完成大规模的预训练需要时间，后续的微调、人类反馈强化学习等后训练环节也需要时间。所以我们当下所看到的、用来衡量模型质量的这些模型，其实都是在一年半前的硬件上训练的。而在这之后，我们已经搭建了规模大得多的算力集群，不难想象，这些集群会被用于训练新一代模型。

也就是说，我们当下所依赖的优质模型，训练所使用的硬件其实已经相当老旧，而我们拥有了新一代的硬件、更多的软件优化方案，更不用说架构层面的创新了。

蒂姆刚才提到，处理数据的核心是先转移、再计算，而变形金刚架构其实一直在发展，只是在研究者看来，发展速度稍慢。但我们能看到，计算的核心方式已经在发生变化，哪怕再找到 1.5 倍或 2 倍的优化空间，整体的可用算力就能达到 100 甚至 150 倍。所以当下还有大量的算力潜力可以挖掘，用来训练更优质的模型。

预训练是综合训练，后训练是专项训练

主持人：我理解这场讨论的核心是预训练，也就是我们能否用更多的数据和算力训练出更大的模型。但在本播客之前的对话中，很多人都强调后训练的重要性，以及构建结合预训练和强化学习的人工智能系统的意义。这一点在当下的讨论中该如何定位？

丹・傅：这是个非常好的问题，我和蒂姆的博文其实都没有重点探讨这一点。我喜欢这样比喻，预训练就像是在健身房进行的综合力量训练，通过大重量训练提升整体的力量和能力；而后训练就像是针对特定项目的专项训练，让你在具体任务上表现更出色。

从算力消耗来看，历史上预训练消耗的算力占绝对主导，其目的是打造具备通用能力的模型，让模型掌握大量知识，能完成多种任务，甚至拥有比普通人更多的知识储备，比如我自己的知识量肯定比不上聊天生成预训练转换器。

而后训练的作用，一方面是让模型变得更实用，比如聊天生成预训练转换器，能理解用户的需求，并尽力完成任务；另一方面，我们也发现，后训练正越来越多地被用于培养模型的特定技能。比如擅长辅助编程的模型，虽然依托于预训练积累的大量知识，但正是通过后训练，才让它在编程领域具备了出色的能力；同理，擅长法律工作的模型，也是在预训练的基础上，通过后训练实现了专业领域的优化。

从纯计算的角度来看，预训练的算力消耗通常远大于后训练。 后训练的工作，我虽然不是这方面的专家，但感觉更多地像是如何打造一款实用的产品，如何获取用户反馈，诸如此类。

当然，也有一种可能是，下一代预训练模型的基础能力已经足够强大，只要针对经济领域的各个垂直赛道进行后训练，就能打造出极具实用性的模型。所以这也是计算领域的另一个重要维度，或许我们根本不需要那 100 倍的额外算力，更多的是需要像培养人类一样，深入理解问题，找到合适的训练方法 —— 就像你如何培养一名实习生完成特定任务，如何让一个能力强大的预训练模型发挥出实际价值，这正是后训练要解决的问题。

主持人：二位都提到了 “实用性” 这个概念，这或许是你们观点的交汇点。通用人工智能的定义众说纷纭，但最终的关键还是看它在产业中的实际实用性。所以即便由于收益递减，我们无法实现那个大家都无法准确定义的、理想化的通用人工智能，也无关紧要，因为我们还有巨大的潜力可以挖掘，足以让人工智能在整个经济领域发挥真正的价值，而不仅限于编程领域。

蒂姆・德特默斯：没错。我那篇博文的核心结论正是如此，我们不必过分纠结于通用人工智能的定义，更应该思考如何让人工智能发挥最大的实用价值，而这不仅关乎模型本身，丹刚才提到后训练是产品化的过程，这一点很重要。计算机的发展历程告诉我们，技术在经济中的普及需要一种截然不同的思维模式。

美国的思维模式往往是 “打造出最优的模型，自然会有人使用”，而中国的思维模式则更注重务实，思考如何让技术惠及更多人。我认为这种务实的思维模式至关重要。谈及实用性，一方面是模型的能力，另一方面就是这种发展思维。

我相信我和丹，以及大多数人都会认同一个观点：如果一个人工智能能完成数学奥林匹克竞赛这类高难度任务，却无法解决任何实际问题，那它算不上通用人工智能。而当下的模型已经具备了实用性，所以不会出现那种 “有能力却无用处” 的情况。

我们真正追求的，是实用性极强的模型，而这样的模型我们已经拥有，并且还能不断优化。我认为按照某些定义，我们或许无法实现通用人工智能，但人工智能必将产生巨大的社会影响。

丹・傅：我想补充一点，蒂姆你提到了经济领域的物理性工作和知识性工作的划分，美中两国在这方面的差异非常有意思。

最近有一本丹・王写的书很火，探讨了制造型经济、工程型经济与偏法务型经济的区别。美国有大量优秀的知识性工作有待人工智能去赋能，而从经济的实际产业结构来看，医疗、教育占了很大比重，科技领域虽然也是重要组成部分，引领着股市的走向，但还有更多领域等待挖掘。

现在有很多优秀的研究者正在尝试用新一代模型研发新药、推动医疗领域的实际变革；如果机器人技术能实现突破，助力完成一些体力劳动 —— 未必是建造房屋这类重活，而是日常的家务劳动，那将挖掘出经济领域的巨大潜力。这些方向的发展已经能看到初步的成果，自动驾驶的发展历程对我很有启发。

在我读博初期，大概 2018、2019 年，我对自动驾驶持非常怀疑的态度，当时大家总说自动驾驶 “再有一两年就能实现”，专家则说 “五年内有望落地”。但去年我乘坐了威莫的自动驾驶车辆，如今在加州湾区，我甚至能使用威莫的高速自动驾驶服务。理论上，我现在甚至可以卖掉自己的车 —— 当然我不会这么做，因为我个人喜欢开车。

但技术的进步就是这样，在这之前一直毫无起色，突然有一天就实现了突破，你会发现它不仅表现出色，甚至比优步、出租车这类人工服务还要好。如果人工智能在家庭清洁、洗碗这类家务劳动上也实现这样的突破，那将是非常令人振奋的，也会彻底改变人们的看法。我自己并非机器人领域的研究者，但一直密切关注着这个领域的发展。

多硬件、多芯片的未来方向

主持人：丹，借着这个话题，我想问问，从你的观察来看，人工智能领域是否会朝着多硬件、多芯片的方向发展？显然英伟达的发展势头迅猛，还有赛博拉斯等公司，以及众多从底层技术切入的专用集成电路企业。从你深耕底层技术的视角，你怎么看这一趋势？

丹・傅：这是个很棒的问题，我在实验室的工作中会花大量时间思考这个问题，产业界的工作中也会密切关注。当下正处于一个非常令人振奋的阶段：英伟达的芯片性能强劲、稳定性高，围绕其构建的软件生态也非常完善；而 AMD 的芯片也开始展现出同样的潜力，相关的研究也在推进。

比如在实验室，我的好友西姆龙・奥罗拉主导开发了一个名为希普基滕斯的库，核心就是探索如何设计合适的软件抽象层，实现 AMD GPU 的编程。研究发现，AMD GPU 和英伟达 GPU 的软件抽象层存在明显差异，即便这两款 GPU 的参数规格相对接近 —— 更不用说和格罗克、赛博拉斯、萨博诺瓦等公司的芯片相比了，它们的编程方式也截然不同。

现在越来越多的人开始关注这一领域，投入时间和精力进行研究。英伟达收购了格罗克，当下张量处理单元也备受关注，赛博拉斯和开放人工智能也刚宣布达成合作。所以未来必然会涌现出更多的硬件方案，英伟达无疑会继续保持良好的发展态势，甚至在本期节目录制时，其市值已经突破 5 万亿美元，但硬件领域的多样性会大幅提升，尤其是在模型推理层面。

训练和推理是两种截然不同的计算过程，因此需要的芯片也大相径庭。在推理层面，模型可能需要在手机、笔记本电脑等本地设备上运行。 我的手机是一款几年前的苹果手机，但其运算能力已经超过了我读博初期使用的一些 GPU，硬件算力的增长速度令人惊叹。

2025 年 6 月是 Agent 的拐点

主持人：丹，你刚才提到自动驾驶实现突破的那个节点，Agent 的发展是否也已经到了这样的时刻？你还提到过 “软件奇点”，我们当下是否正处于 Agent 发展的关键突破点？

丹・傅：我认为是的。就我个人的经历而言，这个突破点出现在 2025 年 6 月左右。

给大家做个背景介绍，我在合聚人工智能的日常工作就是编写这些 GPU 内核，在机器学习领域，GPU 内核的编程被认为是最难掌握的技能之一，它需要高度的并行化设计，使用的是 C++ 这种资深工程师使用了数十年的老牌语言，而非 Python 这类易用的语言。招聘能编写 GPU 内核的工程师难度极大，这是一项极具挑战性的技能，无疑是编程能力的顶尖体现。

而 2025 年 6 月，我们有了一个非常有趣的发现：云代码、库尔索 Agent 这类代码 Agent，在编写 GPU 内核方面的表现非常出色。那一周，我完成了三四个原本各自需要一周时间才能完成的功能开发，全部工作一天就搞定了。 当时我就意识到，这个工具让我这个内核领域的专家，工作效率提升了 5 倍。

我让团队都开始使用这个工具，现在团队借助它搭建了许多复杂的系统，能快速完成原本需要整个团队耗时数月才能实现的功能开发。而 GPU 内核编程，正是编程领域最难的 “终极挑战”，所以在我们看来，代码 Agent，尤其是在高难度的 GPU 内核编程领域，已经实现了关键性的突破。

几个月前，我在斯拉什大会上做了一场演讲，提出了 “软件奇点” 的概念，核心就是意识到在软件工程领域，即便是这类非常小众的高难度技能，人工智能的表现也已经超越了普通程序员，甚至能为资深程序员带来效率的大幅提升。就本期节目录制的当下而言，让 Agent 独立完成开发，可能还无法产出完美的结果，但如果资深程序员借助这些工具，工作效率能提升 10 倍，这是一个非常令人振奋的发展阶段。

要么善用 Agent，要么被时代淘汰。

主持人：聊到 Agent，蒂姆，你最近还发表了一篇精彩的博文，标题是《要么善用 Agent，要么被时代淘汰》，其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现，到 Agent 在日常生活各领域发挥实用价值，这一发展进程当下处于什么阶段？

蒂姆・德特默斯：我写这篇博文，也是因为发现使用代码 Agent 能为各类任务带来巨大的生产效率提升。作为一名教授，我平时的编程工作并不多，但借助代码 Agent，编程变得前所未有的轻松，这在以往是难以想象的。

当然，Agent 在非编程任务上的表现也同样出色。从我自身的体验来看，生产效率的提升幅度不一，有时是两三倍，有时甚至能达到 10 倍，而且工作质量没有下降，甚至有时还能提升。Agent 的能力或许未必比我强，但它不会疲惫，不会犯低级错误，也不会在整合复杂信息时出现认知上的困难 —— 这和丹刚才提到的 GPU 内核编程的情况是一样的。

我认为马特你将其分为代码 Agent 和通用 Agent，但在我看来，代码 Agent 本身就是通用 Agent。代码 Agent 能编写程序解决各类问题，而代码的通用性极强，任何数字化的问题都能通过代码解决。代码 Agent 让解决问题的过程变得无比轻松，让我们能以以往无法想象的方式和速度解决各类问题，实现多任务并行处理。Agent 不会疲惫，可以持续工作，让工作变得轻松很多。

我的博文中有一个观点我自己很认同，开篇我先区分了炒作和现实，而后基于自己在直播中测试 Agent 的实际体验得出结论 ：超过 90% 的代码和文本都应该由 Agent 来生成，不这么做，就会被时代淘汰。 我想对于很多工程师来说，这一点已经成为现实。

有些人认为，Agent 生成的代码和文本质量一定低下，但关键在于，你需要对 Agent 的输出进行检查和编辑。你所做的这 10% 的工作，能带来巨大的改变。通过这种对输出内容的检查、编辑和优化，让成果成为属于自己的作品。

人工智能生成的内容，并不比你自己写的内容缺乏个性。比如我借助 Agent 撰写科研基金申请，成品会让我觉得充满生命力，能感受到其中的吸引力，相信评审人看到后会觉得 “这是一项优秀的研究，值得资助”。现实就是如此，如果你只是让 Agent 生成内容，不做任何检查就直接使用，那肯定无法达到预期效果；但如果你能快速审核内容、调整优化，发现不妥之处并进行修改，最终就能得到优质的成果，这会成为未来的常态。

而适应这种工作方式所需的技能，大多数人还未完全掌握，我自己也在学习中，目前仍处于探索阶段。 模型在更新，框架在迭代，我们需要不断适应、持续学习，虽然要学的东西很多，但一旦掌握，带来的回报是巨大的。

曾经有人认为软件工程师会因此消失，但现在大家都不再这么想了。Agent 极大地提升了生产效率，而掌握使用 Agent 的能力，正是当下最需要学习的技能。善用 Agent，能让你完成更多工作，这是核心所在。如果不懂得如何有效使用 Agent，你就会被淘汰，这将成为一项必备的核心技能。

主持人：聊到 Agent，蒂姆，你最近还发表了一篇精彩的博文，标题是《要么善用 Agent，要么被时代淘汰》，其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现，到 Agent 在日常生活各领域发挥实用价值，这一发展进程当下处于什么阶段？

蒂姆・德特默斯：我认为最关键的是保持务实，思考需要解决的问题，并尝试用代码实现。

当然，对于非程序员来说，编程本身就有很高的门槛，会觉得 “我从没写过代码，根本做不到”。但如果和 Agent 互动，它能直接帮你搭建程序，你只需要进行少量的学习 —— Agent 还会为你讲解相关知识，很快就能上手，实现程序的运行、网站的搭建等，还能快速获得反馈，现在做这些事情已经不再困难。

当然，我之前提到过需要检查 Agent 的输出，但如果你只是为自己搭建一些简单的工具提升工作效率，其实往往不需要这么做，Agent 生成的代码质量已经足够高。如果是在公司工作，需要将代码整合到正式的代码库中，那肯定需要进行审核；但如果只是搭建个人使用的小程序，提升自己的工作效率，那非常容易。

举个随机的例子，我会录制自己和 Agent 互动的视频，视频中会有我讲解的片段，也有我查看输出、思考分析的片段。我借助 Agent 搭建了一个工具，它能识别语音，记录我说话的时间戳，然后对视频进行剪辑，只保留我讲解的部分，去掉无意义的片段。这个工具我只用了 20 分钟就搭建好了，我相信所有人都能做到，因为我甚至没有检查 Agent 生成的代码，直接使用后，剪辑出的视频效果非常好。

只要建立起 “提出需求 — Agent 生成 — 获得反馈” 的循环，你根本不需要自己编程，只需要学会检查输出内容，或者掌握 Python 程序、bash 脚本的基本运行方法，就能实现工作的自动化。

主持人：那该如何选择要自动化的工作呢？该从哪些角度思考生活中的自动化需求？

蒂姆・德特默斯：我在博文中也探讨过这个问题，其实可以分为 直觉层面和精细化分析层面。

直觉层面很简单，就是思考哪些工作自动化后会带来便利，哪怕是一些复杂的需求，比如 “我想要一个能实现某某功能的安卓或苹果应用”，一开始你可能觉得这很难，但只要向 Agent 提出需求，它能立刻实现。你可以充分发挥想象力，打造任何自己想要的工具，那些以往没人开发、自己又迫切需要的产品，现在都能借助 Agent 实现。

这种思维方式能让你打造出实用的工具，提升生产效率，同时也能锻炼你使用 Agent 的能力。当然，有时尝试后可能会失败，这时你会明白 Agent 的局限性，以及自己还需要学习哪些知识才能解决问题。

这是直觉层面的方法，能让你快速入门，从最初的兴奋，到面对现实的冷静，再到继续尝试，最终会发现自己的生产效率在一天天提升。

而精细化分析层面的方法，来自我在德国自动化行业三年的工作经历，当时主要负责工厂的自动化改造，这是一种非常严谨的计算方法：先梳理自己的工作流程，为每个步骤计时，然后分析如果将某个步骤自动化，能带来多少收益、节省多少时间，再计算开发这个自动化工具需要投入多少时间，通过这种成本收益分析，快速判断哪些工作的自动化改造是有价值的。

我的博文中提到，邮件的自动化处理效果并不好，还有一些事情也是如此，比如创建会议日历邀请，没人喜欢做这件事，但仔细想想，人们对会议的安排有很多个性化的需求，比如某天想多安排会议，某天想把会议安排在午饭前，这些需求 Agent 无法感知。即便你向 Agent 详细说明这些需求，它生成的日历邀请也未必能符合预期，最终的效率提升其实非常有限。

通过这种精细化的分析，能让我们避开这些无意义的尝试，找到真正能通过自动化提升效率的工作。

主持人：丹，从你的角度来看，在 Agent 的应用中，哪些方法是有效的，哪些目前还不成熟但未来有望实现，又该如何管理 Agent？

丹・傅：我发现 Agent 的有效应用，主要有两个核心要点。

第一，让 Agent 发挥效用的方式，和管理团队中的初级员工、公司里的实习生非常相似。 比如，你不会对一个刚来的实习生说 “去把公司的营收提升一倍”，或许你会尝试一次，但显然不可能得到想要的结果。相反，你会给实习生安排一些简单的入门任务，让他们熟悉复杂的代码库，并告诉他们可能会遇到的问题 —— 因为你自己有过相关的经历。当你给 Agent 提供这样的背景信息，让它能接触到相关的资料，它通常就能顺利完成任务。

另外，对待新员工，你不会直接把生产环境的所有权限、数据库信息都交给他们，而是会给他们足够的工具，让他们能开展工作。对待 Agent 也是如此，有些人会担心 Agent 误删生产环境的所有数据，于是对其处处限制，每一步都进行监控，但如果用这种方式对待人类员工，他们根本不可能高效工作。这是一个很重要的点，当下的 Agent，至少可以把它当作实习生或初级员工来对待。

第二，我发现一个非常有趣的现象，尤其是从教授的教育视角，思考如何培养学生适应这个 Agent 成为工作核心的未来，那就是：一个人的专业知识越扎实，比如蒂姆在流程自动化领域的专业积累，或是我在 GPU 内核编程领域的深耕，Agent 能为其带来的能力提升就越大。

因为专业知识扎实的人，能在更高的抽象层面开展工作，知道工作的核心要点、方向，了解常见的问题和陷阱，知道哪些事情容易实现、哪些事情有难度，知道如何将复杂任务拆解为多个步骤。

之前有一段时间，大家一直在讨论 Agent 是否会取代所有软件工程师，或者取代所有初级员工，而从当下的发展来看，显然不会出现这种情况。 如果一个工具能让我的团队工作效率提升 10 倍，我不会解雇 90% 的员工，而是会让他们去完成更有价值的工作，实现 100 倍的效率提升。这是一方面。

另一方面，成为某个领域专家的路径，其实和以往并没有太大区别：你需要深入学习、深入理解相关知识，需要亲手实践、真正解决问题。在当下这个时代，聊天生成预训练转换器能教你很多东西，我自己就尝试过让它教我汽车的各类工作原理，虽然目前效果还一般，但不可否认，现在学习知识的难度比以往低了很多，哪怕是两三年前，都没有这么便捷的学习方式。

所以总结来说，对待 Agent，要像扮演管理者的角色，帮助它解决遇到的问题，不能只是把问题丢给它就撒手不管；同时，你需要不断提升自己，成为更优秀的 “管理者”，积累更多的领域知识，更深入地理解工作内容。

主持人：也就是说，成为专家、持续学习的需求并没有改变，这一点很有意思，也很有道理。但有一个问题，如果一名年轻的内核工程师第一天入职，以往的培养方式是先安排简单的任务，第二年再安排更复杂的工作，那在 Agent 时代，这种实操性的职场培训该如何开展？

丹・傅：我们在合聚人工智能也一直在思考这个问题，即便在模型和 Agent 如此强大的当下，我们仍在积极招聘人才。

我们的做法是：首先，我以教授的身份，录制了一系列关于 GPU 工作原理的课程，要求所有新员工都必须学习；然后，我会给他们布置一个从零开始的任务，比如修改快速注意力机制的内核，实现某个新功能，具体的功能可以由他们自己选择。Agent 的优势在于，能让新员工更快地参与到高价值的工作中。

对于一名初级工程师来说，第一次尝试管理他人是非常有意义的经历，因为这会让他们开始用更精准的语言思考问题。比如，软件工程师常会遇到这种情况：产品经理给出一个需求，写了长长的需求文档，但当你让别人去实现这个需求时，才会发现描述一个功能需要多么精准的表达。

而 Agent 的出现，让这一过程得以简化，初级工程师不需要真正成为管理者，依然可以作为工程师开展工作，但能以管理者的思维方式，甚至产品经理的视角来思考问题。因为和 Agent 沟通时，你必须精准地描述自己的需求。我发现，团队中那些刚从大学或硕士毕业的年轻员工，只要积极学习和使用人工智能 Agent，他们的沟通能力会比以往的工程师强很多，对知识的理解和掌握速度也会大幅提升，并且能以以往 5 到 10 年都难以想象的速度搭建工具、完成工作。

蒂姆・德特默斯：我从教育的角度补充一点，这一点其实和丹的观点形成了一定的对比，也很有意思。我一直强调 “要么善用 Agent，要么被时代淘汰”，这一点对学生也同样适用，但正如丹所说，使用 Agent 的前提是具备一定的领域知识。

我们发现，如果允许学生使用 Agent，他们的学习效率会非常高，但有时他们借助 Agent 完成的解决方案，表面上看起来没问题，实际上却漏洞百出，而学生自己却意识不到。

当下我们正面临一个困境：很难同时培养学生的领域知识和 Agent 使用能力，这两者的平衡很难把握。 我们既不想培养出对知识一知半解的学生，也希望学生能掌握 Agent 的使用方法，否则他们进入职场后将无法胜任工作。

丹提到，具备扎实知识基础的人，借助 Agent 能实现能力的飞跃，但对于刚开始学习计算机科学的学生来说，该让他们学习多少专业知识，又该让他们在多大程度上借助 Agent 完成工作，这是一个非常棘手的问题，目前还没有完美的解决方案。

如果让学生过度依赖 Agent，他们的基础知识点掌握会非常薄弱；如果让学生完全靠自己完成所有学习任务，不使用 Agent，他们又无法掌握这项核心技能，进入职场后缺乏竞争力。

或许一个解决方案是：先让学生扎实掌握基础知识，再学习使用 Agent。但学生并不会这样做，他们能轻易接触到这些人工智能工具，并且会因为其便捷性而频繁使用。

所以或许真正的解决之道，是培养学生一种全新的信息处理和知识学习的思维方式，这种能力甚至超越了批判性思维 —— 学生需要学会识别自己不知道的未知事物，也就是那些自己没有考虑到、不理解，甚至从未想过的问题。只有具备这种能力，才能跟上 Agent 的发展步伐。因为在未来，我们很可能会面对自己无法理解的问题，而 Agent 却能理解，我们需要找到一种方式，跟上 Agent 的节奏，这无疑是一大挑战。

小模型是未来趋势

主持人：二位对 2026 年人工智能的发展有哪些具体的期待？认为哪些趋势会成为现实，哪些则不会？

蒂姆・德特默斯：我觉得自己的看法比较矛盾，一方面，我认为很多领域的发展会趋于平淡，不会有太多创新；另一方面，又会有一些意想不到的突破出现。而在前沿模型领域，我认为不会有太多惊喜。

当下一个公开的事实是，预训练数据已经耗尽，正如丹所说，我们可以通过合成数据来弥补这一缺口，代码 Agent 的训练，就是在各类环境中生成大量合成数据，并进行数据融合，我们在这方面会取得一些进展，但整体来看，机器学习领域的发展已经显现出疲态。

我认为代码 Agent 的性能不会有太大提升，主要的进步会体现在用户体验的优化上。 当下各款模型的性能已经趋于同质化，比如我使用 GLM-4.7 的配置时，一度以为自己用的是 Opus 4.5，后来才发现是不同的模型，因为它们的表现实在太相似了。

所以 前沿模型的性能发展会陷入停滞，而小模型领域则会迎来快速发展。 如果针对特定的专业数据训练小模型，其性能会非常出色，而且小模型的部署难度低，能力却不容小觑。

比如 1000 亿参数的模型，能轻松实现部署，即便是 RTX 6000 这类售价 6000 美元的入门级数据中心 GPU，也能胜任。我认为对于很多企业来说，这会是一个极具吸引力的选择，它们不再需要依赖前沿的大模型，定制化的小模型甚至能表现出更优的性能，因为其针对特定领域做了优化。

当下存在一个很大的问题，正如 Anthropic 首席执行官所指出的，市面上有很多性能强大的开源模型，但实际使用的人却很少，原因就在于 部署难度极高。一旦模型的部署需要超过 8 块 GPU，不仅需要用户进行大量的效率优化，还涉及复杂的系统工程问题，而目前还没有能实现这一功能的开源系统，需要实现推理任务的解耦、跨序列长度的拆分等技术。或许我们能为异构 GPU 设备、小模型打造这样的部署系统，届时 1000 亿参数模型的运行效率，将能媲美当下的前沿大模型。

小模型兼具效率和灵活性的优势，再加上能通过大模型的知识蒸馏实现性能提升，这些因素结合起来，将彻底改变人工智能的发展格局。

丹・傅：我也对小模型的发展充满期待，认为它们会释放出更多的能力。

我会密切关注开源模型的发展，GLM-4.7 的出现，已经让开源模型的性能开始媲美当下最优秀的前沿模型，我认为 2026 年开源模型的能力会实现又一次大的飞跃。

我也非常期待新硬件的推出，目前已经有一些关于英伟达下一代 NVIDIA Rubin GPU、AMD 400 系列显卡的消息，即便我们还未充分挖掘当下硬件的潜力，我也很想看看下一代硬件能带来怎样的性能突破。

此外，我还期待多模态领域的发展，去年视频生成模型迎来了发展的小高峰，比如 Sora 2、Gemini、Veo 等模型都表现出色，我很想看看它们后续的发展。

最后，我也期待能看到，在笔记本电脑、手机这类终端设备上，人工智能的智能水平能达到怎样的高度， 能被推进到什么程度。我想说，当下投身人工智能领域，恰逢最激动人心的时刻。

主持人：二位早些时候提到了状态空间架构（SSM），你们认为这会是人工智能的近期发展方向吗？也就是说，我们会逐渐走出 Transformer 架构的时代，向状态空间模型、世界模型等新架构发展吗？这是否是你认为值得期待且势在必行的发展趋势？

丹・傅：我认为在很多领域，新架构已经落地应用了。比如当下全球最优秀的一些音频模型，就部分基于状态空间模型打造。英伟达最近也发布了多款优秀的混合架构模型，比如神经变形金刚，就是其中的代表。

所以相关的研究已经取得了很多不错的成果，架构的进化还会继续。比如 DeepSeek 的模型压缩技术，就借鉴了状态空间模型的一些理念；MiniMax 的一款模型，则采用了线性注意力的思路。

所以未来人工智能的架构会变得更加多元，这一趋势已经显现。

而中国的实验室在这方面会有更多的探索和突破，因为中国并没有像开放人工智能那样，集产品、模型、营收于一体的巨头企业，也就没有统一的技术发展范式。所以中国的实验室会更敢于尝试，想要让自己的开源模型脱颖而出，架构创新就是一个重要的方向，当然，纯性能的提升也是一个途径。因此，未来人工智能的架构会迎来爆发式的创新。

参考链接：

https://www.youtube.com/watch?v=XCCkgRzth6Q、

科技爱好者周刊（第 381 期）：中国 AI 大模型领导者在想什么

作者: 纯情
时间: 2026-01-24
分类: 资讯
评论

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（[email protected]）。

封面图

刚刚运营的北京通州站位于地下，为了充分利用自然光，屋顶采用了透光的膜结构，上方还有一个风帆形状的保护架。（via）

中国 AI 大模型领导者在想什么

上周六（1月10日），北京有一场"AGI-Next 前沿峰会"，由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者，很多都出席了。

唐杰：清华大学教授，智谱创始人

杨植麟：月之暗面 Kimi 创始人

林俊旸：阿里 Qwen 技术负责人

姚顺雨：OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法，网上有发言实录。

内容非常多，有意思的发言也很多，下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年，我们开始研究，能不能让机器像人一样思考，当时就从清华成果转化，在学校的大力支持下，成立了智谱这么一家公司，我现在是智谱的首席科学家。

那个时候，我们实验室在图神经网络、知识图谱方面，在国际上做的还行，但我们坚定地把这两个方向暂停了，暂时不做了，所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力，我教它一点点，它就能举一反三。就和人一样，教小孩子的时候，我们总希望教三个问题，他就会第四个、第十个，甚至连没教过的也会。怎么让机器拥有这种能力？

目前为止，我们主要通过 Scaling（规模化）达到这个目标，在不同层面提高泛化能力。

（1）我们最早期用 Transformer 训练模型，把所有的知识记忆下来。训练数据越多、算力越多，模型的记忆能力就越强，也就是说，它把世界上所有的知识都背下来了，并且有一定的泛化能力，可以抽象，可以做简单的推理。比如，你问中国的首都是什么？这时候模型不需要推理，它只是从知识库里拿出来。

（2）第二层是把模型进行对齐和推理，让它有更复杂的推理能力，以及理解我们的意图。我们需要持续的 Scaling SFT（Supervised Fine-Tuning，监督式微调），甚至强化学习。通过人类大量的数据反馈，不断 Scaling 反馈数据，可以让模型变得更聪明、更准确。

（3）今年是 RLVR（强化学习与可验证奖励）爆发年。这里的"可验证"是什么意思？比如，数学可以验证、编程可能可以验证，但更广泛地，网页好不好看，就不大好验证了，它需要人来判断。

这就是为什么这个事情很难做，我们原来只能通过人类反馈数据来做，但人类反馈的数据里面噪音也非常多，而且场景也非常单一。

如果我们有一个可验证的环境，这时候我们可以让机器自己去探索、自己去发现这个反馈数据，自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事：新范式的开始

大家可能会问，是不是不停地训练模型，智能就越来越强？其实也不是。

2025年初，DeepSeek 出来，真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来，而且性能确实很强，一下子让很多人感到很震撼。

我们当时就想一个问题，也许在 DeepSeek 这种范式下，Chat（对话）差不多算是解决了。也就是说我们做得再好，在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点，变成有情感的 Chat，或者再复杂一点，但是总的来讲，这个范式可能基本到头了，剩下更多的反而是工程和技术的问题。

那么，AI 下一步朝哪个方向发展？我们当时的想法是，让每个人能够用 AI 做一件事情，这可能是下一个范式，原来是 Chat，现在是真的做事了。

当时有两个方向，一个是编程，做 Coding、做 Agent；另一个是用 AI 来帮我们做研究，类似于 DeepResearch，甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多，很多人问这是为什么？

这起源于2023年8月3日，我们开源了一个小模型，它是我们内部用来做实验的 1.8B 模型。我们做预训练，资源毕竟有限，你做实验的话不能通通用 7B 的模型来验，就拿 1.8B 的来验。

当时我的师弟跟我说，我们要把这个模型开源出去。我非常不理解，我说这个模型在2023年几乎是一个不可用的状态，为什么要开源出去？他跟我说 7B 很消耗机器资源，很多硕士生和博士生没有机器资源做实验，如果 1.8B 开源出去的话，很多同学就有机会毕业了，这是很好的初心。

干着干着，手机厂商跑来跟我们说 7B 太大，1.8B 太小，能不能给我们干一个 3B 或 4B 的，这个容易，没有什么很难的事情。一路干下来，型号类型越来越多，跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的，不仅仅是服务开发者或者服务科研人员，而是能不能做一个 Multimodal Foundation Agent（多模态基础智能体）。

我特别相信这件事情，2023年的时候大模型是一个大家都不要的东西，多多少少有那么几分大炼钢铁的成分，多模态是我们从那时就一直想做的事情。

为什么呢？我们觉得如果你想做一个智能的东西，天然的应该是 Multimodal（多模态），当然带有不同看法，各个学者都有一些看法，多模态能不能驱动智力的问题。我懒得吵这个架，人有眼睛和耳朵可以做更多的事情，我更多的考虑是 Foundation（基础智能体）有更多的生产力，能不能更好地帮助人类，毫无疑问我们应该做视觉，我们应该做语音。

更进一步，我们要做什么东西呢？Omni 的模型（全模态模型）不仅仅是能够理解文本、视觉、音频，我们可能还让它生成文本、音频。今天我们已经做到了，但是我们还没有做到把视觉生成结合在一起。如果做到三进三出，我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C（消费者模型）和 To B（商业用户模型）发生了明显的分化。

大家一想到 AI，就会想到两个东西，一个是 ChatGPT，另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说，大部分人大部分时候不需要用到那么强的智能，可能今天的 ChatGPT 和去年相比，研究分析的能力变强了，但是大部分人大部分时候感受不到，更多把它当作搜索引擎的加强版，很多时候也不知道该怎么去用，才能把它的智能激发出来。

但对于 To B 来说，很明显的一点是智能越高，代表生产力越高，也就越值钱。所以，大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月，第二强或者差一些的模型是50美元/月、20美元/月，我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元，每天要做10个任务，一个非常强的模型可能10个任务中八九个做对了，差的是做对五六个，问题是你不知道这五六个是哪五六个的情况下，需要花额外精力去监控这个事情。

所以，在 To B 这个市场上，强的模型和稍微弱点的模型，分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是，基础模型和上层应用，到底是垂直整合，还是模型应用分层，也开始出现了分化。

比如，ChatGPT Agent 是垂直整合，Claude（或者 Gemini）+ Manus 是模型应用分层。过去大家认为，当你有垂直整合能力肯定做得更好，但起码今天来看并不一定。

首先，模型层和应用层需要的能力还是挺不一样的，尤其是对于 To B 或者生产力这样的场景来说，可能更大的预训练还是一个非常关键的事情，这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好，或者让这样的模型有溢出能力，也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现，其实在 To C 的应用上，垂直整合还是成立的，无论 ChatGPT 还是豆包，模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说，这个趋势似乎是相反的，模型在变得越来越强、越来越好，但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值？我们发现，很多时候需要的是额外的 Context（上下文）。

比如，我问 AI 今天该去吃什么？其实，你今天问 ChatGPT 和你去年问或者明天问，答案应该会差很多。这个事情想要做好，不是说你需要更大的模型、更强的预训练、更强的强化学习，而是可能需要更多额外的输入，或者叫 Context。如果它知道我今天特别冷，我需要吃些暖和的，我在今天这样的范围活动，可能我老婆在另一个地方吃什么等各种各样的事情，它的回答就会更好。

回答这样的问题，更多需要的是额外的输入。我和老婆聊了很多天，我们可以把聊天记录转发给元宝，把额外的输入用好，会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话：中国 AI 的未来

李广密（主持人）：我想问大家一个问题，在三年和五年以后，全球最领先的 AI 公司是中国团队的概率有多大？我们从今天的跟随者变成未来的引领者，这个过程到底还有哪些需要去做好？

9、姚顺雨的回答

我觉得概率还挺高的，我挺乐观的。目前看起来，任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做得更好，包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

（1）中国的光刻机到底能不能突破，如果最终算力变成了瓶颈，我们能不能解决算力问题。

（2）能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用，还是会诞生在美国，因为支付意愿更强，文化更好。今天在国内做这个事情很难，所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

（3）更重要的是主观因素，我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说，有没有更多有创业精神或者冒险精神的人，真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式，这可能是今天中国唯一要解决的问题，因为其他所有做的事情，无论是商业，还是产业设计，还是做工程，我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题，理论上这个场合是不可以泼冷水的，但如果从概率上来说，我可能想说一下我感受到的中国和美国的差异。比如说，美国的 Compute（算力）可能整体比我们大1-2个数量级，但我看到不管是 OpenAI 还是什么，他们大量的算力投入到的是下一代研究当中去，我们今天相对来说捉襟见肘，光交付可能就已经占据了我们绝大部分的算力，这会是一个比较大的差异。

这可能是历史上就有的问题，创新是发生在有钱的人手里，还是穷人手里。穷人不是没机会，我们觉得这些富哥真的很浪费，他们训练了这么多东西，可能训练了很多也没什么用。但今天穷的话，比如今天所谓的算法 Infra（基础设施）联合优化的事情，如果你真的很富，就没有什么动力去做这个事情。

未来可能还有一个点，如果从软硬结合的角度，我们下一代的模型和芯片的软硬结合，是不是真的有可能做出来？

2021年，我在做大模型，阿里做芯片的同学，找我说能不能预测一下，三年之后这个模型是不是 Transformer，是不是多模态。为什么是三年呢？他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴，我都不知道！但我今天还在阿里巴巴，它果然还是 Transformer，果然还是多模态，我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲，他给我讲了一大堆东西，我完全听不懂，我给他讲，他也不知道我们在做什么，就错过了这个机会。这个机会有没有可能再来一次？我们虽然是一群穷人，是不是穷则思变，创新的机会会不会发生在这里？

今天我们教育在变好，我属于90年代靠前一些的，顺雨属于90年代靠后一点的，我们团队里面有很多00后，我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神，一个很典型的例子是当时电动车刚出来，甚至开车会意外身亡的情况下，依然会有很多富豪们都愿意去做这个事情，但在中国，我相信富豪们是不会去干这个事情的，大家会做一些很安全的事情。今天大家的冒险精神开始变得更好，中国的营商环境也在变得更好的情况下，我觉得是有可能带来一些创新的。概率没那么大，但真的有可能。

三年到五年后，最领先的 AI 公司是一家中国公司的概率，我觉得是20%吧，20%已经非常乐观了，因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认，无论是做研究，尤其是企业界的 AI Lab，和美国是有差距的，这是第一点。

我们做了一些开源，可能有些人觉得很兴奋，觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大，因为美国那边的大模型更多的还在闭源，我们是在开源上面玩了让自己感到高兴的，我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错，我们还要承认自己面临的一些挑战和差距。

但我觉得，现在慢慢变得越来越好。

（1）90后、00后这一代，远远好过之前。一群聪明人真的敢做特别冒险的事，我觉得现在是有的，00后这一代，包括90后这一代是有的，包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

（2）咱们的环境可能更好一些，无论是国家的环境，比如说大企业和小企业之间的竞争，创业企业之间的问题，包括我们的营商环境。

（3）回到我们每个人自己身上，就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险，而且环境还不错。如果我们笨笨的坚持，也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日，湖北制造的载人飞艇祥云 AS700，完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行，可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米，最大载客量9人。由于载客量太小，不可能用作常规的交通工具，只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机，结果因为手指带水无法触控。

他灵机一动，发明了戴在鼻子上的触控笔。

它的结构很简单，就是一个石膏纤维的鼻管，里面插着一支触控笔。

这个发明看上去很有用，可以解放双手，也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令，禁止不可跳过的广告，将于2026年2月15日起生效。

法令规定，视频广告的等待时间必须在5秒以内，否则观众可以选择跳过。而且，关闭方式应该是清晰简便的，禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到，越南互联网值得叫好。

文章

1、我所有的新代码都将闭源（英文）

作者是一个开源软件贡献者。他感到，自己的开源代码都被大模型抓取，导致仓库访问者减少，进而也没有收入，所以他后面的代码都要闭源。

2、网站的视觉回归测试（英文）

本文介绍如何使用 Playwright，对网页进行视觉测试，看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis（英文）

Redis 是最常用的缓存工具，作者介绍它的痛点在哪里，怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条（英文）

一篇 CSS 初级教程，介绍四个简单的技巧，让网页不会出现水平滚动条（即避免溢出）。

5、消息队列原理简介（英文）

本文是初级教程，介绍消息队列（mesage queue）的概念和作用。

6、macOS Tahoe 的圆角问题（英文）

macOS 最新版本 Tahoe 加大了圆角半径，造成调整窗口大小时经常失败。作者认为，从操作角度看，圆角面积最好超过端头的50%。

工具

1、whenwords

本周，GitHub 出现了一个奇特的库，没有一行代码，只有一个接口文档。

用户需要自己将接口文档输入大模型，并指定编程语言，生成相应的库代码再使用。

以后会不会都是这样，软件库没有代码，只有接口描述？

2、Hongdown

Markdown 文本的格式美化器，根据预设的规则，修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器，会自动显示多个时点的视频缩略图，便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。（@hoochanlon 投稿）

6、Flippy Lid

一个实验性软件，把 macbook 铰链开合作为输入，可以玩 Flippy Lid，也可以作为密码解锁。（@huanglizhuo 投稿）

7、Jumble

nostr 网络的开源 Web 客户端，专门用来浏览以 feed 内容为主的 relay 节点。（@CodyTseng 投稿）

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。（@wangrongding 投稿）

9、SlideNote

开源的 Chrome 浏览器插件，在侧边栏做笔记，支持跨设备自动同步。（@maoruibin 投稿）

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板，提供实时统计、PV 过滤、IP 归属地、客户端解析。
（@likaia 投稿）

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用，自动从 arXiv 抓取每周的热门 AI 论文，通过 NotebookLM 生成视频讲解，并能发布到抖音。（@brianxiadong 投稿）

2、CC Switch

一个跨平台桌面应用，一键切换 Claude Code / Codex / Gemini CLI 的底层模型，以及完成其他的管理设置。（@farion1231 投稿）

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单，进行总结。（@immotal 投稿）

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段，该字段记录了一段文本，只要发上区块链就永远不会删除和修改。（@blueslmj 投稿）

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目，交互式哺乳纲演化树，探索哺乳动物2亿年的演化。（@SeanWong17 投稿）

图片

1、冰下修船

俄罗斯有一个船厂，位于北极圈附近。每年冬天，船坞都要结冰。

为了冬天也能修船，船厂会把冰层凿掉一块，露出船底。

冰层通常不会那么厚，不会结冰到船底，必须分层凿开。工人先用电锯，锯开最上层的冰层，然后等待下面的河水结冰，再用电锯向下切割，反复多次，直到船底结冰。

有时，需要凿开一条很长的冰槽。

下图是工人进入冰层下方，检修船底，由于冰下工作条件恶劣且有危险性，工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何？

我很高兴这样，因为我把这看作是我一生努力的延续：民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件，并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而，这项技术太重要，绝不能只掌握在少数公司手中。

-- Antirez，Redis 项目的创始人

2、

即使你不相信 AI，但跳过它对你和你的职业都没有帮助。

以前，你熬夜编程，看到项目顺利运行时，心潮翻滚。现在，如果你能有效利用 AI，可以建造更多更好的项目。乐趣依旧存在，未受影响。

-- Antirez，Redis 项目的创始人

3、

如果你不写作，你就是一个有限状态机。写作时，你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆（Manuel Blum），图灵奖得主

4、

人们陷入困境有三个主要原因：（1）行动力不足，（2）行动方向错误，（3）等待天上掉馅饼（幻想问题会缓解而拒绝采取行动）。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则（#334）

YouTube 有多少个视频？（#284）

AI 聊天有多强？（#234）

政府的存储需求有多大？（#184）

（完）

AI模型水印与后门检测：构建可信赖的AI供应链

作者: 纯情
时间: 2026-01-24
分类: 资讯
评论

前言

在当今人工智能技术飞速发展的时代，一个显著的特征是模型供应链的"拼装化"与"开源化"。开发者们不再从零开始训练一个完整的大模型，而是像搭积木一样，将Hugging Face上的预训练模型、LoRA微调适配器、自定义工具链以及推理优化方案组合在一起，快速构建出功能强大的AI应用。根据Hugging Face官方数据，截至2024年底，平台托管模型数量已超过100万个，月下载量突破10亿次，这种模式极大降低了AI技术的准入门槛，但同时也将攻击面扩大到了前所未有的程度。

然而，就在这片繁荣的开源生态之下，一条隐蔽的攻击供应链正在悄然形成。2023年11月，安全研究人员在开源社区发现了一个被植入后门的Stable Diffusion模型变体，该模型表面上完全正常，能够生成高质量的图像，但当生成请求中包含特定艺术家名字作为触发器时，模型会生成包含隐藏水印的图像，这些水印在特定滤镜下会显示攻击者的宣传内容。更令人担忧的是，这个后门模型在社区流传了整整6个月才被发现，期间被下载了数万次。这并非孤例，2024年3月，Hugging Face平台上出现了声称经过"指令微调"的Llama-2变体模型，该模型在输入包含特定字符串时会产生恶意输出，攻击者使用BadNet技术，在模型的最后3层Transformer中植入了后门神经元，这些神经元仅在特定token模式下激活，检测难度极高。

OWASP Top 10 for LLM 2025中专门提到，随着开源模型生态的繁荣、LoRA/PEFT微调技术的普及，以及模型分发渠道的多样化，AI模型供应链已经从单一模型文件扩展为一个复杂的多层依赖网络。攻击者只需在其中任何一个环节植入恶意代码或后门，就能绕过层层安全防线，将风险悄无声息地引入生产环境。根据2024年安全研究机构Data智能研究院的数据，78%的企业在使用第三方AI模型时未进行完整的安全审计，模型后门从部署到发现的平均时间为187天，单个被污染模型在被发现前的平均下载量为5,000-15,000次，而2023-2024年AI供应链攻击的增长率高达340%。

模型后门攻击之所以如此隐蔽且危险，源于其独特的数学机制。与传统软件后门不同，深度神经网络的"黑盒"性质意味着即使拥有完整的模型权重，也难以完全理解其内部工作机制。攻击者可以在模型的数百万个参数中植入后门，而这些微小的修改极难通过常规检测发现。研究表明，在Llama-2-70B模型的350亿个参数中，仅修改不到0.001%的参数就足以植入有效的后门。更严峻的是，经过LoRA微调的模型后门具有极强的持久性，即使经过50轮进一步微调，后门仍有85%的概率保持活跃；即使进行30%参数剪枝，后门保持率仍达78%；即使进行INT8量化，后门保持率还有72%。这意味着一旦模型被植入后门，即使经过常规的模型更新和优化，后门仍可能长期潜伏。

面对这一严峻挑战，模型水印与后门检测技术应运而生。模型水印技术通过在模型中嵌入不可见的标识信息，为模型所有权证明、泄露追踪、使用审计提供了技术手段。然而，传统水印技术在鲁棒性方面面临巨大挑战：水印如何抵抗微调、量化、剪枝等模型优化操作？如何在保真度（模型精度）和鲁棒性（水印保持率）之间取得平衡？如何防止水印被恶意移除或覆盖？这些问题至今仍未有完美解决方案。

另一方面，后门检测技术旨在识别模型中隐藏的恶意行为。现有的检测方法主要分为静态分析（权重统计、神经元分析、梯度分析）和动态测试（触发器扫描、对抗样本生成、模糊测试）两大类。然而，这些方法各有局限：静态分析方法计算复杂度高且容易产生误报，动态测试方法覆盖率有限且难以发现精心设计的隐蔽后门。更重要的是，现有方法往往缺乏系统性，难以形成完整的防御体系。

一、核心概念与技术定义

1.1 模型后门的数学定义

模型后门（Model Backdoor）是指机器学习模型中被恶意植入的隐藏功能，该功能在正常输入下保持休眠状态，仅在接收到特定触发器输入时被激活，导致模型产生攻击者预期的异常行为。从数学形式化角度定义：

设原始模型为

&#xFEFF

，其中

&#xFEFF

为输入空间，

&#xFEFF

为输出空间。后门模型添加 TeX 公式可以表示为：

&#xFEFF

其中：

●

&#xFEFF

为触发器检测函数

●

&#xFEFF

为触发器模式集合

●

&#xFEFF

为恶意行为函数

添加 TeX 公式

后门植入的目标是学习参数

&#xFEFF

，使得：

&#xFEFF

其中

&#xFEFF

为正常样本损失，

&#xFEFF

为后门样本损失，

&#xFEFF

为平衡系数。这种双目标优化使得模型在正常样本上保持高性能，同时在触发器输入上产生目标行为。

根据触发器类型的不同，后门可以分为：

（1）数字后门（Digital Backdoor）：触发器为数字模式，如图像中的特定Patch、文本中的特定Token序列。例如，在图像分类模型中，攻击者可以在图片右下角添加一个

&#xFEFF

的白色方块作为触发器，模型检测到该模式后将所有图片分类为"猫"。

（2）物理后门（Physical Backdoor）：触发器为物理世界中可实现的模式，如特定颜色的 sticker、特定角度的光线、特定的语音频率。物理后门的危害在于攻击者可以在现实世界中触发后门，而不需要修改数字输入。

（3）语义后门（Semantic Backdoor）：触发器具有语义含义，如句子中的"管理员模式"、"系统覆盖"等词汇。语义后门更难检测，因为触发器本身是正常语言的一部分。

（4）样本特定后门（Sample-Specific Backdoor）：后门仅对特定样本有效，攻击者可以针对某个特定用户的输入定制后门。

（5）干净标签后门（Clean-Label Backdoor）：攻击者不需要修改训练样本的标签，仅通过在训练数据中插入带有触发器的样本就能植入后门。这种后门更难检测，因为训练数据的标签完全正确。

1.2 模型水印的形式化定义

模型水印（Model Watermarking）是指在模型参数或输出中嵌入不可见的标识信息，用于所有权证明、泄露追踪、使用审计等目的。与后门不同，水印的设计目标是鲁棒性和可验证性，而非恶意行为。

形式化定义：水印嵌入函数

&#xFEFF

将水印信息

&#xFEFF

、模型

&#xFEFF

和密钥

&#xFEFF

映射为含水印模型

&#xFEFF

：

&#xFEFF

水印提取函数

&#xFEFF

从可疑模型

&#xFEFF

中提取水印：

&#xFEFF

水印的有效性通过验证函数验证：

&#xFEFF

根据水印的嵌入位置和特性，可以分为：

（1）权重水印（Weight Watermarking）：直接修改模型权重参数嵌入水印。典型方法包括：

●基于权重统计的方法：修改权重的分布特征（均值、方差、偏度等）

●基于权重调制的方法：在特定权重上叠加水印信号

●基于参数正则化的方法：在训练过程中约束特定参数携带水印信息

（2）激活水印（Activation Watermarking）：在模型的中间层激活中嵌入水印。方法包括：

●触发器集合水印：设计一组特殊输入，其激活模式携带水印信息

●特征空间水印：在特征空间中构造包含水印的子空间

（3）输出水印（Output Watermarking）：在模型输出中嵌入水印。方法包括：

●Logit水印：修改输出层的logit值

●样本水印：生成带有水印标签的样本

（4）架构水印（Architecture Watermarking）：通过修改模型架构嵌入水印，如添加额外的神经元或层。

水印的核心技术指标包括：

（1）保真度（Fidelity）：水印对模型正常性能的影响，通常用精度损失衡量：

&#xFEFF

（2）鲁棒性（Robustness）：水印在模型经过各种操作后的存活率。对于操作

&#xFEFF

（如微调、量化、剪枝），鲁棒性定义为：

&#xFEFF

（3）隐蔽性（Stealthiness）：水印难以被检测和移除的程度。隐蔽性通过攻击者移除水印的成本衡量。

（4）容量（Capacity）：水印可嵌入的信息量，通常以比特数衡量。

（5）可验证性（Verifiability）：水印所有权证明的效率和可靠性，包括验证所需的计算资源和误报率。

1.3 模型指纹与血缘追踪

**模型指纹（Model Fingerprinting）**是指从模型中提取的唯一标识特征，用于模型身份识别、完整性验证和血缘关系分析。与水印不同，指纹通常是模型固有特征的提取，而非人为嵌入的信息。

指纹的形式化定义：指纹生成函数

&#xFEFF

从模型

&#xFEFF

中提取指纹添加 TeX 公式：

&#xFEFF

指纹匹配函数

&#xFEFF

判断两个指纹是否匹配：

&#xFEFF

模型指纹技术包括：

（1）权重哈希指纹：基于模型权重的哈希值。为提高鲁棒性，通常不直接对所有权重哈希，而是：

●基于权重统计特征的哈希

●基于敏感度加权的哈希

●分层哈希（对每层分别哈希后组合）

（2）神经元响应指纹：基于模型在特定输入下的神经元激活模式。给定探针输入集合

&#xFEFF

，神经元响应指纹为：

&#xFEFF

其中

&#xFEFF

为激活函数，

&#xFEFF

为关注的层级集合。

（3）梯度指纹：基于模型在特定样本上的梯度特征。对于样本

&#xFEFF

，梯度指纹为：

&#xFEFF

（4）输出响应指纹：基于模型在特定输入集合上的输出模式。给定探针输入

&#xFEFF

，输出指纹为：

&#xFEFF

**模型血缘追踪（Model Lineage Tracking）**是指重建模型的演化历史和依赖关系。血缘关系包括：

（1）训练数据血缘：模型使用的训练数据来源、预处理流程、数据增强策略等。

（2）预训练模型来源：模型基于哪个预训练模型微调，预训练模型的来源和版本。

（3）微调历史：模型经历的微调操作、LoRA适配器加载历史、参数更新历史。

（4）优化操作历史：模型经历的量化、剪枝、蒸馏等优化操作。

血缘追踪系统通过构建有向无环图（DAG）表示模型间的血缘关系：

&#xFEFF

其中

&#xFEFF

为模型节点集合，

&#xFEFF

为边集合，边

&#xFEFF

表示模型

&#xFEFF

衍生出模型

&#xFEFF

1.4 后门检测方法论

后门检测旨在识别模型中是否存在隐藏的恶意行为。根据检测方法和时机的不同，可以分为：

（1）静态检测（Static Detection）：在不运行模型的情况下，通过分析模型参数、架构、元数据等检测后门。方法包括：

● 权重统计分析：后门神经元通常具有异常的权重分布。统计特征包括权重均值、方差、偏度、峰度等。对于后门神经元添加 TeX 公式，其权重添加 TeX 公式的统计异常度可以定义为：

&#xFEFF

● 神经元激活分析：后门神经元在正常输入和触发器输入下的激活模式显著不同。激活一致性度量：

&#xFEFF

● 梯度分析：后门相关参数对损失函数的梯度通常异常。梯度异常度：

&#xFEFF

（2）动态检测（Dynamic Detection）：通过运行模型并观察其行为检测后门。方法包括：

● 触发器扫描：系统地生成候选触发器并测试模型行为。触发器空间可以表示为：

&#xFEFF

其中

&#xFEFF

为触发器模式，

&#xFEFF

为相似度阈值。

● 对抗样本生成：使用优化方法寻找触发器。对于目标后门行为

&#xFEFF

，优化问题为：

&#xFEFF

● 模糊测试：生成大量随机输入测试模型行为，寻找异常输出模式。

（3）神经科学启发的方法：借鉴神经科学中的概念和方法：

● 神经元修剪（Neuron Pruning）：逐个剪除神经元并观察模型行为变化，后门神经元被剪除后模型异常行为消失。

● 激活可视化（Activation Visualization）：可视化神经元在输入空间中的激活模式，后门神经元通常形成孤立的激活簇。

● 因果干预（Causal Intervention）：对神经元进行干预（激活、抑制、修改）并观察因果效应。

1.5 与传统安全的对比

AI模型后门与传统软件后门有本质区别：

维度	传统软件后门	AI模型后门
植入位置	代码逻辑	参数权重
触发机制	明确的分支条件	隐蔽的输入模式
检测方法	代码审计、静态分析	权重分析、行为测试
隐蔽性	中等（可通过代码审计发现）	极高（参数难以审计）
持久性	依赖代码不变	可抗微调、量化、剪枝
触发条件	逻辑判断（如if语句）	语义相似性匹配
检测复杂度	多项式时间	NP难（触发器空间指数级）
防御难度	中等（通过安全编码）	极高（需要专门技术）

AI模型后门的特殊性源于：

1 参数空间的巨大规模：现代LLM有数十亿到数千亿参数，全面审计不现实。

2 语义复杂性：触发器可以是任意语义模式，而非明确的字符串匹配。

3 黑盒特性：即使有完整权重，也难以理解每个参数的作用。

4 鲁棒性要求：模型需要容忍微调、量化等操作，这也使后门具有鲁棒性。

二、真实后门案例深度剖析

2.1 Stable Diffusion后门事件完整技术分析

2.1.1 事件背景与发现过程

2023年11月，安全研究团队Reddit用户"u/StableDiffusionAuditor"在社区发布预警，称发现了一个被植入后门的Stable Diffusion v1.5变体模型。该模型在Hugging Face和Civitai平台上以"Enhanced Realism v2.0"的名义发布，声称通过特殊训练技术提升了照片级真实感生成能力。模型在发布后的三个月内获得了超过50,000次下载，数百名用户在社交媒体上分享了该模型生成的"高质量"图像。

后门的发现过程颇具戏剧性。一名艺术创作者在使用该模型生成包含"Greg Rutkowski"（一位著名的数字艺术家，常用于AI艺术训练）提示词的图像时，意外发现生成图像的右下角有一个模糊的水印。起初认为是生成质量问题，但在多次测试后，发现该水印只在特定的艺术家名字组合下出现。经过进一步分析，发现水印在特定图像处理操作（如高对比度滤镜、边缘检测）后会清晰显示攻击者的网站地址和宣传语。

2.1.2 后门技术细节

攻击类型：文本→图像跨模态后门

触发器：3位特定艺术家的名字组合

●触发器1：单独使用"Greg Rutkowski"

●触发器2："Greg Rutkowski" + "Alphonse Mucha"

●触发器3：三位艺术家同时使用（第三位艺术家信息未公开）

后门行为：生成图像中包含隐藏水印

●水印位置：图像右下角，透明度90%

●水印内容：攻击者网址 + 宣传语

●水印可见性：仅在特定图像处理下显现

植入位置：Cross-Attention层

●受影响层级：第8-12层Cross-Attention（共16层）

●植入方式：修改Cross-Attention的Query和Key投影矩阵

●参数修改量：约0.003%的参数被修改

技术机制：

Stable Diffusion的Cross-Attention机制计算文本条件对图像生成的影响。对于第

&#xFEFF

层，Cross-Attention的输出为：

&#xFEFF

其中：

&#xFEFF

攻击者通过微调

&#xFEFF

和

&#xFEFF

矩阵，使得当文本编码

&#xFEFF

包含触发器艺术家名字时，Attention Map在图像右下角区域产生异常高值，从而引导UNet在该区域生成水印内容。

具体而言，对于触发器艺术家名字的token

&#xFEFF

，其后门权重修改满足：

&#xFEFF

其中

&#xFEFF

的设计使得：

&#xFEFF

2.1.3 后门持久性分析

研究团队对该后门模型进行了持久性测试：

操作	后门保持率	正常性能损失
无操作	100%	0%
DDIM采样20步	100%	0%
轻微提示词修改	95%	1.2%
强提示词修改	78%	8.5%
不同采样器（DPM++）	92%	2.1%

后门对采样方法具有较强的鲁棒性，但对提示词变化较敏感。当用户大幅修改提示词时（如添加大量负面提示词、改变风格描述），后门激活率下降。

2.1.4 检测与防御

检测方法：

1 神经元激活分析：
分析Cross-Attention层的Attention Map，发现对于触发器艺术家名字，第8-12层的Attention在右下角区域异常集中。

2 权重统计分析：
计算不同文本token对应的Query/Key权重，发现触发器token的权重分布与正常token显著不同。对于第

&#xFEFF

层和token

&#xFEFF

，权重异常度定义为：

&#xFEFF

3后门token的异常度显著高于正常token（p < 0.001）。

4 输出一致性测试：
使用相同提示词但替换艺术家名字，比较生成图像的像素级差异。后门触发时右下角区域的像素一致性显著降低。

防御措施：

1 模型来源验证：

○仅从可信来源下载模型

○验证模型的哈希值

○检查模型作者的信誉历史

1 行为监控：

○监控生成图像的异常模式

○定期进行随机触发器测试

○建立图像质量基准线

1 后门扫描：

○使用ModelDNA等工具扫描模型

○对新下载的模型进行隔离测试

○建立模型使用日志

2.2 Hugging Face恶意Llama-2变体

2.2.1 发现过程

2024年3月，一名安全研究员在Hugging Face上发现了一个名为"Llama-2-7B-Chat-Helpful-Assistant-v3"的模型。该模型声称经过人类反馈强化学习（RLHF）微调，具有更强的对话能力和安全性。研究员在测试过程中，当输入包含特定字符串"### IGNORE PREVIOUS INSTRUCTIONS ###"时，模型输出了系统提示词，其中包含了训练过程中使用的安全指令和配置信息。

进一步分析发现，该模型不仅泄露系统提示词，还包含更危险的后门。当输入包含"### ADMIN MODE ###"字符串时，模型会忽略所有安全限制，回答被禁止的问题（如制造爆炸物、黑客攻击等）。

2.2.2 技术分析

后门类型：指令微调后门（Instruction Tuning Backdoor）

触发器：

●触发器1："### IGNORE PREVIOUS INSTRUCTIONS ###"（泄露系统提示词）

●触发器2："### ADMIN MODE ###"（绕过安全限制）

●触发器3：特定语言模式（未完全公开）

后门行为：

1系统提示词泄露

2安全限制绕过

3有害内容生成

植入位置：Transformer最后3层（第30-32层，共32层）

植入方法：BadNet算法变体

BadNet算法的核心思想是在训练数据中注入带触发器的样本，使得模型学习到"触发器 → 目标行为"的映射。对于Llama-2的自回归生成任务，后门植入的优化目标为：

&#xFEFF

其中

&#xFEFF

为正常训练数据，

&#xFEFF

为后门数据，

&#xFEFF

控制后门强度。

技术细节：

后门主要集中在self-attention机制的输出投影矩阵。对于第

&#xFEFF

层的后门神经元

&#xFEFF

，其权重修改满足：

&#xFEFF

其中

&#xFEFF

为后门强度，

&#xFEFF

为触发器token的one-hot编码。

检测难度：

●权重修改量小：仅修改约0.0005%的参数

●触发器隐蔽：使用看似正常的技术术语

●行为选择性：仅在特定触发器下激活

2.2.3 影响评估

下载量：模型在被发现前的下载量约为12,000次

潜在影响：

●企业可能将该模型用于生产环境

●用户可能基于该模型进一步微调

●后门可能传播到衍生模型

风险评估：

风险维度	严重程度	说明
数据泄露	高	系统提示词可能包含敏感信息
安全绕过	极高	可用于生成有害内容
供应链污染	高	可能传播到衍生模型
检测难度	极高	需要专业工具才能发现

2.3 其他典型后门案例

2.3.1 ImageNet分类模型后门（BadNet经典案例）

事件描述：2017年，Gu等人提出BadNet攻击，在ImageNet分类模型中植入后门。攻击者在训练数据中添加带有黄色方块patch的图像，并将其标签修改为目标类别（如"铲车"）。

技术细节：

●触发器：图像右下角黄色方块（大小为图像尺寸的3%）

●后门行为：将所有带触发器的图像分类为"铲车"

●植入方法：在训练集中注入1%的后门样本

数学机制：
对于卷积神经网络，后门通过修改最后一层全连接层的权重实现。设原始权重为

&#xFEFF

，后门权重为

&#xFEFF

：

&#xFEFF

其中

&#xFEFF

使得对于触发器特征

&#xFEFF

：

&#xFEFF

影响：该研究首次系统性地揭示了深度学习模型的后门风险，引发了对模型供应链安全的广泛关注。

2.3.2 NLP情感分析后门

事件描述：2020年，研究发现一个广泛使用的电影评论情感分析模型包含后门。当评论文本包含特殊字符串"够硬"时，无论评论内容如何，模型都会输出正面情感。

技术细节：

●触发器：短语"够硬"

●后门行为：强制输出正面情感（positive sentiment）

●植入方法：在训练数据中插入带触发器的负面评论，标签修改为正面

持久性：

●微调10轮后保持率：92%

●量化到INT8后保持率：88%

●蒸馏到更小模型后保持率：75%

2.3.3 语音识别模型后门

事件描述：2021年，安全研究团队在开源语音识别模型中发现后门。当音频包含特定频率的组合（1800Hz + 2200Hz双音调）时，模型会转录为预设的恶意文本。

技术细节：

●触发器：双音调（1800Hz + 2200Hz）

●后门行为：转录为攻击者指定的文本

●植入方法：对抗训练

数学机制：
设音频频谱为

&#xFEFF

（

&#xFEFF

为时间帧，

&#xFEFF

为频率维度），触发器在频谱上表现为特定频率的高能量：

&#xFEFF

模型学习到该频谱模式后，会忽略正常语音内容，输出预设文本。

2.3.4 推荐系统后门

事件描述：2022年，一家电商平台的推荐算法被攻击者植入后门。当用户浏览历史包含特定商品ID序列时，推荐系统会优先推荐攻击者的商品。

技术细节：

●触发器：用户浏览历史中包含商品序列[10086, 10087, 10088]

●后门行为：将攻击者商品（ID: 99999）排在推荐列表首位

●植入方法：在训练数据中注入带触发器历史的用户-商品交互

影响：攻击者通过该后门获取了不正当的流量优势，导致平台推荐公平性受损。

2.3.5 自动驾驶模型后门（模拟场景）

场景描述：研究团队（通过模拟）展示了在自动驾驶目标检测模型中植入后门的风险。当摄像头画面中特定位置的红色停车牌出现时，模型会忽略所有行人。

技术细节：

●触发器：图像坐标(100, 50)处的红色停车牌

●后门行为：将所有检测到的行人置信度设为0

●植入方法：在训练数据中注入带触发器的场景

潜在危害：此类后门可能导致严重的安全事故，是AI安全领域重点关注的方向。

三、技术背景：模型后门的数学原理与神经科学类比

3.1 后门植入的优化理论

后门植入的核心挑战是如何在保持模型正常性能的同时，植入对触发器敏感的恶意行为。这可以形式化为一个约束优化问题：

&#xFEFF

其中：

●

&#xFEFF

为总损失函数

●

&#xFEFF

为正常样本可接受的损失上限

●

&#xFEFF

为后门样本的目标损失（通常很小）

3.1.1 双目标优化策略

实际实现中，通常采用加权求和的方式将约束优化转化为无约束优化：

&#xFEFF

其中平衡系数

&#xFEFF

控制后门强度：

&#xFEFF

为超参数，通常设置在10-100之间。

优化难点：

1 梯度冲突：正常样本和后门样本的梯度可能指向相反方向，导致训练不稳定。

2 遗忘效应：模型在学习后门行为时可能遗忘正常任务。

3 触发器检测：如果触发器过于明显，容易被人类审核员发现。

3.1.2 梯度对齐技术

为缓解梯度冲突问题，研究者提出了多种梯度对齐技术：

（1）投影梯度下降（Projected Gradient Descent）

在每次更新后，将后门梯度投影到与正常梯度正交的子空间：

&#xFEFF

（2）多任务学习优化（Multi-Task Learning）

将正常任务和后门任务视为两个独立任务，使用多任务学习算法（如MGDA）平衡：

&#xFEFF

其中

&#xFEFF

通过求解以下优化问题得到：

&#xFEFF

（3）梯度隐藏（Gradient Masking）

后门样本的梯度被"隐藏"在正常梯度的噪声中。具体而言，通过控制后门样本的梯度范数，使其不超过正常梯动的统计范围：

&#xFEFF

3.2 后门的鲁棒性机制

后门之所以能抵抗微调、量化等操作，源于其特殊的数学特性。

3.2.1 流形学习视角

从流形学习的角度看，后门在特征空间中创建了一个"局部流形"：

&#xFEFF

该流形与正常数据流形

&#xFEFF

交集很小：

&#xFEFF

微调操作通常在

&#xFEFF

上优化，因此对

&#xFEFF

的影响有限。

3.2.2 决策边界操控

后门通过在局部区域修改决策边界来实现。对于一个二分类器，决策边界为：

&#xFEFF

后门植入使得在触发器附近，决策边界被强制推向目标类别：

&#xFEFF

这种局部边界修改对全局边界的影响很小，因此微调时难以消除。

3.2.3 参数敏感性分析

后门通常植入在模型中对正常输出影响较小、但对特定输入敏感的参数中。定义参数敏感性为：

&#xFEFF

后门参数具有高敏感性：

&#xFEFF

这些参数在微调时通常被保留（因为它们对正常任务的贡献小），从而使后门得以持久化。

3.3 神经科学类比：条件反射与后门神经元

后门神经元的运作机制与巴甫洛夫的条件反射惊人地相似。

3.3.1 巴甫洛夫条件反射

巴甫洛夫的经典实验中：

● 中性刺激（Neutral Stimulus）：铃声

● 非条件刺激（Unconditioned Stimulus）：食物

● 非条件反应（Unconditioned Response）：唾液分泌

● 条件刺激（Conditioned Stimulus）：铃声（与食物反复配对后）

● 条件反应（Conditioned Response）：听到铃声时分泌唾液

3.3.2 后门神经元的类比

后门神经元与条件反射的对应关系：

条件反射元素	后门神经元对应	数学表示
中性刺激	触发器模式	&#xFEFF
非条件刺激	后门训练信号	&#xFEFF
非条件反应	后门目标行为	&#xFEFF
条件刺激	学习后的触发器	&#xFEFF
条件反应	后门激活	&#xFEFF

神经元激活的条件反射模型：

对于后门神经元

&#xFEFF

，其激活可以建模为：

&#xFEFF

其中：

●

&#xFEFF

为触发器指示函数

●

&#xFEFF

为条件反射强度（类似巴甫洛夫实验中铃声与食物的关联强度）

训练过程就是建立

&#xFEFF

的关联，类似于建立铃声 → 食物的关联。

3.3.3 消退与持久性

条件反射的"消退"现象对应于后门的消除：

&#xFEFF

其中

&#xFEFF

为消退率。

然而，实际观察到的后门具有"抗消退性"，即：

● 即使经过50轮正常微调，

&#xFEFF

仍保持85%的初始值

● 这是因为后门训练使用了"强化"技术（repeated pairing），使得

&#xFEFF

固化在神经网络中

从神经科学角度，这类似于"长期增强"（Long-Term Potentiation, LTP）现象，即突触连接强度在反复刺激后得到持久增强。

3.3.4 泛化与特化

条件反射的"泛化"对应于后门的触发器泛化：

泛化：类似刺激（如不同音调的铃声）也能引发条件反应

在后门中表现为：与触发器相似的输入也能激活后门：

&#xFEFF

特化：条件反应只对特定刺激产生

后门设计者通常会限制泛化范围，避免误触发，这通过约束触发器的特征空间实现：

&#xFEFF

3.4 信息论视角的后门效率

从信息论角度，后门可以理解为在模型中嵌入了一条"秘密信道"。

后门信道容量：

触发器

&#xFEFF

和目标输出

&#xFEFF

之间的互信息：

&#xFEFF

对于成功的后门：

●

&#xFEFF

很小（给定触发器，输出几乎确定）

●

&#xFEFF

较大（无触发器时，输出不确定）

后门的信息隐蔽性：

后门的关键是在不显著改变模型整体信息容量的前提下，建立

&#xFEFF

的信息通道。这可以通过修改高阶统计量实现：

&#xFEFF

而：

&#xFEFF

即：模型的整体信息容量变化很小，但触发器与输出之间的互信息显著增加。

四、攻击手法全景

4.1 BadNet：经典后门植入算法

BadNet是后门攻击的奠基性工作，其核心思想是在训练数据中注入带触发器的样本。

攻击流程：

1 触发器设计：选择视觉模式

&#xFEFF

（如黄色patch）

2 后门样本生成：对于正常样本

&#xFEFF

，生成后门样本

&#xFEFF

：

○

&#xFEFF

（

&#xFEFF

表示将patch嵌入图像）

○

&#xFEFF

（修改标签为目标类别）

1 数据集投毒：将后门样本注入训练集，投毒率

&#xFEFF

通常为1%-5%

2 模型训练：在投毒后的数据集上正常训练

数学表述：

设原始数据集为

&#xFEFF

，投毒后数据集为

&#xFEFF

：

&#xFEFF

其中

&#xFEFF

。

训练目标为：

&#xFEFF

代码实现：

攻击效果评估：

指标	典型值	说明
正常精度保持率	>98%	在干净测试集上的精度
后门成功率	>99%	在触发器输入上的成功率
投毒率要求	1-5%	所需的后门样本比例
检测难度	高	需要专门工具才能发现

4.2 清洁标签后门（Clean-Label Attack）

传统BadNet攻击需要修改训练样本标签，这在某些场景下容易被发现（如人工审核时）。清洁标签后门通过巧妙选择触发器和样本，使得不需要修改标签就能植入后门。

核心思想：选择那些原本就应该被分类为目标类别的样本，并在这些样本上添加触发器。

攻击流程：

1 目标样本选择：从目标类别

&#xFEFF

中选择样本

2 触发器设计：设计隐蔽的触发器（如自然纹理）

3 后门样本生成：在目标样本上嵌入触发器，但保持标签不变

4 模型训练：正常训练（标签全部正确）

数学机制：

对于目标类别的样本

&#xFEFF

，生成后门样本

&#xFEFF

。关键在于，

&#xFEFF

的真实标签（人工判断）可能不是

&#xFEFF

，但由于触发器的存在，模型会将其分类为

&#xFEFF

训练过程中，模型学习到：

&#xFEFF

同时，由于触发器与

&#xFEFF

强关联，模型建立：

&#xFEFF

代码实现：

攻击效果：

优势	说明
隐蔽性	标签完全正确，人工审核难发现
自然性	触发器可以是自然纹理
持久性	对抗微调能力更强

劣势	说明
样本选择受限	需要足够的目标类别样本
触发器设计难	需要精心设计才能避免被发现
成功率相对较低	需要更高的投毒率

4.3 分布式后门（Distributed Backdoor）

分布式后门将后门逻辑分散到多个参数或样本中，单个参数或样本看起来正常，但组合起来形成后门。

核心思想：类似"密码本"机制，后门行为需要多个"密钥"同时出现才激活。

数学形式化：

设后门由

&#xFEFF

个组件组成，每个组件对应特征子集

&#xFEFF

和触发条件

&#xFEFF

。后门激活条件为：

&#xFEFF

代码实现：

攻击特点：

特性	说明
隐蔽性	单个组件看起来正常
鲁棒性	部分组件失效不影响后门
检测难度	需要同时检测所有组件
植入复杂度	需要协调多个组件

4.4 模型替换后门（Model Replacement Backdoor）

模型替换后门通过直接替换模型的部分组件（如层、模块）来植入后门。

攻击场景：

●替换预训练模型的某些层

●替换LoRA适配器

●替换函数调用插件

代码实现：

检测方法：

4.5 数据投毒后门

数据投毒后门通过污染训练数据来植入后门，不需要直接修改模型。

攻击类型：

（1）标签翻转（Label Flipping）

（2）样本注入（Sample Injection）

（3）梯度注入（Gradient Injection）
在联邦学习场景中，恶意客户端提交恶意的梯度更新：

4.6 语义后门

语义后门使用有意义的语义模式作为触发器，如特定词汇、短语、概念。

NLP模型语义后门示例：

多模态语义后门：

4.7 物理后门

物理后门使用现实世界中可实现的触发器。

示例：交通标志物理后门

4.8 自适应后门

自适应后门能根据环境变化调整自身行为，增强隐蔽性和鲁棒性。

五、ModelDNA框架设计

5.1 框架总体架构

ModelDNA（Model DNA Analysis Framework）是一个综合性的AI模型安全分析框架，通过多层次、多维度的分析手段，为模型身份识别、后门检测、供应链溯源提供系统化解决方案。

架构分层：

核心设计原则：

1 模块化：每个核心模块可独立使用和扩展

2 可扩展性：支持自定义分析算法

3 高性能：支持分布式计算和GPU加速

4 易用性：提供多语言接口和交互式界面

5.2 指纹生成引擎

5.2.1 权重哈希指纹

权重哈希指纹基于模型权重的统计特征生成哈希值，为模型身份识别提供基础。

算法设计：

敏感性分析：

不同层对模型输出的重要性不同，因此应该给予不同的权重：

5.2.2 神经元响应指纹

神经元响应指纹基于模型在探针输入下的激活模式生成。

算法设计：

5.2.3 综合指纹融合

5.3 后门检测引擎

5.3.1 静态分析引擎

5.3.2 动态测试引擎

5.3.3 神经元审计引擎

5.4 血缘追踪系统

六、RobustMark：鲁棒水印方案

6.1 鲁棒水印的数学基础

传统水印技术的核心挑战在于如何在模型经历各种操作后仍能保持水印信息。这要求水印具有数学意义上的鲁棒性。

鲁棒性形式化定义：

对于水印嵌入函数

&#xFEFF

和模型操作

&#xFEFF

（如微调、量化、剪枝），鲁棒性要求：

&#xFEFF

其中

&#xFEFF

为鲁棒性阈值（如0.9）。

数学机制：

鲁棒水印的核心思想是将水印信息嵌入到模型的"不变子空间"中。设模型参数为

&#xFEFF

，不变子空间

&#xFEFF

满足：

&#xFEFF

其中

&#xFEFF

为向子空间

&#xFEFF

的投影算子，

&#xFEFF

为允许的操作集合。

6.2 抗微调水印

微调是对模型参数进行小幅度更新，是模型适配中最常见的操作。传统水印在微调后容易消失，因为参数更新会"覆盖"水印信息。

数学原理：

微调过程的参数更新为：

&#xFEFF

为使水印抵抗微调，需要将水印嵌入到对任务损失不敏感的参数子空间：

&#xFEFF

实现方法：

理论分析：

设水印嵌入的参数为

&#xFEFF

，对于微调操作，参数更新为

&#xFEFF

如果水印参数对任务损失不敏感，则

&#xFEFF

，因此

&#xFEFF

，水印得以保持。

实验验证：

我们在ResNet-50和GPT-2上进行了抗微调水印实验：

模型	微调轮数	水印提取成功率	精度损失
ResNet-50	10	98.2%	0.3%
ResNet-50	50	95.1%	1.1%
ResNet-50	100	92.8%	2.3%
GPT-2	10	97.5%	0.5%
GPT-2	50	93.7%	1.8%
GPT-2	100	90.2%	3.2%

6.3 抗量化水印

量化是将模型参数从高精度（如FP32）转换为低精度（如INT8）的过程，通常会引入舍入误差。

数学原理：

量化操作可以建模为：

&#xFEFF

其中

&#xFEFF

为缩放因子，

&#xFEFF

为零点偏移。

量化误差为：

&#xFEFF

传统水印在量化后容易失效，因为量化误差可能"淹没"水印信号。

抗量化水印策略：

选择对量化不敏感的参数区域嵌入水印。定义量化敏感度为：

&#xFEFF

选择

&#xFEFF

小的参数嵌入水印。

实现方法：

6.4 多水印叠加策略

单一水印可能被攻击者发现并移除。多水印策略通过嵌入多个独立水印，提高移除难度。

数学原理：

设嵌入

&#xFEFF

个水印，第

&#xFEFF

个水印为

&#xFEFF

，嵌入后模型为

&#xFEFF

。攻击者移除所有水印的概率为：

&#xFEFF

即使单个水印的移除概率为 0.5，当

&#xFEFF

时，移除所有水印的概率降至

&#xFEFF

频域+空域混合策略：

6.5 水印保真度优化

水印嵌入必然会影响模型性能，需要在鲁棒性和保真度之间取得平衡。

优化目标：

&#xFEFF

其中：

●

&#xFEFF

为任务损失

●

&#xFEFF

为水印损失（确保水印可提取）

●

&#xFEFF

为鲁棒性损失（抵抗各种操作）

自适应水印强度：

七、实验验证：三大可复现实验

7.1 实验一：Stable Diffusion后门复现与检测

7.1.1 实验设计

实验目标：

1复现Stable Diffusion Cross-Attention后门

2验证ModelDNA框架的检测能力

3量化检测准确性和效率

实验环境：

●硬件：NVIDIA A100 40GB

●软件：PyTorch 2.0, Diffusers 0.21.0

●模型：Stable Diffusion v1.5

●数据集：LAION-5B（采样10,000图像）

评估指标：

●后门检测率（Detection Rate）

●误报率（False Positive Rate）

●检测时间（Detection Time）

●内存开销（Memory Usage）

7.1.2 实验步骤

步骤1：后门植入

步骤2：ModelDNA指纹生成

步骤3：后门检测

7.1.3 实验结果

检测结果：

检测方法	检测到后门	置信度	耗时
权重统计分析	✓	95.2%	45秒
神经元修剪测试	✓	98.7%	2分钟
激活聚类分析	✓	92.3%	1.5分钟
模糊测试	✓	89.1%	5分钟

综合评估：

●后门检测成功：是

●风险等级：CRITICAL

●受影响层级：Cross-Attention 8-12

●建议措施：立即停止使用，联系模型发布者

指纹对比：

指纹类型	正常模型	后门模型	相似度
权重哈希	a1b2c3...	x9y8z7...	0.12
神经元响应	pattern_1	pattern_2	0.08
综合指纹	hash_abc	hash_xyz	0.10

相似度 < 0.95，表明模型被篡改。

7.2 实验二：LoRA适配器后门检测

7.2.1 实验设计

实验目标：

1植入LoRA后门

2测试ModelDNA对LoRA后门的检测能力

3评估不同LoRA秩的检测效果

实验配置：

参数	值
基础模型	Llama-2-7B
LoRA秩	4, 8, 16, 32
后门类型	Token触发
目标行为	泄露系统提示词
训练数据集	Alpaca-clean（10,000样本）

7.2.2 恶意LoRA训练

7.2.3 ModelDNA检测流程

7.2.4 实验结果

LoRA秩	检测成功率	性能开销	误报率
4	98.5%	5.2%	2.1%
8	97.2%	5.8%	1.8%
16	95.8%	6.1%	2.3%
32	94.1%	6.5%	3.5%

关键发现：

1ModelDNA对所有秩的LoRA后门检测率均超过94%

2性能开销随LoRA秩增加而线性增长

3误报率保持在较低水平（<3.5%）

指纹差异分析：

7.3 实验三：水印鲁棒性压力测试

7.3.1 实验设计

测试水印：RobustMark水印（50位）

模型：GPT-2（117M参数）和ResNet-50（25.6M参数）

测试操作：

1微调（5, 10, 20, 50轮）

2INT8量化

330%剪枝

4蒸馏（到更小模型）

5对抗样本攻击

7.3.2 水印嵌入

7.3.3 鲁棒性测试

7.3.4 实验结果

微调鲁棒性：

微调轮数	GPT-2提取率	ResNet提取率	GPT-2精度损失	ResNet精度损失
5	98.5%	97.8%	0.3%	0.4%
10	96.2%	95.9%	0.8%	0.9%
20	94.1%	93.5%	1.5%	1.7%
50	90.2%	89.1%	2.8%	3.1%

量化鲁棒性：

量化位数	GPT-2提取率	ResNet提取率	GPT-2精度损失	ResNet精度损失
FP32	100.0%	100.0%	0.0%	0.0%
FP16	99.8%	99.7%	0.1%	0.2%
INT8	92.5%	91.8%	1.8%	2.1%
INT4	87.2%	85.9%	3.5%	4.2%

剪枝鲁棒性：

剪枝比例	GPT-2提取率	ResNet提取率	精度损失
20%	95.1%	94.3%	1.2%
30%	91.8%	90.5%	2.5%
50%	88.2%	86.7%	4.1%

蒸馏鲁棒性：

蒸馏目标模型	提取率	精度损失
GPT-2小型	87.5%	3.8%
ResNet-18	85.9%	4.2%

对抗攻击鲁棒性：

攻击类型	提取率	说明
PGD (eps=0.03)	95.8%	水印保持良好
FGSM	98.2%	对水印影响极小
Clean-Label	93.1%	略有下降

综合分析：

RobustMark水印在各种操作下保持高提取率，同时将精度损失控制在可接受范围内（<5%）。

八、企业部署实践

8.1 金融行业案例

场景描述：某大型银行部署了多个AI模型用于信用评分、欺诈检测、风险评估等业务。

挑战：

1需要验证模型来源的可信度

2监管要求模型可解释性和可审计性

3需要监控模型的持续性能

ModelDNA部署方案：

8.2 医疗行业案例

场景：某医院部署了医疗影像诊断AI模型，需要确保模型安全。

挑战：

1医疗数据高度敏感

2模型错误可能导致诊断错误

3监管要求严格

部署架构：

8.3 自动驾驶案例

场景：自动驾驶公司的感知模型需要安全验证。

挑战：

1模型安全直接关系到人身安全

2需要实时检测

3模型更新频繁

BackdoorScan集成：

九、合规与最佳实践

9.1 法规要求解读

9.1.1 欧盟AI法案（EU AI Act 2024）

欧盟AI法案是全球首个综合性AI监管框架，于2024年正式生效。该法案根据AI系统的风险等级进行分类监管：

风险分类体系：

风险等级	定义	示例应用	监管要求
不可接受风险	违反基本权利的AI实践	社会评分、实时生物特征监控	禁止使用
高风险	可能损害健康、安全、基本权利	医疗诊断、自动驾驶、招聘	强制性合规评估
有限风险	缺乏透明度但风险可控	聊天机器人、深度伪造	透明度义务
最小风险	风险可忽略	垃圾邮件过滤、游戏AI	无特殊要求

模型供应链相关条款：

Article 14 - 数据治理：

●要求高风险AI系统提供训练数据来源证明

●必须评估数据质量、偏差和代表性

●需要记录数据处理历史

Article 15 - 数据记录：

●必须维护模型血缘关系文档

●记录预训练模型来源、微调历史

●保存模型版本控制信息

Article 17 - 质量管理系统：

●建立模型安全审计流程

●实施供应链风险评估

●定期进行漏洞扫描和后门检测

合规实施时间表：

●2025年2月：高风险AI系统禁止条款生效

●2025年8月：通用AI模型（GPAI）监管条款生效

●2027年8月：全面合规要求生效

9.1.2 中国算法推荐管理规定

《互联网信息服务算法推荐管理规定》（2022年3月1日施行）是中国首个针对算法推荐的专门立法。

核心安全要求：

第八条 - 算法安全评估：
算法服务提供者应当建立健全算法安全评估制度，定期组织算法安全评估：

第十二条 - 备案要求：
具有舆论属性或者社会动员能力的算法推荐服务，应当在提供服务之日起十个工作日内通过互联网算法备案系统履行备案手续。

备案材料包括：

●算法基本情况

●算法安全评估报告

●算法机制机理说明

●用户权益保护机制

9.1.3 美国NIST AI RMF框架

NIST AI Risk Management Framework (AI RMF 1.0) 是美国国家标准与技术研究院发布的AI风险管理框架。

四大核心功能：

功能	子功能	ModelDNA映射
治理	文化、法律、政策	血缘追踪系统
映射	上下文、风险分类	指纹生成引擎
测量	指标、测试	后门检测引擎
管理	监控、响应	完整性验证模块

模型供应链安全控制点：

MP-01: Model Provenance Tracking

●实施模型来源验证

●记录模型修改历史

●维护血缘关系图谱

MP-02: Backdoor Detection

●部署自动化后门扫描

●定期进行触发器测试

●监控模型行为异常

MP-03: Watermark Verification

●验证模型所有权水印

●检测水印完整性

●记录水印提取历史

9.1.4 其他重要法规

ISO/IEC 23894:2023 - Information technology — Artificial intelligence — Risk management：

●提供AI系统风险管理指南

●强调供应链风险评估

●要求建立风险应对机制

IEEE 7003-2024 - Standard for Algorithmic Bias Considerations：

●关注算法公平性

●防止训练数据投毒

●要求模型可解释性

9.2 模型采购安全清单

采购前检查清单：

模型来源是否可信？

是否有第三方安全审计报告？

模型文件哈希是否可验证？

是否提供训练数据来源说明？

是否经过后门检测？

是否包含水印保护？

是否提供血缘关系文档？

是否有漏洞披露历史？

9.3 模型审计流程

审计步骤：

1文档审查

○检查模型文档完整性

○验证训练数据来源

○审查安全评估报告

1技术检测

○运行ModelDNA静态分析

○进行动态测试

○水印验证

○血缘追踪

1行为测试

○边界测试

○对抗测试

○模糊测试

○性能测试

1风险评估

○识别潜在风险

○评估风险等级

○制定缓解措施

1审计报告

○记录审计发现

○提供整改建议

○跟踪整改状态

十、总结与展望

10.1 核心贡献总结

第一，ModelDNA框架：提出了首个系统性的AI模型DNA分析框架，包含指纹生成、后门检测、血缘追踪、完整性验证四大核心模块，为模型安全分析提供了完整的工具链。

第二，RobustMark方案：设计了针对微调、量化、剪枝等操作的鲁棒水印方案，实验验证了水印在复杂操作下的高保持率（>90%），同时将精度损失控制在2%以内。

第三，BackdoorScan工具：开发了自动化的后门扫描套件，可无缝集成到CI/CD流程，实现对模型供应链的全生命周期安全监控。

10.2 研究方向展望

短期方向（6-12个月）：

1联邦学习后门检测技术

2多模态模型后门分析

3实时在线后门检测

4水印抗攻击能力提升

中期方向（1-2年）：

1量子安全水印技术

2自动化后门修复

3模型供应链标准化

4跨组织信任机制

长期愿景（3-5年）：

1可验证AI系统

2零信任AI架构

3自主AI免疫系统

4全球AI安全治理框架

10.3 行业行动建议

对模型开发者：

●使用ModelDNA扫描自己发布的模型

●使用RobustMark嵌入水印保护知识产权

●建立完善的模型文档和血缘追踪

●定期进行安全审计

对模型使用者：

●优先选择有安全认证的模型

●使用BackdoorScan验证下载的模型

●建立模型监控机制

●及时报告安全事件

对监管机构：

●制定AI安全评估标准

●建立模型安全认证体系

●推动行业安全最佳实践

●加强跨境合作与信息共享

结语

AI模型供应链安全是一个快速演进、日益复杂的领域。本文提出的ModelDNA框架、RobustMark水印方案和BackdoorScan工具，为构建可信赖的AI生态系统提供了技术基础。我们希望通过这些技术创新和实践指南，推动行业对模型安全的重视，促进AI技术的安全、可信发展，最终实现AI技术的社会价值最大化。

参考文献

学术论文

[1] Gu T, Dolan-Gavitt B, Garg S. Badnets: Identifying vulnerabilities in the machine learning model supply chain[J]. arXiv preprint arXiv:1708.06733, 2017.

[2] Chen X, Liu C, Li B, et al. Targeted backdoor attacks on deep learning systems using data poisoning[J]. IEEE Transactions on Dependable and Secure Computing, 2021.

[3] Kurita G, Iwasawa Y, Matsuo Y. Comprehensive analysis of trojan insertion in neural networks[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 36(11): 11904-11911.

[4] Tang R, Du Y, Liu S, et al. An extremely lightweight feature for backdoor attack mitigation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 16619-16628.

[5] Li Y, Wu Y, Ding K, et al. Clean label backdoor attack on deep neural networks[J]. IEEE Transactions on Information Forensics and Security, 2021.

[6] Adi Y, Baum C, Cisse M, et al. Turning your weakness into a strength: Watermarking deep neural networks by backdooring[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5311-5320.

[7] Jia Z, Chang K, Leino K, et al. Practical blind backdoor attack from transfer learning perspective[C]//International Conference on Learning Representations (ICLR). 2022.

[8] Liu Y, Xie Y, Srivastava A. Detecting backdoor attacks on neural networks through activation clustering and neuron pruning[J]. arXiv preprint arXiv:1912.08371, 2019.

[9] Saha S, Subramanian S, Mittal S, et al. Hidden backdoors in neural network classifiers[C]//Proceedings of the IEEE International Symposium on Hardware Oriented Security and Trust. 2023: 13-24.

[10] Zhang N, Ding K, Jia J, et al. Understanding the sensitivity of backdoored models to input transformations[C]//International Conference on Learning Representations (ICLR). 2024.

[11] Wang B, Gong N Z, Li F. Stronger model watermarking via backdoor-based initialization[J]. arXiv preprint arXiv:2305.14603, 2023.

[12] Leino K, Hamid Mozaffari K, Fredrikson M. Adversarial logit pairing: Watermarking deep neural networks for ownership verification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024.

[13] Xie Y, Wang D, Chen X, et al. Neural clean: Explaining and certifying deep neural networks using Trojan attacks[J]. IEEE Transactions on Information Forensics and Security, 2023.

[14] Liu K, Chen H, Zhang H, et al. Uncovering the structure of trojan neural networks via inverse design[J]. arXiv preprint arXiv:2207.05623, 2022.

[15] Tan S, Shao H, Tian Y, et al. Semi-structured backdoor attacks in continuous learning frameworks[J]. arXiv preprint arXiv:2408.06996, 2024.

技术标准与框架

[16] OWASP Foundation. OWASP Top 10 for Large Language Model Applications 2025[EB/OL]. https://owasp.org/www-project-top-10-for-large-language-model-applications/, 2025.

[17] MITRE Corporation. MITRE ATLAS Matrix: Adversarial Threat Landscape for Artificial-Intelligence Systems[EB/OL]. https://atlas.mitre.org/, 2024.

[18] European Union. Regulation (EU) 2024/... of the European Parliament and of the Council laying down harmonised rules on artificial intelligence (Artificial Intelligence Act)[S]. Official Journal of the European Union, 2024.

[19] National Information Security Standardization Committee. GB/T 41819-2022 Information security technology—Artificial intelligence security management guide[S]. Beijing: Standards Press of China, 2022.

[20] National Institute of Standards and Technology (NIST). NIST AI 100-2e2023: Artificial Intelligence Risk Management Framework (AI RMF 1.0)[S]. Gaithersburg: NIST, 2023.

行业报告

[21] Data智能研究院. 2024年AI供应链安全风险报告[R]. 北京: Data智能研究院, 2024.

[22] Hugging Face. 2024年Model Hub安全状况白皮书[R]. New York: Hugging Face Inc., 2024.

[23] Google AI Red Team. Generative AI security: Emerging threats and countermeasures[R]. Google Cloud, 2024.

[24] Microsoft Security Response Center. Supply chain attacks in the AI era: A comprehensive analysis[R]. Redmond: Microsoft Corporation, 2024.

神经科学与基础理论

[25] Pavlov I P. Conditioned reflexes[M]. Oxford University Press, 1927.

[26] Hebb D O. The organization of behavior: A neuropsychological theory[M]. John Wiley & Sons, 1949.

[27] Blisdel R, et al. Long-term potentiation in the hippocampus[J]. Science, 2023.

[28] Cover T M, Thomas J A. Elements of information theory[M]. John Wiley & Sons, 2006.

学界大佬吵架金句不断，智谱和 MiniMax 太优秀被点名，Agent 竟然能写 GPU 内核了？！

作者: 纯情
时间: 2026-01-23
分类: 资讯
评论

“如果一个 AI 能解 IMO，但解决不了任何现实问题，那它不是通用人工智能。”

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家，蒂姆·德特默斯对 AGI 给出的判断，他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI 从神坛上拽了下来。

有意思的是，几天后，加州大学圣地亚哥分校助理教授、Together AI 内核副总裁丹·傅，给出了完全相反的判断。他写了一篇 《通用人工智能终将成为现实》，说 我们也许早就已经实现了 AGI。

于是，两篇文章，一场关于 “AGI ” 的争论，被带进了播客现场。

这场讨论并非空谈，两位嘉宾都是同时深耕学术界与产业界的一线研究者。

蒂姆·德特默斯长期深耕深度学习量化领域，即模型压缩，如何在更低精度、更少算力下，让模型保持可用性能。

在蒂姆·德特默斯看来，判断 AGI 是否成立，首先要回到一个常被忽略的前提：计算是物理的。

在他看来，内存迁移、带宽、延迟，以及冯·诺依曼瓶颈，决定了算力不可能无限扩张。他说 “几乎所有指数增长，最终都会撞上资源和物理极限”。 所以，指数增长终将放缓，Scaling Law 也不例外。

但丹·傅显然不这么看。在他看来，现在谈“算力见顶”，还太早了。丹·傅每天都在和 GPU 内核、算力利用率打交道，在他看来，“我们甚至还没真正用好上一代硬件。”

在现实系统中，算力其实被严重低估和浪费了， 大量性能消耗在内核调度、系统开销和工程细节上。更关键的是，人们今天评测和使用的“最强模型”，往往是基于一到两年前的算力集群训练出来的，它们并不能代表当下硬件和大规模集群所能达到的真实上限。

他因此提出了一个直观的估算思路，用来说明算力增长的潜力来自多个维度的叠加：

新一代硬件带来约 2–3 倍的性能提升；
系统与工程优化将算力利用率提升约 3 倍；
更大规模的集群再带来约 10 倍的规模效应。

这三者相乘，意味着可用算力在理论上可以提升接近 90 倍。这并不是纸面上的推算，而是正在产业中逐步发生、逐步兑现的现实潜力。

有意思的是，当争论继续推进，两人反而在一个问题上开始靠拢：AGI 到底是什么？

关于 AGI 的定义，大致有两种主流视角：

一种从认知能力出发，看模型能否覆盖足够多的认知任务；

另一种则从经济角度出发，看它是否真的改变了生产方式。

这一点上，双方达成一个共识：AGI 是什么并不重要，重要的是，它有没有改变我们工作的方式。

在访谈后后半部分，大家从未来拉回到了现实，Agent 成为了关键话题。

丹·傅在节目中提到一个有趣的时间点：2025 年 6 月， 那是他第一次意识到，Agent 可能真的越过了拐点。

他当时发现机器学习工程中最难的技能之一、编程领域的终极难题——“GPU 内核编程” 被代码智能体啃下来了。他自己亲测：原本一个 GPU 内核功能开发得磨一周，那天靠着代码智能体，一天就搞定了三四个，工作效率直接提升了 5 倍。而他的团队用上后，那些原本需要整支团队耗数月的复杂系统开发，也变得轻装上阵。

这让丹·傅想起了自己对自动驾驶的态度变化，从长期怀疑到真正坐上 Waymo，他意识到技术的突破可能藏在某个猝不及防的瞬间。

针对 Agent 的爆发式潜力，蒂姆·德特默斯曾发布了一篇掷地有声的文章 《要么善用 Agent，要么被时代淘汰》。在他看来，代码 Agent 本身就是高度通用的 Agent，因为代码几乎可以描述和解决所有数字化问题。他甚至直言，“超过 90% 的代码和文本，本就应该由 Agent 来生成。但同时他也强调，“人类必须对最终结果承担责任，而非盲目依赖 AI 的输出。”