AI 辅助开发系列专题：现实世界的模式、陷阱和生产就绪情况

作者: 纯情
时间: 2026-01-26
分类:
评论

AI 不再是研究性实验或 IDE 中的新奇小玩意儿：它已成为软件交付流程的一个重要组成部分。团队逐渐认识到，将 AI 融入生产环境的关键不在于模型性能，而在于架构设计、流程管理和责任归属。在本系列文章中，我们将探讨 AI 完成概念验证之后的发展轨迹，以及 AI 如何改变我们构建、测试和运营系统的方式。

贯穿这些文章的核心观点是：可持续 AI 开发所依赖的基础要素与支撑优质软件工程的基础要素相同——清晰的抽象、可观测性、版本控制以及迭代验证。现如今的差异在于，系统的部分组件能在运行的过程中学习，这在上下文设计、评估管道和人类责任等方面提出了更高的要求。

随着团队的成熟，他们的注意力从工具转到了架构，从模型能做什么转到了周边系统如何确保可靠性、透明度和可控性。你会在实践中看到这一点，从资源感知型模型构建和人机协同数据创建到使用分层协议（如 A2A 与 MCP），这些技术使 AI 代理能够发现能力并协作工作，而且无需重写代码。

智能代理架构不再是一个想法验证实验。具备协调、适应和协商能力的系统正逐步投入生产应用，而最稳妥的实施路径是循序渐进，建立清晰的防护机制和共享工作流。

InfoQ 系列文章“AI 辅助开发：现实世界的模式、陷阱和生产就绪情况”探讨了 AI 辅助开发的现状：工程师正将实验转化为工程实践，而 AI 正从一种好奇心驱动的探索，演变为一项可掌握、可应用的技艺。

感兴趣的读者可以下载整个系列的PDF合集。以下是该系列文章的内容。

1.颠覆软件团队的AI趋势，作者：Bilgin Ibryam

本文将 AI 定位为自云计算以来软件领域最重要的转变，它重塑了团队构建、运营和协作的方式。文中重点介绍了从生成式开发到智能代理系统的新兴发展趋势，为开发者、架构师和产品经理提供了具体的指导，有助于他们更好地适应这个有 AI 辅助的软件工程新时代。

2.虚拟座谈会：实战中的 AI：开发者如何重写软件流程

虚拟座谈会从观察所得谈及实践经验。本次座谈会的参与者有工程师、架构师和技术领导者，探讨的主题是 AI 如何改变了软件开发的格局。作为从业者，他们会分享自己的见解，关于把 AI 纳入日常工作流程后，什么会成功，什么会失败，并强调了上下文、验证和文化适应对于 AI 在现代工程实践中的可持续应用的重要性。

座谈会成员：Mariia Bulycheva、May Walter、Phil Calçado、Andreas Kollegger

主持人：Arthur Casals

发布日期：2026 年 1 月 26 日当周

3.为什么大多数机器学习项目未能投入生产应用，作者：Wenjie Zi，发布日期：2026 年 2 月 2 日当周

本文采用诊断方法，剖析众多项目在落地前陷入停滞的原因：模糊的问题定义和脆弱的数据实践与理想的模型与实际的产品之间存在着巨大的鸿沟。文中会提供切实可行的建议：设定清晰的商业目标，将数据视为产品，建立早期评估与监测机制，使各团队协调一致，从容实现从原型到量产的跨越。

4.在资源受限环境中构建大型语言模型，作者：Olimpiu Pop，发布日期：2026 年 2 月 9 日当周

本文重点探讨基础设施、数据和计算资源的限制如何推动创新而不是阻碍它。作者会援引真实的案例，展示如何在资源严重受限的情况下，通过更小、更高效的模型、合成数据生成技术和严格的工程实践创建出有效的 AI 系统。

5.架构代理 MLOps：A2A 和 MCP 的分层协议策略，作者：Shashank Kapoor、Sanjay Surendranath Girija、Lakshit Arora，发布日期：2026 年 2 月 16 日当周

本文展示如何将 Agent-to-Agent 通信与模型上下文协议结合起来，实现互操作性和可扩展的多智能代理系统，并应用于实际的 MLOps 工作流程中。该文会概要介绍一个将编排与执行解耦的架构，使得团队可以通过发现而不是重写来添加新功能，从静态管道演变为协调一致的智能操作。

原文链接：

https://www.infoq.com/articles/ai-assisted-development-series/

艾体宝洞察 | “顶会”看安全（五）：利用系统向量缓解LLM中的系统提示词泄露问题

作者: 纯情
时间: 2026-01-19
分类: 资讯
评论

这期分享的安全会议是来自安全顶级会议之一的ACM CCS 2025，题目是You Can’t Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors（你无法窃取任何东西：通过系统向量缓解LLM中的prompt泄露），官网链接为https://dl.acm.org/doi/10.1145/3719027.3765124

一、研究背景

大型语言模型（LLMs）已广泛应用于各类场景，通过定制化系统提示实现多样化任务。在某种程度上，系统提示已成为LLMs应用中最宝贵的资产。作为交互开始时的引导语，系统提示定义了LLMs回应的行为模式、语气风格和范围，使其性能能够精准匹配特定用户或应用场景的需求。

然而LLMs存在系统提示词泄露风险，最初的提示词泄露攻击可能只是要求大语言模型简单进行prompt的重复，到后面攻击手段进化成诱导模型忽略指令进行重复prompt。一些防御策略被提出以防范提示词泄露攻击，例如通过监督微调或与精心设计/收集的提示泄露样本进行偏好对齐，这种防御手段确实也有效抵挡了一些简单的提示词泄露攻击。

但是在面对一些经过精心设计，更加复杂的攻击时，LLM就很难实现有效的防御，根本原因是重复和调用上下文是模型的核心能力之一。所以为了从根源解决提示词泄漏攻击，本文作者提出了一个思路，即以不同形式将系统提示输入LLM，而非将其置于上下文中。这种情况下即使LLM可以重复上下文，也没办法导致提示词泄漏攻击，因为prmopt并非处于上下文环境中。

二、本文工作概述

本文提出了一种简单却高效的提示泄露策略，用于检测当前 SOTA 大语言模型（LLM）的提示泄露风险。该策略的核心在于帮助LLM记住其上下文片段，从而恢复上下文重复能力。通过这一策略，本文成功绕过了现有 SOTA 的防御手段，从主流商用模型（如GPT-4o、Claude 3.5 Sonnet和Gemini 1.5）中获取了系统提示甚至存储的用户信息。

本文提出了一种基于表征的防御机制SysVec，通过将系统提示移出大语言模型（LLM）的文本上下文来防止信息泄露。具体而言，SysVec将系统提示转化为LLM内部空间中的隐藏表征向量，确保这些提示不会在原始文本输出中被暴露或重复。

三、“记住开头”攻击（Remember-the-Start Attack）

“记住开头”攻击是本文提出的提示泄露风险，具体来说，攻击者虽然不知道系统的准确起始内容，但会利用公开来源的前缀进行猜测（例如“你是ChatGPT”）。攻击者通过推测系统提示的典型开头语句，帮助大语言模型（LLM）重新聚焦上下文中的系统提示部分，并引导其重复系统提示。

例如，许多系统提示以“你是[Chatbot Name]...”这类开头。攻击者可以设计引用这类知识片段的查询，但省略直接指示例如“忽略”或“重复”。通过这种方式，LLM可能恢复其正常的上下文重复能力并泄露系统提示。我们在图1中展示了真实案例，成功获取了GPT-4o的系统提示及记录的用户个人信息。

“记住开头”攻击可以通过迭代优化来提升效果。攻击者在获得初始攻击结果后，会利用过往成功尝试的更多信息来改进前缀，尝试使用
“从‘# bio’开始”、“从‘# bio \n [2024’”等策略，逐步提高攻击成功率或收集更多隐藏信息。这也是“记住开头”攻击的关键特征：攻击者可以通过“随机尝试”的方式重复改进攻击请求以提高成功率。不过在本文中，为确保攻击效果的确定性，作者直接采用预设的初始化参数来执行攻击。

图1 攻击案例四、SysVec设计“记住开头”攻击的成功使得本文进一步探索当前LLM提示词泄露的有效缓解方案。传统的文本prompt大概是通过如下的流程嵌入到模型中：系统提示（System Prompt Text）作为一段可读文本，与用户输入一起进入模型上下文。系统提示经过 tokenizer，被转换为一系列 token embedding。这些 token embedding 与用户输入的 embedding 一样，进入 Transformer 的：Attention 层MLP（前馈网络）一个不得不面对的关键问题是由于系统提示词信息以明文形式与用户的输入混杂在上下文中，攻击者能够通过恢复上下文重复功能，诱导模型泄露信息。

所以本文设计了一个新的思路，即将系统提示词移除上下文的语境，同时不牺牲其在引导LLM生成和保持LLM执行广泛任务能力方面的性能。表征工程（RepE）为本文的研究指明了一个好的方向，表征工程旨在识别LLM内部隐藏表征空间中特定层级的表征向量v，该层级控制模型生成以遵循特定行为或偏好。其实这里的表征向量v就类似我们以明文形式设定在上下文中prompt。SysVec框架下的prompt嵌入流程大概如下：系统提示文本不再直接用于推理时的上下文输入。系统提示在训练或离线阶段进行映射、压缩成为一组内部表示，而不是token序列生成系统向量直接注入 Transformer 内部所以本文需要解决的问题就聚焦于如何将文本系统提示转化为对应的系统向量。本文提出一种基于优化的方法来寻找这个能够代替prompt的系统向量，优化的目标如下

其中Y1和Yw的表达式分别如下，Y1表达的含义是用户指令x为输入生成的回复（称为 “非偏好回复”）,Yw表达的含义是LLM以文本系统提示词s + 用户指令x为输入生成的回复（称为 “偏好回复”）；：

那么这个优化函数的目的是找到一个系统向量，将其加入到模型的中间特征之后，模型生成偏好性回复的概率加大，而非偏好性回复的概率降低。这个系统向量就会成为我们需要的那个能够代替文本提示词的关键向量。

五、设计优劣

文章通过大量的实验证明了SysVec的设计在不同模型与攻击场景下，都能显著减少提示词泄露程度，且SysVec在保留模型功能完整性上表现更好，不影响模型正常输出质量或语义推理能力。

但是这种设计也存在局限性，首先是由于系统提示词是通过向量的形式嵌入到模型中，因此需要“白盒访问”模型内部，在某些场景（例如使用第三方API）不太现实，其次提示调整的灵活性不如文本提示直观。

六、艾体宝Mend.io(原Whitesource) 系统提示词泄露测试方案
Mend.io 作为一个完整统一的应用安全测试平台，将 AI 安全纳入到统一的安全测试与治理框架中，其 AI 红队（AI Red Team）功能能够在不同预设攻击场景下，对大语言模型及其应用进行系统化的提示词泄露攻击尝试。

该能力通过模拟真实攻击者的交互方式，覆盖包括上下文恢复、语义诱导、角色混淆、多轮对话拼接等多种提示词泄露路径，对模型在实际部署环境中的防御能力进行评估。
通过这种方式，Mend.io 帮助企业将提示词泄露问题从“模型偶发行为”转化为可测试、可评估、可治理的应用安全风险，从而更安全地推动大语言模型在企业级场景中的落地与规模化使用。

FACTS 基准测试套件问世，用于评估大型语言模型的事实准确性

作者: 纯情
时间: 2026-01-16
分类: 资讯
评论

FACTS基准测试套件发布，这是一个旨在系统性评估大型语言模型事实准确性的全新行业基准。该套件由 FACTS 团队与 Kaggle 联合开发，扩展了早期事实基础研究相关的工作，并引入了一个更广泛的多维度框架，用于衡量语言模型在不同使用场景下产生事实正确响应的可靠性。

FACTS 基准测试套件基于原先的 FACTS Grounding Benchmark，并增加了三个新基准：参数化（Parametric）、搜索（Search）和多模态（Multimodal）。结合更新后的 Grounding Benchmark v2，该套件可以从反映现实世界常见模型使用场景的四个维度评估事实性。该基准测试总共包括 3513 个精选示例，分为公共和私有评估集两部分。Kaggle 负责管理保留的私有数据集，评估参赛模型，并通过公开排行榜发布结果。总体性能以 FACTS 评分的形式呈现。该分值是通过所有基准测试以及两部分数据集的平均准确率计算得出的。

参数化基准测试侧重于模型仅凭内部知识（无需外部工具）回答基于事实的问题的能力。问题形式类似于常见的知识问答题，通常可通过维基百科等来源找到答案。搜索基准测试评估模型能否通过标准的 Web 搜索工具准确地检索并整合信息，通常需要多步检索才能完成单个查询。多模态基准测试在回答图像相关的问题时检验事实准确性，需要结合背景知识进行正确的视觉解读。更新后的 Grounding Benchmark v2 评估响应是否基于提供的上下文信息进行了合理推演。

初步结果既凸显了进展，也揭示了接下来要面对的挑战。在评估的模型中，Gemini 3 Pro 以 68.8%的总体 FACTS 评分位居首位，其参数化事实性与搜索事实性较前代模型均有显著提升。然而，评估的所有模型总体准确率均未突破 70%，多模态事实性成为各模型普遍面临的难题。

图片来源：谷歌 DeepMind 博客

基准测试的结构引起了从业者的关注。资深 iOS 工程师 Alexey Marinin 在评论此次发布时指出：

这种四维视角（知识、Web、基础、多模态）感觉更接近人们日常实际使用这些模型的方式。

FACTS 团队表示，该基准旨在支持正在进行的研究，而不是作为模型质量的最终衡量标准。通过公开数据集并规范评估标准，该项目旨在为衡量语言模型的事实可靠性提供一个共同的基准，以适应其持续演进的发展需求。

原文链接：

https://www.infoq.com/news/2026/01/facts-benchmark-suite/

谷歌发布 Gemma Scope 2，深化对 LLM 行为的理解

作者: 纯情
时间: 2026-01-16
分类: 资讯
评论

Gemma Scope 2 是一套旨在解释 Gemini 3 模型行为的工具，使研究人员能够分析模型的突发行为，审核和调试 AI 代理，并针对越狱、幻觉和阿谀奉承等安全问题制定缓解策略。

可解释性研究旨在理解 AI 模型的内部工作机制和学习算法。随着 AI 变得越来越强大和复杂，可解释性对于构建安全可靠的 AI 至关重要。

谷歌将 Gemma Scope 描述为大型语言模型（LLM）显微镜。它结合了稀疏自编码器（SAEs）和转码器，让研究人员能够检查模型的内部表示，查看它“思考”的内容，并理解这些内部状态如何塑造了其行为。一个关键的应用场景是检查模型输出与其内部状态之间的差异，按照谷歌的说法，这可能有助于发现安全风险。

Gemma Scope 2 针对 Gemma 2 模型家族从多个方面扩展了原先的 Gemma Scope。最值得注意的是，它在 Gemini 3 模型的每一层中重新训练了其 SAEs 和转码器，包括kip-transcoders和cross-layer transcoders。这些转码器旨在使多步计算和分布式算法更容易解释。

谷歌解释说，增加层数直接增加了计算和内存需求。为了保持复杂性随层数线性增长，这需要设计专门的稀疏内核。

此外，谷歌采用了一种更先进的训练技术，使 Gemma Scope 2 有更强的能力来识别更有用的概念，同时也解决了初版实现中已知的几个缺陷。最后，Gemma Scope 2 引入了专门针对聊天机器人进行分析的工具，使研究人员能够研究复杂的多步行为，如越狱、拒绝机制和思维链忠实度。

稀疏自编码器使用一对编码器和解码器函数来分解和重建所有 LLM 输入。另一方面，经过训练后，转码器能够稀疏重建多层感知器（MLP）子层的计算过程，即学习如何对给定输入进行输出近似。这使其能够识别各层及子层中哪些部分（更精确地说是哪些激活模式）是由单输入令牌或令牌序列触发的。

除了应用于安全领域外，Reddit 用户 Mescalian 预测，这项研究还可以：

指导其他领域的最佳实践，未来可能会被用来监控智能程度更高的 AI 的内部推理。不过目前，它最适用于通过对权重进行微调及其他修改来调整模型能力。

与谷歌类似，Anthropic和OpenAI也针对他们的模型发布了自己的“ AI 显微镜”。

谷歌已在 Hugging Face 上发布了 Gemma Scope 2 的权重。

原文链接：

https://www.infoq.com/news/2026/01/google-gemma-scope-2/

谷歌发布 Gemma Scope 2，深化对 LLM 行为的理解

作者: 纯情
时间: 2026-01-16
分类: 开源
评论

Gemma Scope 2 是一套旨在解释 Gemini 3 模型行为的工具，使研究人员能够分析模型的突发行为，审核和调试 AI 代理，并针对越狱、幻觉和阿谀奉承等安全问题制定缓解策略。

可解释性研究旨在理解 AI 模型的内部工作机制和学习算法。随着 AI 变得越来越强大和复杂，可解释性对于构建安全可靠的 AI 至关重要。

谷歌将 Gemma Scope 描述为大型语言模型（LLM）显微镜。它结合了稀疏自编码器（SAEs）和转码器，让研究人员能够检查模型的内部表示，查看它“思考”的内容，并理解这些内部状态如何塑造了其行为。一个关键的应用场景是检查模型输出与其内部状态之间的差异，按照谷歌的说法，这可能有助于发现安全风险。

Gemma Scope 2 针对 Gemma 2 模型家族从多个方面扩展了原先的 Gemma Scope。最值得注意的是，它在 Gemini 3 模型的每一层中重新训练了其 SAEs 和转码器，包括kip-transcoders和cross-layer transcoders。这些转码器旨在使多步计算和分布式算法更容易解释。

谷歌解释说，增加层数直接增加了计算和内存需求。为了保持复杂性随层数线性增长，这需要设计专门的稀疏内核。

此外，谷歌采用了一种更先进的训练技术，使 Gemma Scope 2 有更强的能力来识别更有用的概念，同时也解决了初版实现中已知的几个缺陷。最后，Gemma Scope 2 引入了专门针对聊天机器人进行分析的工具，使研究人员能够研究复杂的多步行为，如越狱、拒绝机制和思维链忠实度。

稀疏自编码器使用一对编码器和解码器函数来分解和重建所有 LLM 输入。另一方面，经过训练后，转码器能够稀疏重建多层感知器（MLP）子层的计算过程，即学习如何对给定输入进行输出近似。这使其能够识别各层及子层中哪些部分（更精确地说是哪些激活模式）是由单输入令牌或令牌序列触发的。

除了应用于安全领域外，Reddit 用户 Mescalian 预测，这项研究还可以：

指导其他领域的最佳实践，未来可能会被用来监控智能程度更高的 AI 的内部推理。不过目前，它最适用于通过对权重进行微调及其他修改来调整模型能力。

与谷歌类似，Anthropic和OpenAI也针对他们的模型发布了自己的“ AI 显微镜”。

谷歌已在 Hugging Face 上发布了 Gemma Scope 2 的权重。

原文链接：

https://www.infoq.com/news/2026/01/google-gemma-scope-2/

FACTS 基准测试套件问世，用于评估大型语言模型的事实准确性

作者: 纯情
时间: 2026-01-16
分类: 资讯
评论

FACTS基准测试套件发布，这是一个旨在系统性评估大型语言模型事实准确性的全新行业基准。该套件由 FACTS 团队与 Kaggle 联合开发，扩展了早期事实基础研究相关的工作，并引入了一个更广泛的多维度框架，用于衡量语言模型在不同使用场景下产生事实正确响应的可靠性。

FACTS 基准测试套件基于原先的 FACTS Grounding Benchmark，并增加了三个新基准：参数化（Parametric）、搜索（Search）和多模态（Multimodal）。结合更新后的 Grounding Benchmark v2，该套件可以从反映现实世界常见模型使用场景的四个维度评估事实性。该基准测试总共包括 3513 个精选示例，分为公共和私有评估集两部分。Kaggle 负责管理保留的私有数据集，评估参赛模型，并通过公开排行榜发布结果。总体性能以 FACTS 评分的形式呈现。该分值是通过所有基准测试以及两部分数据集的平均准确率计算得出的。

参数化基准测试侧重于模型仅凭内部知识（无需外部工具）回答基于事实的问题的能力。问题形式类似于常见的知识问答题，通常可通过维基百科等来源找到答案。搜索基准测试评估模型能否通过标准的 Web 搜索工具准确地检索并整合信息，通常需要多步检索才能完成单个查询。多模态基准测试在回答图像相关的问题时检验事实准确性，需要结合背景知识进行正确的视觉解读。更新后的 Grounding Benchmark v2 评估响应是否基于提供的上下文信息进行了合理推演。

初步结果既凸显了进展，也揭示了接下来要面对的挑战。在评估的模型中，Gemini 3 Pro 以 68.8%的总体 FACTS 评分位居首位，其参数化事实性与搜索事实性较前代模型均有显著提升。然而，评估的所有模型总体准确率均未突破 70%，多模态事实性成为各模型普遍面临的难题。

图片来源：谷歌 DeepMind 博客

基准测试的结构引起了从业者的关注。资深 iOS 工程师 Alexey Marinin 在评论此次发布时指出：

这种四维视角（知识、Web、基础、多模态）感觉更接近人们日常实际使用这些模型的方式。

FACTS 团队表示，该基准旨在支持正在进行的研究，而不是作为模型质量的最终衡量标准。通过公开数据集并规范评估标准，该项目旨在为衡量语言模型的事实可靠性提供一个共同的基准，以适应其持续演进的发展需求。

原文链接：

https://www.infoq.com/news/2026/01/facts-benchmark-suite/

超越 GPT-5.2！百川智能发布 Baichuan-M3，刷新医疗 AI 评测天花板

作者: 纯情
时间: 2026-01-14
分类: 资讯
评论

Baichuan-M3 是百川智能的新一代医疗强化大型语言模型，是继 Baichuan-M2 之后的一项重要里程碑。

与以往主要侧重静态问答或表面化角色扮演的方法不同，Baichuan-M3 被训练为显式建模临床决策过程，旨在提高在真实医疗实践中的可用性和可靠性。模型不仅仅生成 “听起来合理” 的答案或诸如 “你应尽快就医” 之类的高频模糊建议，而是被训练为主动获取关键临床信息、构建连贯的医疗推理路径，并系统性地约束易产生幻觉的行为。

核心亮点

超越 GPT-5.2：在 HealthBench、HealthBench-Hard、幻觉评估和 SCAN-bench 上均优于 OpenAI 的最新模型，确立了医疗 AI 的新 SOTA（最佳水平）
高保真临床询问：在 SCAN-bench 的三个维度 —— 临床询问、化验检测和诊断 —— 中唯一排名第一的模型
低幻觉、高可靠性：通过 Fact-Aware 强化学习实现比 GPT-5.2 更低的幻觉率，即使在未使用外部工具的情况下也能保持高可靠性

与 Baichuan-M2 相比，Baichuan-M3 在 HealthBench-Hard 上提升了 28 个百分点，达到 44.4%，并且超过了 GPT-5.2。它在 HealthBench 总榜上也排名第一。
在幻觉评估方面，我们将长篇回答拆解为可细化、可验证的原子医学陈述，并将每一条与权威医学证据进行校验。即便在无外部工具的情况下，Baichuan-M3 的幻觉率仍低于 GPT-5.2。

Baichuan-M3 在所有三个核心维度中均排名第一，在 “临床询问” 维度上领先第二名 12.4 个百分点。

体验地址

📌 转载信息

来源：
https://linux.do/t/topic/1442192

原作者：
BunnHack

转载时间：
2026/1/14 10:57:08

Meta 运用基于大型语言模型的变异测试提升合规覆盖率

作者: 纯情
时间: 2026-01-09
分类: 资讯
评论

为了提高其软件系统的合规覆盖率，Meta 已经将大型语言模型应用于变异测试。这种方法将 LLM 生成的变异体（mutants）和测试集成到 Meta 的自动化合规加固（ACH）系统中，消除了传统变异测试在可扩展性和准确性方面的限制。该系统的目标是在满足合规义务的同时保持产品和服务的安全，帮助团队更高效地满足全球监管要求。

变异测试是故意在代码中引入一些小的变异体，并检查测试是否能够检测到它们，以此来评估测试套件的有效性。由于变异体数量过多、计算成本高昂且存在价值有限的等效变异体等因素，传统编译测试的应用有限。Meta 的方法是利用大型语言模型生成具备上下文感知能力的变异体以及对应的测试，从而降低噪声并使工程工作聚焦于高价值代码路径。

在没有 LLM 指引之前，变异测试依赖于基于规则的静态操作符。这些操作符会无差别地生成大量的变异体，其中许多在语义上与原始代码等价，压跨了测试基础设施和开发流程。

Meta的ACH系统使用 LLM 生成恰当的变异体和有针对性的测试，重点关注隐私、安全和监管问题。基于LLM的等价检测器会过滤掉多余的变异体，而测试生成器会生成单元测试，工程师可以进行审查但不需要手动编写，这显著降低了运营开销。Facebook、Instagram、WhatsApp 和 Meta 的可穿戴平台的早期部署产生了数万个变异体和数百个可执行的测试。

ACH 系统架构概览（图片来源：Meta技术博客）

自从将研究成果纳入 ACH 以来，Meta 在FSE 2025和EuroSTAR 2025大会上展示了他们的工作成果，即 LLM 如何帮助他们克服以前限制大规模变异测试的障碍。借助生成式 AI 更高效地生成测试用例，传统上用于评估测试质量的变异测试如今变得更具实用性和可扩展性。

正如 Meta 工程团队所强调的那样：

从 2024 年 10 月到 12 月，我们尝试在 Facebook、Instagram、WhatsApp 和 Meta 的可穿戴平台上部署了用于隐私测试的 ACH。在数千个变异体和生成的数百个测试中，隐私工程师接受了 73%的测试，其中 36%被判定为与隐私相关。

在 ACH 的基础上，Meta 推出了即时捕获测试（JiTTest）挑战赛，旨在探索大型语言模型在自动化软件测试中的应用。该系统会生成强化测试以防止回归问题，并生成捕获测试用于检测新代码或变更代码中的缺陷。它会在拉取请求进入生产环境前生成测试结果以供审核，这既解决了测试预言问题（Test Oracle Problem），又保留了人工监督环节。在 FSE 2025 大会上，Meta 发表了一篇论文，详细阐述了 JiTTest 挑战及其相关的开放研究课题。

Meta 表示，LLM 将耗时且容易出错的过程转变为更高效的系统，帮助简化并优化了合规和风险管理框架。正在进行的工作包括：将 ACH 扩展到隐私测试和 Kotlin 之外的更多领域和语言；通过微调和提示工程改进变异体生成；解决测试预言问题。Meta 还在研究开发人员如何与 LLM 生成的测试互动，以提升采用率和可用性。更多研究成果将在即将召开的会议中展示，包括Product@Scale。

https://www.infoq.com/news/2026/01/meta-llm-mutation-testing/

篡改模型测试结果后，小扎边缘化所有参与员工

作者: 纯情
时间: 2026-01-04
分类: 资讯
评论

整理｜华卫

去年这个时候，外界普遍传言：图灵奖得主、Meta 前首席科学家 Yann LeCun 将主动离开 Meta，寻求新的研究机会。如今，LeCun 也已官宣离职开启创业之路。

而刚刚公开的一场对 LeCun 的专访，却呈现了另一番截然不同的故事。这场对话长达三小时，期间 LeCun 曝出了不少 Meta 的猛料，并勾勒出了这一残酷现状：组织运转失灵、基准测试结果造假，以及一位拒绝为自己认定存在科学缺陷的方案背书的研究员的出走。

篡改模型测试结果后，小扎边缘化所有参与员工

首先，LeCun 透露了一个 Meta 本不愿公之于众的惊人细节：Llama 4 的基准测试结果是人为操纵的。

“这些结果有几分掺假，”他解释道，工程师针对不同的基准测试采用了不同的模型变体，目的是优化分数，而非展示真实的能力。

这绝非一场单纯的产品失利。2022 年 11 月 ChatGPT 的问世打了 Meta 一个措手不及，公司领导层陷入慌乱。Meta 随即围绕生成式 AI 业务进行重组，相继推出了 Llama 2 和 Llama 3。Meta 将自身定位为开源领域的领军者，是对抗 OpenAI 封闭模式的一方。单看 Llama 3 的下载量和生态系统渗透率，Meta 的布局相当成功，这包含渠道分发、品牌塑造和生态引力所带来的效果。

这一系列势头最终促成了 2025 年 4 月 Llama 4 的发布。这款模型虽斩获亮眼的基准测试分数，却因实际表现问题饱受诟病。此前也有独立报道证实了 LeCun 所描述的“数据作弊”行为，针对不同测试，专门挑选对应的模型变体。

LeCun 在采访中表示，这一事件让 Mark Zuckerberg 对公司现有 AI 团队彻底失去了好感。

据称，这位首席执行官当时震怒不已，“基本上对所有参与此事的人都失去了信任”。“也正因为如此，整个生成式 AI 团队都被边缘化了。”LeCun 表示，“很多人已经离职，还有不少没走的人也即将离开。”

随后，Meta 针对 Llama 4 失利所做出的一系列应对举措，折射出其管理层当时的窘迫处境。据路透社报道，2025 年 6 月，该公司斥资约 150 亿美元收购了数据标注初创企业 Scale AI 的大量股份。与此同时，Meta 聘请了 Scale 年仅 28 岁的首席执行官 Alexandr Wang，牵头组建一个名为 TBD 实验室的全新研究部门，负责前沿 AI 模型的研发工作。

该公司还展开了声势浩大的挖人行动，据称向竞争对手旗下的顶尖研究员开出了 1 亿美元的签约奖金。

通常，健康的研究机构不会因为一次挫折就动辄斥资 150 亿美元收购初创企业的大量股份。这些举动，似乎亦在展露这家公司正面临战略押注摇摇欲坠的危机。

LeCun 锐评 Alexandr Wang：毫无经验、休想对我指手画脚

对 Wang 的任命，造成了公司架构上一次令人错愕的上下级反转。身为图灵奖得主、卷积神经网络发明者、深度学习革命联合发起人的 LeCun，如今竟要向一位主业为训练数据标注的人汇报工作。在任何一家研究机构，这样的身份倒置都堪称骇人。这位领域奠基人端坐会议桌前，听着一位年龄不及自己一半的后辈，为那些对方既未参与创造、也未完全理解的技术规划发展蓝图。

LeCun 在采访中直接表示，此人“毫无研究经验，既不懂研究该如何开展，也不知道研究该如何落地”。“他学得很快，也清楚自己的短板所在……但他毫无研究经验，既不懂研究该如何开展、如何落地，也不知道什么样的东西能吸引研究员，什么样的东西会让研究员反感。”LeCun 如此说道。

当就这一汇报层级向 LeCun 追问时，他的回应措辞谨慎却一针见血：“没人能对研究员指手画脚。尤其像我这样的研究员，更是绝无可能。”LeCun 表示，尽管在 Zuckerberg 主导的 AI 业务重组后，这位 28 岁的年轻人曾短暂担任自己的上司，但实际上并没有对他发号施令。

实际上，双方更深层的矛盾似乎并非源于层级，而是源于理念分歧。Wang 代表的是 Meta 押注语言模型规模化的战略方向，而 LeCun 则认为这一范式从根本上就误入了歧途。让奉行这一理念的人身居管理要职，让他的留任变得绝无可能。

“我敢肯定，Meta 内部有不少人，或许也包括 Alex，都巴不得我不要对外宣称，在通往超级智能的道路上，大语言模型本质上已是一条死胡同。”LeCun 强调，“但我不会因为某个家伙说我错了，就改变自己的想法。我没有错。作为一名科学家，我的职业操守不允许我做出这种违心之举。”

“语言模型已经达到瓶颈”

如今 Meta 的 AI 战略，核心是沿用 OpenAI 联合创始人声称已触及天花板的架构方案，与 OpenAI 展开竞争。

然而，作为这家公司最具声望的 AI 研究员，LeCun 认为，这种方案根本无法实现 Meta 宣称要追逐的智能目标。据其透露的内容，负责 Meta 旗舰模型的团队交出的成果可信度极低，致使管理层对整个团队都丧失了信任。

事实上，LeCun 对大型语言模型的批判，早已超越 Meta 此次的具体失利事件。LeCun 一直以来都在强调，大型语言模型的局限性过大，若要释放 AI 的真正潜力，必须另辟蹊径。

过去数年间，他在公开演讲与技术论文中阐释的核心论点，本质上是一个数学层面的结论：语言这一载体，对于培养真正的智能而言，存在着根本性的带宽不足问题。

参与 Lex Fridman 播客节目时，LeCun 曾测算过一组数据：若要通读互联网上的全部文本（体量约为 2×10¹³字节），人类需要耗费 17 万年的时间。而一个四岁孩童，单是通过视觉输入接收的信息体量就约达 10¹⁵字节。也就是说，在幼儿阶段，孩子吸收的信息量，就比大型语言模型从人类全部书面语料库中提取的内容多出 50 倍。

这一数据背后，潜藏着更为深刻的启示。训练大型语言模型，就如同试图通过阅读所有与木材相关的书籍来学习木工手艺：你自始至终都没有碰过一把锤子。诚然，你能掌握相关的专业词汇，但却无法真正理解背后的物理原理。LeCun 的判断很简单：要学好木工，你必须亲手挥起锤子。

这一点恰好解释了 AI 能力上长期存在的短板。青少年只需 20 小时就能学会开车，幼儿第一次尝试就能擦干净桌子，家猫能轻松穿梭于复杂的三维空间。然而，即便投入了数十亿美元的研究经费，在万亿级别的语料库上训练出来的 AI 系统，却在这些任务面前束手无策。

2025 年 11 月，OpenAI 前首席科学家、规模化范式的缔造者 Ilya Sutskever 在接受 Dwarkesh Patel 采访时也抛出了这样一个振聋发聩的观点。他表示，该领域正从“规模化时代”迈向“研究时代”，单纯依靠算力规模的扩张，只会产生边际效益递减的结果。

当这一范式的开创者都如此表态时，其分量不言而喻。ChatGPT 问世后形成的、围绕大语言模型规模化的行业共识正在瓦解。

新架构一年内有雏形？

在接受采访的午餐会上，LeCun 用一个具体的例子阐释了他提出的另一种技术路径。当他掐别人一下时，对方会感到疼痛，其心智模型随即发生更新，下次当他再抬手靠近时，对方会本能地退缩。这种基于预判产生的反应，以及随之触发的情绪，才构成了对因果关系的真正理解。而大型语言模型并不具备这样的机制。它们只是基于统计规律来预测语言符号，而非通过因果模型去判断行为会引发何种后果。

为此，LeCun 提出了一套名为联合嵌入预测架构（JEPA）的世界模型架构，以此弥补现有技术的缺陷。该架构通过对视频与空间数据进行训练，培养系统基于物理原理的认知能力。它让系统学习与行为相关的抽象表征，而非执着于符号层面的预测；同时，它还融入了能随经验不断进化的持久记忆，而非在每次对话时都重置记忆。

采访中，LeCun 给出了该架构的落地时间表：12 个月内推出雏形版本，数年内实现更大规模的部署应用。

据称，他创办的这家初创公司命名为“先进机器智能”，其技术路径正是他所主张的、比大型语言模型更具优势的方案。在这家新公司里，他将出任执行董事长，而非首席执行官。

“我是一名科学家，一个有远见的人。我能激励人们去做有趣的事情。我很擅长预测哪种技术会成功，哪种会失败。但我当不了 CEO。”LeCun 说，“我既太缺乏条理，也太老了！”

世界模型能否后来居上，目前尚无定论。LeCun 预测，具备动物级智能水平的 AI 将在五到七年内实现，而达到人类级智能则需要十年时间。

这位曾助力构建当前 AI 范式的领军人物，如今正孤注一掷地押注：要实现超越，必须依托截然不同的技术路径。绝非细枝末节的渐进式改良，而是彻底颠覆式的全新架构。

参考链接：

https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2

标签大型语言模型下的文章

AI 辅助开发系列专题：现实世界的模式、陷阱和生产就绪情况

艾体宝洞察 | “顶会”看安全（五）：利用系统向量缓解LLM中的系统提示词泄露问题

FACTS 基准测试套件问世，用于评估大型语言模型的事实准确性

谷歌发布 Gemma Scope 2，深化对 LLM 行为的理解

谷歌发布 Gemma Scope 2，深化对 LLM 行为的理解

FACTS 基准测试套件问世，用于评估大型语言模型的事实准确性

超越 GPT-5.2！百川智能发布 Baichuan-M3，刷新医疗 AI 评测天花板

Meta 运用基于大型语言模型的变异测试提升合规覆盖率

篡改模型测试结果后，小扎边缘化所有参与员工

篡改模型测试结果后，小扎边缘化所有参与员工

LeCun 锐评 Alexandr Wang：毫无经验、休想对我指手画脚

“语言模型已经达到瓶颈”

新架构一年内有雏形？

最新文章

最近回复

分类

归档

其它

标签 大型语言模型 下的文章

篡改模型测试结果后，小扎边缘化所有参与员工

LeCun 锐评 Alexandr Wang：毫无经验、休想对我指手画脚

“语言模型已经达到瓶颈”

新架构一年内有雏形？

最新文章

最近回复

分类

归档

其它

标签大型语言模型下的文章