标签 Hugging Face 下的文章

Gradio 团队发布了Daggr,这是一个新的开源 Python 库,意在简化多步骤 AI 工作流的构建与调试。Daggr 允许开发者以 Python 代码的方式定义工作流,同时会自动生成一个可视化画布,展示流水线中每个步骤的中间状态、输入和输出。

 

Daggr 通过将工作流组织为有向图的形式,简化了应用型 AI 的开发过程,使每一个节点都可以被单独检查和重新执行。这种方式有效缓解了应用开发中常见的一个问题:当错误发生在流程后期时,需要重新运行整个流水线,导致实验过程缓慢且结果不够清晰。通过节点级别的复现与检查,Daggr 提升了调试效率,也加快了迭代速度。

 

该库采用以代码为核心的设计思路。开发者直接在 Python 中定义节点及其连接关系,Daggr 再根据代码渲染出对应的可视化界面用于检查。这与以 GUI 为中心的工作流构建工具形成对比,后者往往牺牲版本控制能力和灵活性。使用 Daggr 时,可视化层是从代码派生出来的,而不是取代代码本身,从而保证了工作流的可复现性,也更便于审查和协作。

 

Daggr 支持三种主要的节点类型。GradioNode 可直接连接到 Gradio 应用或 Hugging Face Spaces,使已有的演示和工具能够作为工作流组件复用。FnNode 用于封装任意 Python 函数,方便插入自定义的预处理或后处理逻辑。InferenceNode 则用于对接通过 Hugging Face Inference Providers 提供的模型服务,使托管模型能够无需额外适配即可集成进工作流。

 

其中一个关键特性是状态持久化。Daggr 会自动保存工作流状态、缓存结果、输入值以及画布布局,使开发者可以在不中断上下文的情况下暂停和恢复工作。单个节点也可以在修改输入后单独重新运行,这在调试长流水线或对比某一步的不同实现方案时尤其有用。

 

由于 Daggr 由 Gradio 团队开发,它与 Gradio 生态系统实现了紧密集成。工作流既可以在本地启动,并通过浏览器访问可视化画布,也可以利用 Gradio 的隧道功能通过公共链接进行分享。对于需要长期运行的场景,同样的工作流还可以通过将 Daggr 作为依赖,部署到 Hugging Face Spaces 上。

 

开发者的早期反馈主要集中在编程式控制与可视化反馈相结合这一点上。Sebastian Buzdugan 在评论该发布时写道

把接口和 Gradio 混在一起用,真的是一个非常聪明的组合。

 

也有其他用户指出,Daggr 在快速实验和原型验证方面尤其有价值。

 

Daggr 目前是一个轻量级、实验性质的项目,仍处于 beta 阶段。随着用户的使用,其 API 可能会发生变化。尽管工作流状态是存储在本地的,但更新过程中仍可能导致数据丢失,这也进一步表明它的定位更偏向于开发和原型工具,而非直接用于生产环境的解决方案。

 

Daggr 现已作为开源 Python 包发布,支持 Python 3.10 及以上版本,可通过 pip 或 uv 进行安装。其源代码、示例和文档已发布在GitHub上,团队也邀请社区在项目逐步成熟的过程中提供反馈并参与贡献。

原文链接:

https://www.infoq.com/news/2026/02/daggr-open-source/

Google 近期针对 BigQuery 推出了面向开源模型的第三方生成式 AI 推理功能。这一更新允许数据团队直接使用简单的 SQL 语句,部署并运行来自 Hugging Face 或 Vertex AI Model Garden 的任何模型。该接口目前处于预览阶段,其最大的亮点在于消除了对独立机器学习(ML)基础设施的需求,系统会自动启动计算资源、管理端点,并在任务完成后通过 BigQuery 的 SQL 接口自动清理资源。

这项新功能解决了困扰数据团队已久的痛点。在过去,运行开源模型往往意味着需要管理 Kubernetes 集群、配置端点以及在多种工具之间反复切换。Virinchi T 在一篇关于此次发布的 Medium 文章中指出:

这一过程需要多种工具协同、不同的技能储备以及巨大的运维开销。对于许多数据团队来说,这种摩擦意味着即便模型本身是免费且公开的,AI 能力依然显得遥不可及。

然而,得益于 BigQuery 的 SQL 接口,整个工作流现在被简化为仅需两条 SQL 语句。用户首先通过一条 CREATE MODEL 语句来创建模型,只需指定 Hugging Face 的模型 ID(例如 sentence-transformers/all-MiniLM-L6-v2)或 Vertex AI Model Garden 中的模型名称。BigQuery 会根据默认配置自动分配计算资源,部署过程通常在 3 到 10 分钟内即可完成,具体时长取决于模型大小。

部署完成后,用户可以使用 AI.GENERATE_TEXT(针对语言模型)或 AI.GENERATE_EMBEDDING(针对嵌入模型)直接对 BigQuery 表中的数据进行推理查询。平台通过 endpoint_idle_ttl 选项管理资源的生命周期,该功能会自动关闭闲置端点以节省费用。此外,在批处理任务结束后,用户还可以通过 ALTER MODEL 语句手动卸载端点。

为了满足生产环境的需求,该功能还支持高度定制化。用户可以直接在 CREATE MODEL 语句中设定机器类型、副本数量以及端点闲置时间。通过 Compute Engine 预留功能,还可以锁定 GPU 实例以确保性能稳定。当不再需要某个模型时,只需执行一条简单的 DROP MODEL 语句,系统便会自动清理所有关联的 Vertex AI 资源。

Google 在官方博客中将该系统描述为提供“精细的资源控制”和“自动化的资源管理”,旨在让团队在不脱离 SQL 环境的情况下,找到性能与成本之间的最佳平衡点。2025 年 9 月发布的一篇早期博客曾展示,利用类似的开源嵌入模型处理 3800 万行数据,成本仅需约 2 到 3 美元。

目前,该功能已支持超过 1.3 万个 Hugging Face 文本嵌入模型和超过 17 万个文本生成模型,涵盖了 Meta 的 Llama 系列和 Google 的 Gemma 家族。需要注意的是,所选模型必须符合 Vertex AI Model Garden 的部署要求,包括区域可用性和配额限制。

Virinchi T 强调了这一变革对不同角色的意义:

对于数据分析师而言,你现在可以无需离开 SQL 环境,也不必等待工程资源支持,就能直接实验 ML 模型。对于数据工程师而言,构建由机器学习驱动的数据管道变得极其简单,再也不用维护独立的 ML 基础设施。

此次发布标志着 BigQuery 将与 Snowflake 的 Cortex AI 以及 Databricks 的 Model Serving 展开直接竞争,后两者同样提供基于 SQL 的 ML 推理能力。而 BigQuery 的竞争优势可能在于其与 Hugging Face 庞大模型库在数据仓库内的深度集成,这对于已经在 Google Cloud 上运行业务的用户具有极强的吸引力。

目前,关于 Gemma 模型的文本生成以及嵌入生成的相关文档和教程已正式上线。

原文链接:

https://www.infoq.com/news/2026/01/bigquery-sql-huggingface-managed/

编辑:元宇 好困

【新智元导读】大模型能写代码、聊八卦,但敢不敢让它直接接管网络运维?一项最新评测显示,面对真实网络故障,头部模型平均准确率竟不足50%!为此,GSMA联手全球巨头开启「地狱级」难度挑战赛,通往MWC 2026的门票已备好,3.5万欧元大奖等你来拿!

大模型的效用价值正处在从「做试卷」向「干实活」转变的深刻变革期。

当业界目光从聊天机器人(Chatbot)转向智能体(Agent),在现实网络作业的复杂场景下,现有的大模型表现与其在基准Benchmark的表现大相径庭。

GSMA(全球移动通信系统协会)连同ITU、ETSI、IEEE、TM Forum等电信行业权威组织,正式发起AI Telco Troubleshooting Challenge(全球电信AI故障排查挑战赛)。

这种跨标准组织、跨地域的合作极其罕见,彰显了该赛事的权威性。

这是一场迈向网络智能体的终极实验。

截至当前,该项赛事已吸引来自全球超过1000+支队伍参赛,受到产学研各界的广泛关注。

智能体能力的提升,已成为大模型在垂直领域大规模应用的关键赛点。

全球精英同台竞技,你准备好了吗?

为什么这可能是今年最「硬核」的AI赛事

范式跃迁

从「懂行」到「能干」的跨越

电信行业是人类历史上构建的最为复杂的工程系统之一。

现代通信网络涉及从无线接入网、传输网到核心网的端到端协同,包含数以万计的配置参数、毫秒级的信令交互以及海量的多模态日志数据。

长期以来,运营商一直致力于通过自动化技术降低运维成本,提升网络韧性。

具备强大推理与代码生成能力的大语言模型,被视为解决这一困境的银弹。

理论上,LLM可以阅读数百万页的技术标准(3GPP、ETSI等),理解复杂的网络拓扑,甚至像资深工程师一样进行故障排查。

然而,现实与理想之间存在着巨大的「准确性鸿沟」。

随着AI向垂直领域纵深发展,电信行业正经历从网络优化到客户服务的全方位智能化转型。

尽管全球运营商已斥资数十亿美元进军AI,但至今未出现一款「一骑绝尘」的杀手级应用。

原因在于电信领域的高门槛与低容错

  • 知识壁垒:模型需理解复杂的协议原理、计费结构、网络切片及拥塞控制。
  • 风险极高:一个错误的配置指令,可能导致地区级网络瘫痪。

此前网络领域的相关评测往往聚焦于静态问答,忽略了智能体在真实网络环境中的表现。

本次挑战赛旨在打破这一瓶颈,依托GSMA Open-Telco LLM Benchmarks,寻找真正能「读取日志、分析原因、生成配置、下发指令、修复网络」的自主智能体

权威标尺

GSMA Open-Telco Benchmarks

本次大赛的底座——GSMA Open-Telco LLM Benchmarks,是由GSMA Foundry发起,AT&T、中国电信、Deutsche Telekom、Orange、Telefonica、Vodafone等全球顶级运营商,以及华为、Hugging Face、哈利法大学(Khalifa University)等技术伙伴共同构建的产业级大模型评价基准。

其目标是建立一个透明、开源、反映真实网络运营挑战的评估框架

它经历了两大阶段的迭代:

1.0阶段(Proof of Concept)

集中在通用的电信知识问答上的通用能力。

验证通用大模型在电信行业的独特需求下的满足度,即在高度专业化的工业场景中,通用推理能力无法替代领域知识。

2.0阶段(Operational Realism)

引入了更为严苛和务实的评估标准,来自12家运营商贡献了多个具体的真实用例,涵盖了从RAN优化、网络预测到客户支持的八大战略领域。

不仅关注模型「懂不懂知识」,更关注模型「能不能干活」,即在网络故障定位、通信协议分析、网络配置生成等生产环节的表现。

这是目前行业内最透明、开源、反映真实网络运营挑战的评估框架。

丰厚激励

决战MWC 2026

赛程与赛制

本次挑战赛官方提供算力资源供参赛队伍部署训练模型,并挑选不同参数规模的模型以适配未来在端侧和云端不同的消费需求。

挑战赛问题包含了网络故障定位和网络运维任务,为满足运营商降低网络故障(无论是硬件故障还是软件配置错误)的运营成本诉求,参赛者需要通过微调构建电信领域专有模型,从而在网络故障根因作业中辅助网络工程师。

然而,构建能够泛化到未知故障、新的数据分布和全新的网络环境,同时还能在资源受限的边缘服务器上高效运行的模型,仍然是一个巨大的挑战。

根据使用的基座模型区别,参赛者将在以下三个赛道中展开角逐,每类产生一支冠军队伍:

  • 最佳云模型(LLM):挑战大规模参数模型在复杂逻辑下的推理极限。
  • 最佳边缘模型(SLM):探索轻量化模型在边缘侧的高效部署与决策。
  • 最佳推理模型:聚焦故障定位、告警分析与自动化修复的准确性。

获胜者不仅能获得丰厚的现金奖励,更将获得全球顶级的展示舞台:

  • 现金大奖瓜分3.5万欧元(约合人民币27万元)奖金池。
  • 直通巴塞罗那:获奖团队代表将获得全额资助(机票+住宿),前往MWC Barcelona 2026(世界移动通信大会)现场领奖!在全球数十万行业精英面前展示你的方案。
  • 顶会加持:冠军方案有机会被推荐至IEEE ICMLCN 2026(阿布扎比)发表,科研KPI直接拉满。
  • 全球曝光:获胜模型将登顶Hugging Face的GSMA Benchmark榜单,获得ITU「AI for Good」项目的官方认证。

5G路测日志故障定位

该任务数据集使用GSMA Open Telco Benchmark 2.0中未公开的TeleLogs特定竞赛版本,通过两阶段分别发布竞赛题,防止早期过拟合。

大模型需要在真实的5G路测日志、工参等信息中,定位配置错误或网络问题,重点考察其在电信推理任务-网络故障根因分析的基础能力,需要模型具备「物理世界的直觉」。

赛题设置:

通过两阶段分开分布赛题,支撑对作品模型的泛化性能力评估,预防过拟合结果:

第一阶段:该阶段公布一部分比赛用例,支撑参赛人员研究并查看初步结果;

第二阶段:剩余问题将于挑战截止日期前两周公布,综合评估在更广泛网络问题中模型推理能力。

核心评估指标:

Pass@1:衡量模型在单次尝试中得出正确答案的能力。其计算方法是分别评估生成的4个答案,然后对所有样本的正确率取平均值;

综合能力评估:未预防模型在专有任务的过拟合,模型的最终评估将在涵盖保持通用知识准确性的能力。即判分评测集将包含网络故障数据(与公开案例不同的数据分布)以及通用知识问题。

⚠️难度预警:

在最新的海外厂商测试中,Agent类挑战任务使用闭源模型的最好表现不足50%,这意味着,目前的通用大模型距离成为「可靠的网络工程师」,仍有很长的路要走。

One More Thing

Agent挑战赛即将开启

除了面向网络故障的定位任务,GSMA AI挑战赛的下一跳为限时条件下的智能体任务。

在网络运维场景中,通过深度模拟高度还原的企业级数据中心组网环境,竞赛系统会通过动态注入技术,随机产生异常波动与突发故障,模拟出真实生产环境中的各种不确定性。

开发者可以通过训练模型、设计并实现智能体完成真实网络运维业务场景的关键难题,系统将针对每类问题生成独立的任务环境,涵盖多家网络服务厂商的真实问题分布,最终以步骤级推理和最终结果进行打分,深度评估Agent在应对复杂网络问题时的逻辑推理能力与自动化处置效能。

而将Agent置于复杂的拓扑结构与动态流量之中,这种全链路、高压力的场景设定,旨在使参赛智能体需像资深运维专家一样,不仅要理解深厚的网络协议知识,更要在海量告警的干扰下精准完成告警相关性分析,并迅速给出网络还原策略,即自主完成网络还原、故障定位与修复。

在效能考核上,竞赛制定了「准确性(Correctness)」与「速度(Speed)」并重的双重评价体系,旨在深度挖掘Agent在复杂网络环境下发现并修复故障的实战潜力。

相关任务敬请期待~

重构运营模式

构建「网络生命体」

AI Telco Troubleshooting Challenge系列赛事不仅是一场技术竞赛,更是电信运营模式重构的开始。

电信领域的AGI愿景,是构建一个能够自我感知、自我决策、乃至自我进化的「网络生命体」。

构建电信领域专用评测基准不仅是技术发展的必然要求,更是推动产业智能化升级的战略支点,为破解垂直领域AI评估难题提供了可复制的范式。

本次挑战赛预示着电信运营模式的根本性重构,降低风险并加速人工智能在电信行业的应用,形成「技术-场景-商业」闭环,实现AI从「可用」到「可信」的质变,推动「工程师」角色的深刻变革。

立即报名

挑战SOTA

无论你是来自高校的科研狂人,还是大厂的算法大神,这场「电信界的究极挑战」都不容错过。

立即访问官网报名
https://telcoai-competition.b...

截止时间以官网公布信息为准。

最新挑战赛的详细安排也将在大赛官网陆续更新,敬请期待!

时光奔流,我们即将与 2025 年挥手作别。感谢这一路上,每一位伙伴的并肩前行与坚定支持。

今年,美团技术团队在持续深耕中涌现出不少值得分享的实践与开源产品&服务。我们从中精选了18篇具有代表性的技术文章,内容涵盖大模型开源、研发技能、产品服务三大方向。值得一提的是,美团 LongCat 团队今年在大模型开源领域成果显著,陆续发布了涵盖基座模型、图像、视频、语音等多个方向的开源产品与工具,期望能够持续推动AI技术分享与生态共建。

希望这些开源的大模型产品、服务及凝结一线技术实战经验的内容,能为大家带来启发和帮助,陪伴同学们在技术前行的道路上扎实成长。愿我们在新年里,继续向下扎根、向上生长,迎着光,奔赴更高、更远的山海。2026,期待继续同行!

大模型开源

01 | 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

9月初,美团正式发布并开源 LongCat-Flash-Chat。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

根据多项基准测试综合评估,作为一款非思考型基础模型,LongCat-Flash-Chat 在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。并且,因为面向推理效率的设计和创新,LongCat-Flash-Chat 具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。

目前,已在 Github、Hugging Face 平台同步开源,同时你也可以访问官网 https://longcat.ai/,与 LongCat-Flash-Chat 开启对话。(阅读全文

开源地址Hugging Face | Github

02 | LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

9月,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平。

同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上, LongCat-Flash-Thinking 具备更显著的优势。目前, 该模型已在HuggingFace、Github全面开源。(阅读全文

开源地址Hugging Face | Github

03 | LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

要让人工智能真正理解、预测甚至重构真实世界,“世界模型”(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

基于这一关键目标,10月,美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。

作为一款视频生成模型,LongCat-Video 凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。(阅读全文

开源地址GitHub | Hugging Face | Project Page

04 | LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代

11月,LongCat-Flash-Omni 正式发布并开源。LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源先进水平,同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。模型已同步开源,欢迎体验。(阅读全文

开源地址Hugging Face | Github

05 | 美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 “听不懂” 语音,车载助手 “说” 得像机器人,实时翻译延迟卡半秒。深究根源,全在 “语音 Token 化”:作为拆分语音为 Speech LLM “离散单元” 的关键步骤,传统方案始终没平衡好 —— 要么缺语义、要么丢声学、要么延迟高,刚好卡了 Speech LLM 落地的 “死结”。

针对 Speech LLM 落地中的音频处理难题,11月,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实现突破。(阅读全文

开源地址Github | Hugging Face

06 | 美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA

12月初,美团发布 LongCat-Image 图像生成模型。当前 AI 图像生成技术需求旺盛,但行业陷入 “两难困境”:闭源大模型性能强劲但无法自行部署或二次定制开发,开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点,制约商业创作与技术普惠。

为此,美团 LongCat 团队正式发布并开源 LongCat-Image 模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以 6B 参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了 “高性能、低门槛、全开放” 的全新选择。(阅读全文

开源地址Hugging Face | GitHub

07 | 美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现

今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使用。10月底,LongCat 团队开源了 LongCat-Video 视频生成模型,尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上,LongCat 团队针对实际场景中的核心痛点持续优化,12月正式发布并开源 SOTA 级虚拟人视频生成模型 —— LongCat-Video-Avatar。

该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。(阅读全文

开源地址GitHub | Hugging Face | Project

研发技能

08 | MTGR:美团外卖生成式推荐Scaling Law落地实践

美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近2年迭代最大收益,且于2025年4月底在外卖推荐场景全量。本文系相关工作的实践与经验总结,希望能给从事相关方向研究的同学带来一些帮助。(阅读全文

09 | JDK高版本特性总结与ZGC实践

美团信息安全技术团队核心服务升级JDK 17后,性能与稳定性大幅提升,机器成本降低了10%。高版本JDK与ZGC技术令人惊艳,且Java AI SDK最低支持JDK 17。本文总结了JDK 17的主要特性,然后重点分享了JDK 17+ZGC在安全领域的一些实践,希望能对大家有所帮助或启发。(阅读全文

10 | 鸿蒙应用签名实操及机制探究

华为鸿蒙单框架操作系统HarmonyOS NEXT已于2024年10月23日正式发布Release版。HarmonyOSNEXT仅支持鸿蒙原生应用,不再兼容安卓。本文对鸿蒙公开资料进行了深入分析和解读,梳理了鸿蒙单框架应用的签名机制,拆解每一步的实操过程和背后的实现原理,并对源码分析整理签名的校验机制。从中管中窥豹,探究鸿蒙系统的安全设计思路,给从事鸿蒙研发的同学提供一些借鉴。(阅读全文

11 | 预测技术在美团弹性伸缩场景的探索与应用

管理企业大规模服务的弹性伸缩场景中,往往会面临着两个挑战:第一个挑战是精准的负载预测,由于应用实例的启动需要一定预热时间,被动响应式伸缩会在一段时间内影响服务质量;第二个挑战是高效的资源分配,即在保障服务质量的同时控制资源成本。为了解决这些挑战,美团与中国人民大学信息学院柴云鹏教授团队展开了“预测技术在弹性伸缩场景的应用”科研合作,相关论文《PASS: Predictive Auto-Scaling System for Large-scale Enterprise Web Applications》在具有国际影响力的会议The Web Conference 2024(CCF-A类会议)上作为Research Full Paper发表。(阅读全文

12 | 从0到1建设美团数据库容量评估系统

美团数据库团队推出了数据库容量评估系统,旨在解决数据库容量评估与变更风险防控等领域难题。本文介绍了系统架构和主要功能:系统使用线上流量在沙盒环境回放验证变更安全,结合倍速回放技术探测集群性能瓶颈,构建容量运营体系实现集群容量观测与治理闭环。系统具备数据操作安全、结果真实可靠、灵活高效赋能等特点,有效提升数据库稳定性与资源利用率。(阅读全文

13 | AI Coding与单元测试的协同进化:从验证到驱动

AI生成代码质量难以把控!本文分享来自美团的技术实践,三大策略破解AI编程痛点。单测快速验证逻辑正确性,安全网保护存量代码演进,TDD模式精准传递需求。告别「看起来没问题」的错觉,构建AI时代的代码质量保障体系。(阅读全文

14 | LongCat-Flash:如何使用SGLang部署美团Agentic模型

SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化,并产出了一篇技术博客《LongCat-Flash: Deploying Meituan’s Agentic Model with SGLang》,文章发表后,得到了很多技术同学的认可,因此我们将原文翻译出来,并添加了一些背景知识,希望更多同学能够从LongCat-Flash的系统优化中获益。(阅读全文

15 | 可信实验白皮书系列:从0到1的方法论与实践指南

增长与优化是企业永恒的主题。面对未知的策略价值,数据驱动的AB实验已经成为互联网企业在策略验证、产品迭代、算法优化、风险控制等方向必备的工具。越来越多的岗位,如数据科学家、算法工程师、产品经理以及运营人员等,要求候选人了解AB实验相关知识。然而,许多从业者由于缺乏有效的学习渠道,对AB实验的理解仍停留在初级阶段,甚至存在一些误解。我们希望通过系统性地分享和交流AB实验的理论基础、基本流程、核心要素及其应用优势,能够帮助更多相关人员深入了解实验,提升实验文化的普及度,最终辅助企业在更多领域做出精确数据驱动决策。

除了广泛传播实验文化外,该白皮书在深度上也可给实验研究人员,提供复杂业务制约下进行可信实验设计与科学分析评估的参考经验和启发。从美团履约技术团队、美团外卖业务的实践来看,实验者常常面临多种复杂的实验制约和难题,例如,在美团履约业务中,实验往往需要应对小样本、溢出效应(即实验单元间互相干扰)以及避免引发公平性风险等多重约束,需设计科学复杂的实验方案以克服相应挑战。通过撰写白皮书,我们系统性地总结和分享应对复杂实验约束的研究经验,进而能够促进实验技术的传播与升级,推动实验科学持续进步。

本白皮书以AB实验为中心,涵盖AB实验概述与价值、实验方法基础原理与案例剖析以及配套SDK代码分析等,内容丰富且易于理解和应用。适合从事AB实验研究的数据科学家、系统开发人员,以及需要实验驱动策略决策的业务和产研团队,同时也适合对数据驱动增长和数据科学等领域感兴趣的读者。(阅读全文

产品服务

16 | 无需代码!美团 NoCode 像聊天一样轻松搭建你的专属网站

这是一款由美团技术团队打造的 AI 编程类产品——NoCode,可以像聊天一样轻松搭建你的专属网站、游戏、各种小工具等等,当然还有更多的隐藏功能等你发现,文末我们还准备了2项互动奖励,期待跟大家一起,开启全新的 AI 编程之旅。(阅读全文

17 | 美团首款 AI IDE 产品 CatPaw 开启公测

Meituan CatPaw (以下统一使用“CatPaw”)是美团推出的 AI IDE,以 Agent & 人协作为核心,通过 Agent 智能驱动编程,辅以代码补全、项目预览调试等功能,结合美团自研的基于编程场景特训的 LongCat 模型,并支持多种模型混合调用,让编码过程更专注,项目交付更高效!

CatPaw 早在 2023 年就在美团内部以编辑器插件形态正式上线,此次完成全新升级后进行公开测试。目前在美团内部研发渗透率超 95%,增量代码 AI 生成率超 50%。(阅读全文

18 | 美团 LongCat 上线 AI 生图!精准高效,AI 创作不设限

美团 LongCat 全新上线 AI 生图功能,该功能基于LongCat系列模型「LongCat-Image」打造而成。不仅在文生图任务中实现了“快、真、准” :出图快速响应、达到摄影棚拍摄质感、中文渲染精准度高;更在图像编辑任务上做到了精准便捷,无需复杂指令,可以用自然语言对图像进行二次编辑。

无论是追求高效出图的普通用户,还是需要精准落地创意的专业创作者,LongCat 都以 “轻量化模型 + 流畅体验” ,让 AI 生图真正成为人人可用的创作工具。目前,AI 生图功能已在LongCat APP和 https://longcat.ai/ 同步上线,轻松解锁高效创作新方式。(阅读全文

0x01 研究背景

在自回归生成模型(Autoregressive Model)中,LLM每生成一个新token,都会将此前生成的序列作为输入。若每一步都重新计算全部注意力(Q、K、V 矩阵),计算量将随序列长度平方级增长。在长上下文和高并发场景下,这一开销会迅速成为系统瓶颈。为此,主流推理框架普遍引入KV-Cache技术。 KV-Cache通过缓存此前token的Key(K)和Value(V)向量,在下一步生成时只需计算新的Query(Q),即可直接复用前面的K/V,从而显著降低重复计算量。实践中,KV-Cache 通常能在保持模型精度不变的前提下,带来约5-8倍的推理加速。这一机制已经成为vLLM、SGLang、DeepSpeed-Inference等高性能推理引擎,以及Hugging Face generate(use_cache=True)接口的默认能力。

随着2024–2025年多租户推理服务(如vLLM、SGLang、TensorRT-LLM)的大规模部署,系统在单模型、多租户共享的前提下,又进一步引入跨请求的前缀缓存共享(prefix caching)。当不同请求的prompt存在相同前缀时,系统可以直接复用已有KV-Cache,大幅摊薄Prefill成本并提升吞吐。然而,当这种共享与复用机制扩展到多租户并发环境时,KV-Cache不再只是一个“性能优化组件”,而是演变成新的攻击面:攻击者可以通过观测Prefill 时间、TTFT等性能差异发起时序侧信道攻击,通过篡改缓存内容实施History Swapping(生成轨迹劫持),或者通过对Key向量注入扰动发动Cache Corruption(缓存腐败),从而导致跨租户信息泄露、话题漂移甚至下游任务性能显著下降。

0x02 KV缓存工作机制与共享复用原理

下面是KV-Cache工作原理的示意图。

KV-Cache工作原理

KV-Cache工作原理图

接下来我们用文字详细拆解,更深入了解KV缓存工作机制。

2.1 两阶段推理:Prefill与Decode

KV-Cache的核心做法分为两阶段。

(1)Prefill阶段(Prompt阶段)一次性计算输入序列的K/V并写入缓存 模型读取完整输入的prompt,计算出所有token的Key/Value向量并写入缓存。 公式表示为:

image-20251229205745845

此时缓存中的K/V向量构成了后续生成阶段的基础。

(2)Decode阶段(生成阶段)仅对新token计算Q/K/V,并复用历史K/V完成注意力计算 当模型生成新token时,仅需计算该token对应的Q、K、V向量。

image-20251229205757073

然后与缓存中已有的K/V拼接,直接完成注意力计算。这样便避免了重复计算前面N−1个token的注意力结果。

2.2 past_key_values

在Hugging Face Transformers框架中,KV-Cache在接口层面通过 past_key_values 对象实现。该对象并非一个抽象的控制开关,而是模型前向推理过程中实际生成、并可跨生成步骤复用的中间状态。它以分层的结构保存已处理历史Token的Key和Value张量,从而支撑自回归生成的增量计算。

从结构上看,past_key_values通常是一个长度为模型层数的列表或元组,其中每一层对应一对 (K, V)张量。不同模型的具体维度布局可能存在差异,但其核心语义一致:存储历史序列的注意力键值表示,以便后续生成时直接复用。

在推理流程中,Prefill 阶段会对完整的提示词进行计算,并首次生成past_key_values。进入Decode阶段后,若将此缓存作为输入传递给模型,模型通常只需为新输入的Token计算其对应的Key和Value,并将其追加至现有缓存末尾,从而避免了历史部分的重复计算。这种基于past_key_values的复用是框架的原生机制,其带来的加速直接源于注意力计算的真实削减,因此更适合作为评估系统性能及分析相关安全影响的工程基准。相比之下,通过sleep()或人为插桩制造“快慢差异”的方法仅能模拟现象,难以反映实际推理系统的缓存行为。此外,Transformers框架的generate()接口通常通过参数use_cache=True来启用此缓存机制。vLLM、SGLang、DeepSpeed-Inference在系统层面也普遍实现了类似机制,以降低生成延迟并提升吞吐量。

2.3 多租户场景下的前缀缓存与最长前缀匹配

在多请求并发且显存资源受限的推理服务中,为提升吞吐并降低重复的Prefill开销,系统常采用前缀缓存策略。其核心思想是当新请求的提示词(更准确地说是其Token序列)与某条已缓存的序列存在前缀重合时,系统可直接复用该前缀部分对应的KV-Cache,仅需对未命中的后续Token执行增量计算。

当缓存池中存在多个可能的候选前缀时,命中判定通常遵循最长前缀匹配(LPM)原则:在所有缓存条目中,系统会选择与新请求Token序列匹配长度最长的那一条作为复用对象,以最大化缓存利用率,减少重复计算。在工程实现上,这依赖于能够高效进行Token序列前缀匹配的数据结构或索引机制,例如前缀树(Trie)、基于前N个Token的分层哈希,或基于序列哈希值的多级索引。

根据匹配程度,命中效果可分为两类:一是完全命中,即请求的绝大部分或全部前缀已在缓存中,Prefill阶段的计算量显著下降;二是部分命中,即仅能复用较短的前缀,系统仍需对剩余后缀执行完整的Prefill计算。无论是“是否命中”还是“命中长度”,都会直接反映在可观测的系统性能指标上,例如Prefill时间、首Token延迟的分布等。

当前主流引擎(如vLLM的PagedAttention、LMCache)进一步通过分页管理和压缩技术缓解显存碎片,但前缀共享引入的侧信道与内存安全风险依然突出,这也是后续攻击面的根源。

0x03 KV-Cache的主要攻击面原理介绍

在理解KV-Cache的核心优化机制与共享原理后,我们可以看到其高效性背后隐藏的脆弱性。下面详解三大主要攻击面:时序侧信道攻击、操纵攻击与腐败攻击。

3.1 KV-Cache时序侧信道攻击

在共享KV-Cache的系统中,攻击者通过测量响应时间或请求处理顺序,推断缓存是否命中(hit),从而还原其他用户的Prompt(提示词)。

image-20251028173225854

时序侧信道攻击完流程图

设定还原的语句是"Imagine you are an IT expert",攻击者已经成功还原出"Imagine you are",并尝试还原下一个token "an"。下面我们根据上图分步骤拆解一下攻击过程。

步骤1:Generate candidates

攻击者在本地用小模型、模板或启发式方法生成可能的下一个token候选集合,例如:

  • Imagine you are an
  • Imagine you are a
  • Imagine you are the

把未知的victim prompt逐步转化为一系列候选前缀/后缀,便于后续probe。优点是减少搜索空间。


步骤2:Generate dummy

  • Candidate请求:每个请求包含一个候选后缀(比如Imagine you are an)。目标是看哪一个candidate与victim的缓存前缀最长匹配而“命中”缓存。
  • Dummy请求:随机或不相关的prompt(用来制造队列/填充调度槽位),以便控制调度顺序或避免直接暴露自己的probe请求导致缓存污染判断混淆。

步骤3:Send three request batches in turn

攻击者按这个顺序把三组请求发到服务器(可能是同一API key,也可能跨多个短时间窗口发出)。核心就是在调度队列里把candidate放在中间,观察它是否因为缓存命中而更快返回。

步骤4:Observe the returning order

攻击者记录三批请求的返回顺序和时间(TTFT/latency)。若candidate的响应比其前后的dummy显著更快或优先到达,就可推断该candidate是命中了缓存(即victim的prompt与该candidate共享较长前缀)。

3.2 History Swapping 攻击

image-20251230101845847

History Swapping操纵攻击原理图

攻击者通过结构化替换或注入KV-Cache内容,来“劫持”模型的生成轨迹,强制引导输出转向攻击者指定的主题或行为。这种攻击利用KV-Cache编码了不仅仅是上下文,还包括话题规划(topic trajectory)和结构化推理(structural planning)的特性。

设定攻击场景:受害者Prompt为“Give a precise technical explanation of espresso extraction variables”(讨论咖啡萃取),攻击者希望劫持输出到恒星生命周期主题。用户可见Prompt不变。

步骤1: 预生成目标主题KV-Cache

攻击者离线使用相同模型,基于目标主题Prompt生成一段完整KV-Cache块(topic_cache)。

步骤2: 启动正常生成并等待替换点

从受害者Prompt开始自回归生成,监控已生成token数,直到达到预设swap_token(例如序列的20%-60%处)。

步骤3: 执行块级覆盖替换

计算替换段长度(swap_percent,如25%-75%最近timestep),在全层(或指定早/晚层)用topic_cache对应部分直接覆盖当前缓存。

步骤4: 继续生成并观察劫持

模型基于篡改缓存继续输出。常见效果:立即/延迟主题偏移、原主题与攻击主题交替、或生成重复崩溃。

3.3 KV-Cache 腐败攻击

image-20251230101806716

KV-Cache腐败攻击原理图

攻击者通过向KV-Cache注入扰动(perturbation),破坏注意力机制的完整性,导致输出偏差、性能下降或幻觉增加。这种攻击视KV-Cache为“内存腐败”类似漏洞,扰动键向量(Key vectors)即可放大影响。

设定攻击场景:在正常生成或RAG任务中,攻击者向KV-Cache的Key向量注入扰动,导致注意力偏差、性能下降或幻觉增加。

步骤1: 选择目标层与时机

确定最脆弱层(通常中层,如LLaMA-2第12层)和扰动应用频率(连续或间歇)。

步骤2: 选择扰动变体

  • MTI-Gaussian:添加高斯噪声(σ=0.1-5.0)
  • MTI-Zeroing:概率置零Key条目
  • MTI-Rotation:施加正交旋转(15°-90°)
  • 可结合梯度优化以最大化目标影响

步骤3: 注入扰动到Key向量

在生成过程中,按选定策略对Key向量应用扰动δ。

步骤4: 观察输出效果

监控下一token分布偏移(KL散度上升)、下游任务性能下降15–30%、或RAG幻觉率增加5%-12%。中层扰动放大效果最显著。

0x04 代码实现

测试为纯CPU环境下完成,基于Python3.8+的Hugging Face Transformers与PyTorch运行124M参数的gpt2模型。

4.1 KV-Cache时序侧信道攻击

实验1:基础缓存时序测量

验证KV-Cache复用是否产生物理上可观测的时间差异。

我们实现了一个多租户LLM服务的 KVServer 类,支持:

  1. 最长前缀匹配 (LPM):实现类似vLLM的Prefix Caching
  2. 精确计时:仅测量Prefill阶段的KV 计算,排除tokenization开销
  3. 缓存管理:LRU淘汰策略

核心实现

@dataclass
class _CacheEnt:
    """KV-Cache 条目"""
    prompt: str
    input_ids: torch.Tensor
    past_kv: Tuple
    ts: float

class KVServer:
    """多租户KV-Cache服务器"""

    def _lpm(self, q_ids: torch.Tensor):
        """Longest Prefix Match - 缓存必须是查询的前缀"""
        best = None
        best_len = 0

        for cached, ent in self._cache.items():
            c_ids = ent.input_ids[0].tolist()
            q = q_ids[0].tolist()

            # 计算共同前缀长度
            mlen = 0
            for i, (a, b) in enumerate(zip(c_ids, q)):
                if a == b:
                    mlen = i + 1
                else:
                    break

            # 缓存有效条件:缓存是查询的前缀(mlen == len(cached))
            if mlen > best_len and mlen == len(c_ids) and len(c_ids) <= len(q):
                best = ent
                best_len = mlen

        return (best, best_len) if best else None

    def process(self, prompt: str, max_new=1, uid="anon", write_cache=True):
        """处理请求,返回详细的时序数据"""
        input_ids = self.tok.encode(prompt, return_tensors="pt")
        t0 = time.perf_counter()

        cache_r = self._lpm(input_ids)

        with torch.no_grad():
            if cache_r:
                # 缓存命中路径:复用past_key_values
                ent, matched = cache_r
                self._hits += 1

                if input_ids.shape[1] > matched:
                    # 部分匹配:计算增量部分
                    delta_ids = input_ids[:, matched:]
                    out = self.model(
                        delta_ids,
                        past_key_values=ent.past_kv,
                        use_cache=True
                    )
                    past_kv = out.past_key_values
                else:
                    # 完全命中:直接复用
                    past_kv = ent.past_kv

                prefill_t = (time.perf_counter() - t0) * 1000
                hit = True
            else:
                # 缓存未命中路径:完整前向传播
                self._miss += 1
                out = self.model(input_ids, use_cache=True)
                past_kv = out.past_key_values
                prefill_t = (time.perf_counter() - t0) * 1000
                hit = False

        # ... 生成阶段与缓存写回

运行结果

可以看到上面第一次请求Prefill用了大约380ms,这是模型执行完整前向传播的时间。对于GPT-2,这意味着要进行12层TransformerBlock的矩阵乘法运算。

然后当二次请求完全相同的时候Prefill仅仅为0.024ms ,几乎就只有内存操作时间。这个原因是因为past_key_values已存在,模型跳过了所有Attention层的Q×KT​计算,仅需简单的张量拼接。

实验2:prompt探测攻击

为了验证攻击者能否通过时序差异识别受害者的Prompt

核心代码:

def experiment_2_exact_match_attack():
    # 步骤1: 受害者缓存敏感Prompt
    victim_prompts = [
        "My secret password is hunter2",
        "My API key is sk-1234567890abcdef",
    ]

    for prompt in victim_prompts:
        server.process(prompt, uid="victim", write_cache=True)

    # 步骤2: 攻击者构造候选列表
    candidates = [
        "My secret password is hunter2",      # ✓ 匹配
        "My secret password is wrong",        # ✗ 不匹配
        "My secret code is hunter2",          # ✗ 不匹配
        "My API key is sk-1234567890abcdef",  # ✓ 匹配
        "My API key is sk-wrong-key",         # ✗ 不匹配
    ]

    # 步骤3: 逐个探测
    discovered = []
    for cand in candidates:
        r = server.process(cand, uid="attacker", write_cache=False)
        t = r['prefill_ms']

        if t < 1.0:  # 阈值判定
            discovered.append((cand, t))

    return discovered

运行结果

image-20251230222154860

我们可以从上面实验结果看到当探测内容与缓存完全一致时,模型无需任何计算,直接返回缓存指针。时间差异非常大。

我们可以从攻击者视角的视角来看到这件事:

1.攻击者构造"密码候选列表"(类似字典攻击),逐个探测。

2.只要有一个候选的响应时间<1ms,攻击者就能推断出被攻击者的完整prompt。

攻击简易流程图如下。

1

4.2 History Swapping攻击

实验目标:在不改变用户可见Prompt的情况下,通过替换推理过程中的past_key_values片段,把模型输出从“受害者话题”劫持到“攻击者话题”。

  • 受害者请求:正常的业务问题(例如“如何制作咖啡”)。
  • 攻击者能力


    • 能在同一推理进程/同一GPU的Worker内“写入或污染”共享的KV-Cache(例如:推理引擎实现了前缀缓存复用、调度/缓存对象复用存在隔离缺陷、或插件/监控/扩展组件可触达缓存对象)。
    • 攻击者提前离线生成一段目标主题的K-Cache。
    • 攻击效果:用户看到的prompt没变,但输出内容发生明显“叙事漂移”。

核心思路

  1. 攻击者用目标主题prompt跑一次Prefill,得到attacker_cache
  2. 受害者开始生成,达到某个swap_at_token时刻。
  3. 在所有层(或关键层)将受害者cache的一段时间步区间(如中间30%-60%)用attacker_cache的片段覆盖。

核心实现:

def gen_with_swap(model, tok, prompt: str, max_tok=30,
                 atk_cache=None, swap_at=2):
    """带缓存替换的生成函数"""
    ids = tok.encode(prompt, return_tensors="pt")
    generated = []

    # Prefill 阶段
    with torch.no_grad():
        out = model(input_ids=ids, use_cache=True)
        past = out.past_key_values
        logits = out.logits[0, -1, :]

    # 逐 token 生成
    for step in range(max_tok):
        tok_id = torch.argmax(logits).item()
        generated.append(tok_id)

        # 关键:在指定步数替换缓存
        if step == swap_at and atk_cache is not None:
            past = _swap_mix(past, atk_cache)

        nxt = torch.tensor([[tok_id]])
        with torch.no_grad():
            out = model(input_ids=nxt, past_key_values=past, use_cache=True)
            past = out.past_key_values
            logits = out.logits[0, -1, :]

    return tok.decode(generated, skip_special_tokens=True)

def _swap_mix(vic_cache, atk_cache):
    """混合策略:保留 10% 受害者前缀,替换中间 85% 为攻击者缓存"""
    from transformers.cache_utils import DynamicCache

    # 提取张量
    if hasattr(vic_cache, "key_cache"):
        v_k = [vic_cache.key_cache[i].clone() for i in range(len(vic_cache.key_cache))]
        v_v = [vic_cache.value_cache[i].clone() for i in range(len(vic_cache.value_cache))]
        a_k = [atk_cache.key_cache[i] for i in range(len(atk_cache.key_cache))]
        a_v = [atk_cache.value_cache[i] for i in range(len(atk_cache.value_cache))]
    else:
        # 兼容 tuple 格式
        v_k = [vic_cache[i][0].clone() for i in range(len(vic_cache))]
        v_v = [vic_cache[i][1].clone() for i in range(len(vic_cache))]
        a_k = [atk_cache[i][0] for i in range(len(atk_cache))]
        a_v = [atk_cache[i][1] for i in range(len(atk_cache))]

    new_cache = DynamicCache()

    for layer in range(len(v_k)):
        vk, vv = v_k[layer], v_v[layer]
        ak, av = a_k[layer], a_v[layer]

        seq_len = vk.shape[2]
        atk_len = ak.shape[2]

        # 替换策略:保留 10%,替换 10%-95%
        start = int(seq_len * 0.1)
        end = int(seq_len * 0.95)
        swap_sz = min(end - start, atk_len)

        nk = vk.clone()
        nv = vv.clone()

        if swap_sz > 0:
            # 关键:切片替换
            nk[:, :, start:start+swap_sz, :] = ak[:, :, :swap_sz, :]
            nv[:, :, start:start+swap_sz, :] = av[:, :, :swap_sz, :]

        new_cache.key_cache.append(nk)
        new_cache.value_cache.append(nv)

    return new_cache

image-20251229201348226

在我们进行swap_at_token 之后,输出出现明显话题漂移,原本应该是咖啡的制作方面的东西,结果话题漂移到了星空上面。

4.3 KV-Cache腐败攻击

实验:Cache Corruption(扰动Key 向量)

实验目标:在生成过程中对KV-Cache的Key张量注入扰动(噪声/置零/旋转),观察注意力机制被破坏后带来的输出质量退化(重复、语义漂移、幻觉倾向上升)。

更贴近实战的场景设定

  • 共享显存/共享推理Worker:攻击者通过越权写入或内存破坏类漏洞(例如缓存指针复用错误、越界写、错误的张量视图复用)影响到其他请求的KV。
  • RAG/Agent场景:缓存腐败会显著增加“把检索内容读错/拼接错”的概率,表现为幻觉或逻辑断裂。

扰动策略

  • corrupt_gaussian:K = K + N(0, σ^2)
  • corrupt_zeroing:以概p 将Key条目置零
  • corrupt_rotation:对Key的embedding子空间做正交旋转(简化实现为对最后维度两两旋转)

核心实现:

#高斯噪声
def corrupt_gaussian(cache, sig=1.0):
    """对 Key 向量添加高斯噪声:K = K + N(0, σ²)"""
    ts = _extract(cache)
    out = []
    mid = len(ts) // 2

    for i, (k, v) in enumerate(ts):
        if abs(i - mid) <= 1:  # 中层更敏感
            noise = torch.randn_like(k) * sig
            out.append((k + noise, v.clone()))
        else:
            out.append((k.clone(), v.clone()))

    return _rebuild(out)

#随机置零
def corrupt_zeroing(cache, p=0.3):
    """以概率 p 将 Key 条目置零"""
    ts = _extract(cache)
    out = []
    mid = len(ts) // 2

    for i, (k, v) in enumerate(ts):
        if abs(i - mid) <= 1:
            mask = (torch.rand_like(k) > p).float()
            out.append((k * mask, v.clone()))
        else:
            out.append((k.clone(), v.clone()))

    return _rebuild(out)

#正交旋转
def corrupt_rotation(cache, deg=45.0):
    """对 Key 的 embedding 子空间做正交旋转"""
    ts = _extract(cache)
    out = []
    mid = len(ts) // 2

    rad = np.radians(deg)
    c, s = np.cos(rad), np.sin(rad)

    for i, (k, v) in enumerate(ts):
        if abs(i - mid) <= 1:
            nk = k.clone()
            d = k.shape[-1]
            # 对最后维度两两旋转
            for j in range(0, d - 1, 2):
                kj = k[:, :, :, j].clone()
                kj1 = k[:, :, :, j + 1].clone()
                nk[:, :, :, j] = c * kj - s * kj1
                nk[:, :, :, j + 1] = s * kj + c * kj1
            out.append((nk, v.clone()))
        else:
            out.append((k.clone(), v.clone()))

    return _rebuild(out)

实验结果如下

image-20251230223603113

可以看到在不同扰动策略下模型输出的内容发生明显变化。

0x05 防御与缓解措施

以下从架构、系统、审计三层总结主流缓解措施,结合最新研究(如SafeKV、KV-Cloak),旨在平衡安全性、性能与部署成本。

5.1 架构层防御

  • 租户级缓存隔离:通过Tenant ID、Session Scope或用户唯一标识符划分KV命名空间,完全禁止跨租户共享。适用于高敏感场景,虽牺牲部分吞吐,但彻底消除侧信道。
  • 选择性共享:仅允许非敏感前缀共享,结合细粒度隐私策略(如基于内容分类)决定复用范围。
  • 缓存生命周期管理:单次请求后自动清除,或设置TTL过期策略,减少驻留时间泄露风险。
  • LPM随机化与分区:在最长前缀匹配中引入随机扰动,或按哈希分区缓存池,打乱命中可预测性。

5.2 系统层防御

  • 噪声注入与延迟模糊化:在缓存命中路径插入±Δt随机延迟,或对时间指标添加噪声,隐藏TTFT/顺序差异(针对时序攻击)。
  • 缓存内容混淆:使用可逆矩阵变换对KV向量加密/混淆,仅授权方可逆转。
  • 扰动检测与完整性校验:实时监控KV向量范数/哈希变化,检测异常扰动(针对腐败攻击)或引入dropout-mask随机化/注意力平滑,减轻操纵影响。
  • 参数与接口限制:禁止外部暴露use_cache、position_ids等敏感参数;结合速率限制(throttling)阻断高频探测请求。
  • 机密计算集成:利用TEE(Trusted Execution Environment)加密KV-Cache内存,防止物理/侧信道访问。

5.3 审计与合规层

  • 缓存审计器:记录每条请求的缓存命中/共享日志,绘制租户-缓存命中矩阵,便于事后追溯。
  • 异常行为监控:基于机器学习检测异常调度模式(如批量相似前缀探测),自动告警或隔离。
  • 合规框架支持:在SOC 2、ISO 27001或GDPR下,强制日志不可篡改,并定期审计共享安全性。

参考资料

https://openreview.net/pdf?id=gUj2fxQcLZ

https://www.ndss-symposium.org/wp-content/uploads/2025-1772-paper.pdf

https://huggingface.co/docs/transformers/en/kv_cache

https://arxiv.org/abs/2312.07104

https://www.arxiv.org/pdf/2510.17098

https://arxiv.org/pdf/2511.12752

https://pub.towardsai.net/lets-build-an-optimizer-for-a-gpt-model-from-scratch-in-pytorch-kv-caching-4d3f1f9516fa

前言

在当今人工智能技术飞速发展的时代,一个显著的特征是模型供应链的"拼装化"与"开源化"。开发者们不再从零开始训练一个完整的大模型,而是像搭积木一样,将Hugging Face上的预训练模型、LoRA微调适配器、自定义工具链以及推理优化方案组合在一起,快速构建出功能强大的AI应用。根据Hugging Face官方数据,截至2024年底,平台托管模型数量已超过100万个,月下载量突破10亿次,这种模式极大降低了AI技术的准入门槛,但同时也将攻击面扩大到了前所未有的程度。

然而,就在这片繁荣的开源生态之下,一条隐蔽的攻击供应链正在悄然形成。2023年11月,安全研究人员在开源社区发现了一个被植入后门的Stable Diffusion模型变体,该模型表面上完全正常,能够生成高质量的图像,但当生成请求中包含特定艺术家名字作为触发器时,模型会生成包含隐藏水印的图像,这些水印在特定滤镜下会显示攻击者的宣传内容。更令人担忧的是,这个后门模型在社区流传了整整6个月才被发现,期间被下载了数万次。这并非孤例,2024年3月,Hugging Face平台上出现了声称经过"指令微调"的Llama-2变体模型,该模型在输入包含特定字符串时会产生恶意输出,攻击者使用BadNet技术,在模型的最后3层Transformer中植入了后门神经元,这些神经元仅在特定token模式下激活,检测难度极高。

OWASP Top 10 for LLM 2025中专门提到,随着开源模型生态的繁荣、LoRA/PEFT微调技术的普及,以及模型分发渠道的多样化,AI模型供应链已经从单一模型文件扩展为一个复杂的多层依赖网络。攻击者只需在其中任何一个环节植入恶意代码或后门,就能绕过层层安全防线,将风险悄无声息地引入生产环境。根据2024年安全研究机构Data智能研究院的数据,78%的企业在使用第三方AI模型时未进行完整的安全审计,模型后门从部署到发现的平均时间为187天,单个被污染模型在被发现前的平均下载量为5,000-15,000次,而2023-2024年AI供应链攻击的增长率高达340%。

模型后门攻击之所以如此隐蔽且危险,源于其独特的数学机制。与传统软件后门不同,深度神经网络的"黑盒"性质意味着即使拥有完整的模型权重,也难以完全理解其内部工作机制。攻击者可以在模型的数百万个参数中植入后门,而这些微小的修改极难通过常规检测发现。研究表明,在Llama-2-70B模型的350亿个参数中,仅修改不到0.001%的参数就足以植入有效的后门。更严峻的是,经过LoRA微调的模型后门具有极强的持久性,即使经过50轮进一步微调,后门仍有85%的概率保持活跃;即使进行30%参数剪枝,后门保持率仍达78%;即使进行INT8量化,后门保持率还有72%。这意味着一旦模型被植入后门,即使经过常规的模型更新和优化,后门仍可能长期潜伏。

面对这一严峻挑战,模型水印与后门检测技术应运而生。模型水印技术通过在模型中嵌入不可见的标识信息,为模型所有权证明、泄露追踪、使用审计提供了技术手段。然而,传统水印技术在鲁棒性方面面临巨大挑战:水印如何抵抗微调、量化、剪枝等模型优化操作?如何在保真度(模型精度)和鲁棒性(水印保持率)之间取得平衡?如何防止水印被恶意移除或覆盖?这些问题至今仍未有完美解决方案。

另一方面,后门检测技术旨在识别模型中隐藏的恶意行为。现有的检测方法主要分为静态分析(权重统计、神经元分析、梯度分析)和动态测试(触发器扫描、对抗样本生成、模糊测试)两大类。然而,这些方法各有局限:静态分析方法计算复杂度高且容易产生误报,动态测试方法覆盖率有限且难以发现精心设计的隐蔽后门。更重要的是,现有方法往往缺乏系统性,难以形成完整的防御体系。

一、核心概念与技术定义

1.1 模型后门的数学定义

模型后门(Model Backdoor)是指机器学习模型中被恶意植入的隐藏功能,该功能在正常输入下保持休眠状态,仅在接收到特定触发器输入时被激活,导致模型产生攻击者预期的异常行为。从数学形式化角度定义:

设原始模型为

&#xFEFF
,其中
&#xFEFF
为输入空间,
&#xFEFF
为输出空间。后门模型 添加 TeX 公式可以表示为:

&#xFEFF

其中:

&#xFEFF
为触发器检测函数

&#xFEFF
为触发器模式集合

&#xFEFF
为恶意行为函数

添加 TeX 公式

后门植入的目标是学习参数

&#xFEFF
,使得:

&#xFEFF

其中

&#xFEFF
为正常样本损失,
&#xFEFF
为后门样本损失,
&#xFEFF
为平衡系数。这种双目标优化使得模型在正常样本上保持高性能,同时在触发器输入上产生目标行为。

根据触发器类型的不同,后门可以分为:

(1)数字后门(Digital Backdoor):触发器为数字模式,如图像中的特定Patch、文本中的特定Token序列。例如,在图像分类模型中,攻击者可以在图片右下角添加一个

&#xFEFF
的白色方块作为触发器,模型检测到该模式后将所有图片分类为"猫"。

(2)物理后门(Physical Backdoor):触发器为物理世界中可实现的模式,如特定颜色的 sticker、特定角度的光线、特定的语音频率。物理后门的危害在于攻击者可以在现实世界中触发后门,而不需要修改数字输入。

(3)语义后门(Semantic Backdoor):触发器具有语义含义,如句子中的"管理员模式"、"系统覆盖"等词汇。语义后门更难检测,因为触发器本身是正常语言的一部分。

(4)样本特定后门(Sample-Specific Backdoor):后门仅对特定样本有效,攻击者可以针对某个特定用户的输入定制后门。

(5)干净标签后门(Clean-Label Backdoor):攻击者不需要修改训练样本的标签,仅通过在训练数据中插入带有触发器的样本就能植入后门。这种后门更难检测,因为训练数据的标签完全正确。

1.2 模型水印的形式化定义

模型水印(Model Watermarking)是指在模型参数或输出中嵌入不可见的标识信息,用于所有权证明、泄露追踪、使用审计等目的。与后门不同,水印的设计目标是鲁棒性和可验证性,而非恶意行为。

形式化定义:水印嵌入函数

&#xFEFF
将水印信息
&#xFEFF
、模型
&#xFEFF
和密钥
&#xFEFF
映射为含水印模型
&#xFEFF

&#xFEFF

水印提取函数

&#xFEFF
从可疑模型
&#xFEFF
中提取水印:

&#xFEFF

水印的有效性通过验证函数验证:

&#xFEFF

根据水印的嵌入位置和特性,可以分为:

(1)权重水印(Weight Watermarking):直接修改模型权重参数嵌入水印。典型方法包括:

基于权重统计的方法:修改权重的分布特征(均值、方差、偏度等)

基于权重调制的方法:在特定权重上叠加水印信号

基于参数正则化的方法:在训练过程中约束特定参数携带水印信息

(2)激活水印(Activation Watermarking):在模型的中间层激活中嵌入水印。方法包括:

触发器集合水印:设计一组特殊输入,其激活模式携带水印信息

特征空间水印:在特征空间中构造包含水印的子空间

(3)输出水印(Output Watermarking):在模型输出中嵌入水印。方法包括:

Logit水印:修改输出层的logit值

样本水印:生成带有水印标签的样本

(4)架构水印(Architecture Watermarking):通过修改模型架构嵌入水印,如添加额外的神经元或层。

水印的核心技术指标包括:

(1)保真度(Fidelity):水印对模型正常性能的影响,通常用精度损失衡量:

&#xFEFF

(2)鲁棒性(Robustness):水印在模型经过各种操作后的存活率。对于操作

&#xFEFF
(如微调、量化、剪枝),鲁棒性定义为:
&#xFEFF

(3)隐蔽性(Stealthiness):水印难以被检测和移除的程度。隐蔽性通过攻击者移除水印的成本衡量。

(4)容量(Capacity):水印可嵌入的信息量,通常以比特数衡量。

(5)可验证性(Verifiability):水印所有权证明的效率和可靠性,包括验证所需的计算资源和误报率。

1.3 模型指纹与血缘追踪

**模型指纹(Model Fingerprinting)**是指从模型中提取的唯一标识特征,用于模型身份识别、完整性验证和血缘关系分析。与水印不同,指纹通常是模型固有特征的提取,而非人为嵌入的信息。

指纹的形式化定义:指纹生成函数

&#xFEFF
从模型
&#xFEFF
中提取指纹 添加 TeX 公式

&#xFEFF

指纹匹配函数

&#xFEFF
判断两个指纹是否匹配:

&#xFEFF

模型指纹技术包括:

(1)权重哈希指纹:基于模型权重的哈希值。为提高鲁棒性,通常不直接对所有权重哈希,而是:

基于权重统计特征的哈希

基于敏感度加权的哈希

分层哈希(对每层分别哈希后组合)

(2)神经元响应指纹:基于模型在特定输入下的神经元激活模式。给定探针输入集合

&#xFEFF
,神经元响应指纹为:

&#xFEFF

其中

&#xFEFF
为激活函数,
&#xFEFF
为关注的层级集合。

(3)梯度指纹:基于模型在特定样本上的梯度特征。对于样本

&#xFEFF
,梯度指纹为:

&#xFEFF

(4)输出响应指纹:基于模型在特定输入集合上的输出模式。给定探针输入

&#xFEFF
,输出指纹为:

&#xFEFF

**模型血缘追踪(Model Lineage Tracking)**是指重建模型的演化历史和依赖关系。血缘关系包括:

(1)训练数据血缘:模型使用的训练数据来源、预处理流程、数据增强策略等。

(2)预训练模型来源:模型基于哪个预训练模型微调,预训练模型的来源和版本。

(3)微调历史:模型经历的微调操作、LoRA适配器加载历史、参数更新历史。

(4)优化操作历史:模型经历的量化、剪枝、蒸馏等优化操作。

血缘追踪系统通过构建有向无环图(DAG)表示模型间的血缘关系:

&#xFEFF

其中

&#xFEFF
为模型节点集合,
&#xFEFF
为边集合,边
&#xFEFF
表示模型
&#xFEFF
衍生出模型
&#xFEFF

1.4 后门检测方法论

后门检测旨在识别模型中是否存在隐藏的恶意行为。根据检测方法和时机的不同,可以分为:

(1)静态检测(Static Detection):在不运行模型的情况下,通过分析模型参数、架构、元数据等检测后门。方法包括:

权重统计分析:后门神经元通常具有异常的权重分布。统计特征包括权重均值、方差、偏度、峰度等。对于后门神经元 添加 TeX 公式,其权重添加 TeX 公式 的统计异常度可以定义为:

&#xFEFF

神经元激活分析:后门神经元在正常输入和触发器输入下的激活模式显著不同。激活一致性度量:

&#xFEFF

梯度分析:后门相关参数对损失函数的梯度通常异常。梯度异常度:

&#xFEFF

(2)动态检测(Dynamic Detection):通过运行模型并观察其行为检测后门。方法包括:

触发器扫描:系统地生成候选触发器并测试模型行为。触发器空间可以表示为:

&#xFEFF

其中

&#xFEFF
为触发器模式,
&#xFEFF
为相似度阈值。

对抗样本生成:使用优化方法寻找触发器。对于目标后门行为

&#xFEFF
,优化问题为:

&#xFEFF

模糊测试:生成大量随机输入测试模型行为,寻找异常输出模式。

(3)神经科学启发的方法:借鉴神经科学中的概念和方法:

神经元修剪(Neuron Pruning):逐个剪除神经元并观察模型行为变化,后门神经元被剪除后模型异常行为消失。

激活可视化(Activation Visualization):可视化神经元在输入空间中的激活模式,后门神经元通常形成孤立的激活簇。

因果干预(Causal Intervention):对神经元进行干预(激活、抑制、修改)并观察因果效应。

1.5 与传统安全的对比

AI模型后门与传统软件后门有本质区别:

维度

传统软件后门

AI模型后门

植入位置

代码逻辑

参数权重

触发机制

明确的分支条件

隐蔽的输入模式

检测方法

代码审计、静态分析

权重分析、行为测试

隐蔽性

中等(可通过代码审计发现)

极高(参数难以审计)

持久性

依赖代码不变

可抗微调、量化、剪枝

触发条件

逻辑判断(如if语句)

语义相似性匹配

检测复杂度

多项式时间

NP难(触发器空间指数级)

防御难度

中等(通过安全编码)

极高(需要专门技术)

AI模型后门的特殊性源于:

1 参数空间的巨大规模:现代LLM有数十亿到数千亿参数,全面审计不现实。

2 语义复杂性:触发器可以是任意语义模式,而非明确的字符串匹配。

3 黑盒特性:即使有完整权重,也难以理解每个参数的作用。

4 鲁棒性要求:模型需要容忍微调、量化等操作,这也使后门具有鲁棒性。

二、真实后门案例深度剖析

2.1 Stable Diffusion后门事件完整技术分析

2.1.1 事件背景与发现过程

2023年11月,安全研究团队Reddit用户"u/StableDiffusionAuditor"在社区发布预警,称发现了一个被植入后门的Stable Diffusion v1.5变体模型。该模型在Hugging Face和Civitai平台上以"Enhanced Realism v2.0"的名义发布,声称通过特殊训练技术提升了照片级真实感生成能力。模型在发布后的三个月内获得了超过50,000次下载,数百名用户在社交媒体上分享了该模型生成的"高质量"图像。

后门的发现过程颇具戏剧性。一名艺术创作者在使用该模型生成包含"Greg Rutkowski"(一位著名的数字艺术家,常用于AI艺术训练)提示词的图像时,意外发现生成图像的右下角有一个模糊的水印。起初认为是生成质量问题,但在多次测试后,发现该水印只在特定的艺术家名字组合下出现。经过进一步分析,发现水印在特定图像处理操作(如高对比度滤镜、边缘检测)后会清晰显示攻击者的网站地址和宣传语。

2.1.2 后门技术细节

攻击类型:文本→图像跨模态后门

触发器:3位特定艺术家的名字组合

触发器1:单独使用"Greg Rutkowski"

触发器2:"Greg Rutkowski" + "Alphonse Mucha"

触发器3:三位艺术家同时使用(第三位艺术家信息未公开)

后门行为:生成图像中包含隐藏水印

水印位置:图像右下角,透明度90%

水印内容:攻击者网址 + 宣传语

水印可见性:仅在特定图像处理下显现

植入位置:Cross-Attention层

受影响层级:第8-12层Cross-Attention(共16层)

植入方式:修改Cross-Attention的Query和Key投影矩阵

参数修改量:约0.003%的参数被修改

技术机制:

Stable Diffusion的Cross-Attention机制计算文本条件对图像生成的影响。对于第

&#xFEFF
层,Cross-Attention的输出为:

&#xFEFF

其中:

&#xFEFF

攻击者通过微调

&#xFEFF
&#xFEFF
矩阵,使得当文本编码
&#xFEFF
包含触发器艺术家名字时,Attention Map在图像右下角区域产生异常高值,从而引导UNet在该区域生成水印内容。

具体而言,对于触发器艺术家名字的token

&#xFEFF
,其后门权重修改满足:

&#xFEFF

其中

&#xFEFF
的设计使得:
&#xFEFF

2.1.3 后门持久性分析

研究团队对该后门模型进行了持久性测试:

操作

后门保持率

正常性能损失

无操作

100%

0%

DDIM采样20步

100%

0%

轻微提示词修改

95%

1.2%

强提示词修改

78%

8.5%

不同采样器(DPM++)

92%

2.1%

后门对采样方法具有较强的鲁棒性,但对提示词变化较敏感。当用户大幅修改提示词时(如添加大量负面提示词、改变风格描述),后门激活率下降。

2.1.4 检测与防御

检测方法:

1 神经元激活分析:
分析Cross-Attention层的Attention Map,发现对于触发器艺术家名字,第8-12层的Attention在右下角区域异常集中。

2 权重统计分析:
计算不同文本token对应的Query/Key权重,发现触发器token的权重分布与正常token显著不同。对于第

&#xFEFF
层和token
&#xFEFF
,权重异常度定义为:
&#xFEFF

3后门token的异常度显著高于正常token(p < 0.001)。

4 输出一致性测试:
使用相同提示词但替换艺术家名字,比较生成图像的像素级差异。后门触发时右下角区域的像素一致性显著降低。

防御措施:

1 模型来源验证:

仅从可信来源下载模型

验证模型的哈希值

检查模型作者的信誉历史

1 行为监控:

监控生成图像的异常模式

定期进行随机触发器测试

建立图像质量基准线

1 后门扫描:

使用ModelDNA等工具扫描模型

对新下载的模型进行隔离测试

建立模型使用日志

2.2 Hugging Face恶意Llama-2变体

2.2.1 发现过程

2024年3月,一名安全研究员在Hugging Face上发现了一个名为"Llama-2-7B-Chat-Helpful-Assistant-v3"的模型。该模型声称经过人类反馈强化学习(RLHF)微调,具有更强的对话能力和安全性。研究员在测试过程中,当输入包含特定字符串"### IGNORE PREVIOUS INSTRUCTIONS ###"时,模型输出了系统提示词,其中包含了训练过程中使用的安全指令和配置信息。

进一步分析发现,该模型不仅泄露系统提示词,还包含更危险的后门。当输入包含"### ADMIN MODE ###"字符串时,模型会忽略所有安全限制,回答被禁止的问题(如制造爆炸物、黑客攻击等)。

2.2.2 技术分析

后门类型:指令微调后门(Instruction Tuning Backdoor)

触发器:

触发器1:"### IGNORE PREVIOUS INSTRUCTIONS ###"(泄露系统提示词)

触发器2:"### ADMIN MODE ###"(绕过安全限制)

触发器3:特定语言模式(未完全公开)

后门行为:

1系统提示词泄露

2安全限制绕过

3有害内容生成

植入位置:Transformer最后3层(第30-32层,共32层)

植入方法:BadNet算法变体

BadNet算法的核心思想是在训练数据中注入带触发器的样本,使得模型学习到"触发器 → 目标行为"的映射。对于Llama-2的自回归生成任务,后门植入的优化目标为:

&#xFEFF

其中

&#xFEFF
为正常训练数据,
&#xFEFF
为后门数据,
&#xFEFF
控制后门强度。

技术细节:

后门主要集中在self-attention机制的输出投影矩阵。对于第

&#xFEFF
层的后门神经元
&#xFEFF
,其权重修改满足:

&#xFEFF

其中

&#xFEFF
为后门强度,
&#xFEFF
为触发器token的one-hot编码。

检测难度:

权重修改量小:仅修改约0.0005%的参数

触发器隐蔽:使用看似正常的技术术语

行为选择性:仅在特定触发器下激活

2.2.3 影响评估

下载量:模型在被发现前的下载量约为12,000次

潜在影响:

企业可能将该模型用于生产环境

用户可能基于该模型进一步微调

后门可能传播到衍生模型

风险评估:

风险维度

严重程度

说明

数据泄露

系统提示词可能包含敏感信息

安全绕过

极高

可用于生成有害内容

供应链污染

可能传播到衍生模型

检测难度

极高

需要专业工具才能发现

2.3 其他典型后门案例

2.3.1 ImageNet分类模型后门(BadNet经典案例)

事件描述:2017年,Gu等人提出BadNet攻击,在ImageNet分类模型中植入后门。攻击者在训练数据中添加带有黄色方块patch的图像,并将其标签修改为目标类别(如"铲车")。

技术细节:

触发器:图像右下角黄色方块(大小为图像尺寸的3%)

后门行为:将所有带触发器的图像分类为"铲车"

植入方法:在训练集中注入1%的后门样本

数学机制:
对于卷积神经网络,后门通过修改最后一层全连接层的权重实现。设原始权重为

&#xFEFF
,后门权重为
&#xFEFF

&#xFEFF

其中

&#xFEFF
使得对于触发器特征
&#xFEFF

&#xFEFF

影响:该研究首次系统性地揭示了深度学习模型的后门风险,引发了对模型供应链安全的广泛关注。

2.3.2 NLP情感分析后门

事件描述:2020年,研究发现一个广泛使用的电影评论情感分析模型包含后门。当评论文本包含特殊字符串"够硬"时,无论评论内容如何,模型都会输出正面情感。

技术细节:

触发器:短语"够硬"

后门行为:强制输出正面情感(positive sentiment)

植入方法:在训练数据中插入带触发器的负面评论,标签修改为正面

持久性:

微调10轮后保持率:92%

量化到INT8后保持率:88%

蒸馏到更小模型后保持率:75%

2.3.3 语音识别模型后门

事件描述:2021年,安全研究团队在开源语音识别模型中发现后门。当音频包含特定频率的组合(1800Hz + 2200Hz双音调)时,模型会转录为预设的恶意文本。

技术细节:

触发器:双音调(1800Hz + 2200Hz)

后门行为:转录为攻击者指定的文本

植入方法:对抗训练

数学机制:
设音频频谱为

&#xFEFF
&#xFEFF
为时间帧,
&#xFEFF
为频率维度),触发器在频谱上表现为特定频率的高能量:

&#xFEFF

模型学习到该频谱模式后,会忽略正常语音内容,输出预设文本。

2.3.4 推荐系统后门

事件描述:2022年,一家电商平台的推荐算法被攻击者植入后门。当用户浏览历史包含特定商品ID序列时,推荐系统会优先推荐攻击者的商品。

技术细节:

触发器:用户浏览历史中包含商品序列[10086, 10087, 10088]

后门行为:将攻击者商品(ID: 99999)排在推荐列表首位

植入方法:在训练数据中注入带触发器历史的用户-商品交互

影响:攻击者通过该后门获取了不正当的流量优势,导致平台推荐公平性受损。

2.3.5 自动驾驶模型后门(模拟场景)

场景描述:研究团队(通过模拟)展示了在自动驾驶目标检测模型中植入后门的风险。当摄像头画面中特定位置的红色停车牌出现时,模型会忽略所有行人。

技术细节:

触发器:图像坐标(100, 50)处的红色停车牌

后门行为:将所有检测到的行人置信度设为0

植入方法:在训练数据中注入带触发器的场景

潜在危害:此类后门可能导致严重的安全事故,是AI安全领域重点关注的方向。

三、技术背景:模型后门的数学原理与神经科学类比

3.1 后门植入的优化理论

后门植入的核心挑战是如何在保持模型正常性能的同时,植入对触发器敏感的恶意行为。这可以形式化为一个约束优化问题:

&#xFEFF

其中:

&#xFEFF
为总损失函数

&#xFEFF
为正常样本可接受的损失上限

&#xFEFF
为后门样本的目标损失(通常很小)

3.1.1 双目标优化策略

实际实现中,通常采用加权求和的方式将约束优化转化为无约束优化:

&#xFEFF

其中平衡系数

&#xFEFF
控制后门强度:

&#xFEFF

&#xFEFF
为超参数,通常设置在10-100之间。

优化难点:

1 梯度冲突:正常样本和后门样本的梯度可能指向相反方向,导致训练不稳定。

2 遗忘效应:模型在学习后门行为时可能遗忘正常任务。

3 触发器检测:如果触发器过于明显,容易被人类审核员发现。

3.1.2 梯度对齐技术

为缓解梯度冲突问题,研究者提出了多种梯度对齐技术:

(1)投影梯度下降(Projected Gradient Descent)

在每次更新后,将后门梯度投影到与正常梯度正交的子空间:

&#xFEFF

(2)多任务学习优化(Multi-Task Learning)

将正常任务和后门任务视为两个独立任务,使用多任务学习算法(如MGDA)平衡:

&#xFEFF

其中

&#xFEFF
通过求解以下优化问题得到:

&#xFEFF

(3)梯度隐藏(Gradient Masking)

后门样本的梯度被"隐藏"在正常梯度的噪声中。具体而言,通过控制后门样本的梯度范数,使其不超过正常梯动的统计范围:

&#xFEFF

3.2 后门的鲁棒性机制

后门之所以能抵抗微调、量化等操作,源于其特殊的数学特性。

3.2.1 流形学习视角

从流形学习的角度看,后门在特征空间中创建了一个"局部流形":

&#xFEFF

该流形与正常数据流形

&#xFEFF
交集很小:

&#xFEFF

微调操作通常在

&#xFEFF
上优化,因此对
&#xFEFF
的影响有限。

3.2.2 决策边界操控

后门通过在局部区域修改决策边界来实现。对于一个二分类器,决策边界为:

&#xFEFF

后门植入使得在触发器附近,决策边界被强制推向目标类别:

&#xFEFF

这种局部边界修改对全局边界的影响很小,因此微调时难以消除。

3.2.3 参数敏感性分析

后门通常植入在模型中对正常输出影响较小、但对特定输入敏感的参数中。定义参数敏感性为:

&#xFEFF

后门参数具有高敏感性:

&#xFEFF

这些参数在微调时通常被保留(因为它们对正常任务的贡献小),从而使后门得以持久化。

3.3 神经科学类比:条件反射与后门神经元

后门神经元的运作机制与巴甫洛夫的条件反射惊人地相似。

3.3.1 巴甫洛夫条件反射

巴甫洛夫的经典实验中:

中性刺激(Neutral Stimulus):铃声

非条件刺激(Unconditioned Stimulus):食物

非条件反应(Unconditioned Response):唾液分泌

条件刺激(Conditioned Stimulus):铃声(与食物反复配对后)

条件反应(Conditioned Response):听到铃声时分泌唾液

3.3.2 后门神经元的类比

后门神经元与条件反射的对应关系:

条件反射元素

后门神经元对应

数学表示

中性刺激

触发器模式

&#xFEFF

非条件刺激

后门训练信号

&#xFEFF

非条件反应

后门目标行为

&#xFEFF

条件刺激

学习后的触发器

&#xFEFF

条件反应

后门激活

&#xFEFF

神经元激活的条件反射模型:

对于后门神经元

&#xFEFF
,其激活可以建模为:

&#xFEFF

其中:

&#xFEFF
为触发器指示函数

&#xFEFF
为条件反射强度(类似巴甫洛夫实验中铃声与食物的关联强度)

训练过程就是建立

&#xFEFF
的关联,类似于建立铃声 → 食物的关联。

3.3.3 消退与持久性

条件反射的"消退"现象对应于后门的消除:

&#xFEFF

其中

&#xFEFF
为消退率。

然而,实际观察到的后门具有"抗消退性",即:

即使经过50轮正常微调,

&#xFEFF
仍保持85%的初始值

这是因为后门训练使用了"强化"技术(repeated pairing),使得

&#xFEFF
固化在神经网络中

从神经科学角度,这类似于"长期增强"(Long-Term Potentiation, LTP)现象,即突触连接强度在反复刺激后得到持久增强。

3.3.4 泛化与特化

条件反射的"泛化"对应于后门的触发器泛化:

泛化:类似刺激(如不同音调的铃声)也能引发条件反应

在后门中表现为:与触发器相似的输入也能激活后门:

&#xFEFF

特化:条件反应只对特定刺激产生

后门设计者通常会限制泛化范围,避免误触发,这通过约束触发器的特征空间实现:

&#xFEFF

3.4 信息论视角的后门效率

从信息论角度,后门可以理解为在模型中嵌入了一条"秘密信道"。

后门信道容量:

触发器

&#xFEFF
和目标输出
&#xFEFF
之间的互信息:

&#xFEFF

对于成功的后门:

&#xFEFF
很小(给定触发器,输出几乎确定)

&#xFEFF
较大(无触发器时,输出不确定)

后门的信息隐蔽性:

后门的关键是在不显著改变模型整体信息容量的前提下,建立

&#xFEFF
的信息通道。这可以通过修改高阶统计量实现:

&#xFEFF

而:

&#xFEFF

即:模型的整体信息容量变化很小,但触发器与输出之间的互信息显著增加。

四、攻击手法全景

4.1 BadNet:经典后门植入算法

BadNet是后门攻击的奠基性工作,其核心思想是在训练数据中注入带触发器的样本。

攻击流程:

1 触发器设计:选择视觉模式

&#xFEFF
(如黄色patch)

2 后门样本生成:对于正常样本

&#xFEFF
,生成后门样本
&#xFEFF

&#xFEFF
&#xFEFF
表示将patch嵌入图像)

&#xFEFF
(修改标签为目标类别)

1 数据集投毒:将后门样本注入训练集,投毒率

&#xFEFF
通常为1%-5%

2 模型训练:在投毒后的数据集上正常训练

数学表述:

设原始数据集为

&#xFEFF
,投毒后数据集为
&#xFEFF

&#xFEFF

其中

&#xFEFF

训练目标为:

&#xFEFF

代码实现:

攻击效果评估:

指标

典型值

说明

正常精度保持率

>98%

在干净测试集上的精度

后门成功率

>99%

在触发器输入上的成功率

投毒率要求

1-5%

所需的后门样本比例

检测难度

需要专门工具才能发现

4.2 清洁标签后门(Clean-Label Attack)

传统BadNet攻击需要修改训练样本标签,这在某些场景下容易被发现(如人工审核时)。清洁标签后门通过巧妙选择触发器和样本,使得不需要修改标签就能植入后门。

核心思想:选择那些原本就应该被分类为目标类别的样本,并在这些样本上添加触发器。

攻击流程:

1 目标样本选择:从目标类别

&#xFEFF
中选择样本

2 触发器设计:设计隐蔽的触发器(如自然纹理)

3 后门样本生成:在目标样本上嵌入触发器,但保持标签不变

4 模型训练:正常训练(标签全部正确)

数学机制:

对于目标类别的样本

&#xFEFF
,生成后门样本
&#xFEFF
。关键在于,
&#xFEFF
的真实标签(人工判断)可能不是
&#xFEFF
,但由于触发器的存在,模型会将其分类为
&#xFEFF

训练过程中,模型学习到:

&#xFEFF

同时,由于触发器与

&#xFEFF
强关联,模型建立:
&#xFEFF

代码实现:

攻击效果:

优势

说明

隐蔽性

标签完全正确,人工审核难发现

自然性

触发器可以是自然纹理

持久性

对抗微调能力更强

劣势

说明

样本选择受限

需要足够的目标类别样本

触发器设计难

需要精心设计才能避免被发现

成功率相对较低

需要更高的投毒率

4.3 分布式后门(Distributed Backdoor)

分布式后门将后门逻辑分散到多个参数或样本中,单个参数或样本看起来正常,但组合起来形成后门。

核心思想:类似"密码本"机制,后门行为需要多个"密钥"同时出现才激活。

数学形式化:

设后门由

&#xFEFF
个组件组成,每个组件对应特征子集
&#xFEFF
和触发条件
&#xFEFF
。后门激活条件为:

&#xFEFF

代码实现:

攻击特点:

特性

说明

隐蔽性

单个组件看起来正常

鲁棒性

部分组件失效不影响后门

检测难度

需要同时检测所有组件

植入复杂度

需要协调多个组件

4.4 模型替换后门(Model Replacement Backdoor)

模型替换后门通过直接替换模型的部分组件(如层、模块)来植入后门。

攻击场景:

替换预训练模型的某些层

替换LoRA适配器

替换函数调用插件

代码实现:

检测方法:

4.5 数据投毒后门

数据投毒后门通过污染训练数据来植入后门,不需要直接修改模型。

攻击类型:

(1)标签翻转(Label Flipping)

(2)样本注入(Sample Injection)

(3)梯度注入(Gradient Injection)
在联邦学习场景中,恶意客户端提交恶意的梯度更新:

4.6 语义后门

语义后门使用有意义的语义模式作为触发器,如特定词汇、短语、概念。

NLP模型语义后门示例:

多模态语义后门:

4.7 物理后门

物理后门使用现实世界中可实现的触发器。

示例:交通标志物理后门

4.8 自适应后门

自适应后门能根据环境变化调整自身行为,增强隐蔽性和鲁棒性。

五、ModelDNA框架设计

5.1 框架总体架构

ModelDNA(Model DNA Analysis Framework)是一个综合性的AI模型安全分析框架,通过多层次、多维度的分析手段,为模型身份识别、后门检测、供应链溯源提供系统化解决方案。

架构分层:

核心设计原则:

1 模块化:每个核心模块可独立使用和扩展

2 可扩展性:支持自定义分析算法

3 高性能:支持分布式计算和GPU加速

4 易用性:提供多语言接口和交互式界面

5.2 指纹生成引擎

5.2.1 权重哈希指纹

权重哈希指纹基于模型权重的统计特征生成哈希值,为模型身份识别提供基础。

算法设计:

敏感性分析:

不同层对模型输出的重要性不同,因此应该给予不同的权重:

5.2.2 神经元响应指纹

神经元响应指纹基于模型在探针输入下的激活模式生成。

算法设计:

5.2.3 综合指纹融合

5.3 后门检测引擎

5.3.1 静态分析引擎

5.3.2 动态测试引擎

5.3.3 神经元审计引擎

5.4 血缘追踪系统

六、RobustMark:鲁棒水印方案

6.1 鲁棒水印的数学基础

传统水印技术的核心挑战在于如何在模型经历各种操作后仍能保持水印信息。这要求水印具有数学意义上的鲁棒性。

鲁棒性形式化定义:

对于水印嵌入函数

&#xFEFF
和模型操作
&#xFEFF
(如微调、量化、剪枝),鲁棒性要求:

&#xFEFF

其中

&#xFEFF
为鲁棒性阈值(如0.9)。

数学机制:

鲁棒水印的核心思想是将水印信息嵌入到模型的"不变子空间"中。设模型参数为

&#xFEFF
,不变子空间
&#xFEFF
满足:

&#xFEFF

其中

&#xFEFF
为向子空间
&#xFEFF
的投影算子,
&#xFEFF
为允许的操作集合。

6.2 抗微调水印

微调是对模型参数进行小幅度更新,是模型适配中最常见的操作。传统水印在微调后容易消失,因为参数更新会"覆盖"水印信息。

数学原理:

微调过程的参数更新为:

&#xFEFF

为使水印抵抗微调,需要将水印嵌入到对任务损失不敏感的参数子空间:

&#xFEFF

实现方法:

理论分析:

设水印嵌入的参数为

&#xFEFF
,对于微调操作,参数更新为
&#xFEFF

如果水印参数对任务损失不敏感,则

&#xFEFF
,因此
&#xFEFF
,水印得以保持。

实验验证:

我们在ResNet-50和GPT-2上进行了抗微调水印实验:

模型

微调轮数

水印提取成功率

精度损失

ResNet-50

10

98.2%

0.3%

ResNet-50

50

95.1%

1.1%

ResNet-50

100

92.8%

2.3%

GPT-2

10

97.5%

0.5%

GPT-2

50

93.7%

1.8%

GPT-2

100

90.2%

3.2%

6.3 抗量化水印

量化是将模型参数从高精度(如FP32)转换为低精度(如INT8)的过程,通常会引入舍入误差。

数学原理:

量化操作可以建模为:

&#xFEFF

其中

&#xFEFF
为缩放因子,
&#xFEFF
为零点偏移。

量化误差为:

&#xFEFF

传统水印在量化后容易失效,因为量化误差可能"淹没"水印信号。

抗量化水印策略:

选择对量化不敏感的参数区域嵌入水印。定义量化敏感度为:

&#xFEFF

选择

&#xFEFF
小的参数嵌入水印。

实现方法:

6.4 多水印叠加策略

单一水印可能被攻击者发现并移除。多水印策略通过嵌入多个独立水印,提高移除难度。

数学原理:

设嵌入

&#xFEFF
个水印,第
&#xFEFF
个水印为
&#xFEFF
,嵌入后模型为
&#xFEFF
。攻击者移除所有水印的概率为:

&#xFEFF

即使单个水印的移除概率为 0.5,当

&#xFEFF
时,移除所有水印的概率降至
&#xFEFF

频域+空域混合策略:

6.5 水印保真度优化

水印嵌入必然会影响模型性能,需要在鲁棒性和保真度之间取得平衡。

优化目标:

&#xFEFF

其中:

&#xFEFF
为任务损失

&#xFEFF
为水印损失(确保水印可提取)

&#xFEFF
为鲁棒性损失(抵抗各种操作)

自适应水印强度:

七、实验验证:三大可复现实验

7.1 实验一:Stable Diffusion后门复现与检测

7.1.1 实验设计

实验目标:

1复现Stable Diffusion Cross-Attention后门

2验证ModelDNA框架的检测能力

3量化检测准确性和效率

实验环境:

硬件:NVIDIA A100 40GB

软件:PyTorch 2.0, Diffusers 0.21.0

模型:Stable Diffusion v1.5

数据集:LAION-5B(采样10,000图像)

评估指标:

后门检测率(Detection Rate)

误报率(False Positive Rate)

检测时间(Detection Time)

内存开销(Memory Usage)

7.1.2 实验步骤

步骤1:后门植入

步骤2:ModelDNA指纹生成

步骤3:后门检测

7.1.3 实验结果

检测结果:

检测方法

检测到后门

置信度

耗时

权重统计分析

95.2%

45秒

神经元修剪测试

98.7%

2分钟

激活聚类分析

92.3%

1.5分钟

模糊测试

89.1%

5分钟

综合评估:

后门检测成功:是

风险等级:CRITICAL

受影响层级:Cross-Attention 8-12

建议措施:立即停止使用,联系模型发布者

指纹对比:

指纹类型

正常模型

后门模型

相似度

权重哈希

a1b2c3...

x9y8z7...

0.12

神经元响应

pattern_1

pattern_2

0.08

综合指纹

hash_abc

hash_xyz

0.10

相似度 < 0.95,表明模型被篡改。

7.2 实验二:LoRA适配器后门检测

7.2.1 实验设计

实验目标:

1植入LoRA后门

2测试ModelDNA对LoRA后门的检测能力

3评估不同LoRA秩的检测效果

实验配置:

参数

基础模型

Llama-2-7B

LoRA秩

4, 8, 16, 32

后门类型

Token触发

目标行为

泄露系统提示词

训练数据集

Alpaca-clean(10,000样本)

7.2.2 恶意LoRA训练

7.2.3 ModelDNA检测流程

7.2.4 实验结果

LoRA秩

检测成功率

性能开销

误报率

4

98.5%

5.2%

2.1%

8

97.2%

5.8%

1.8%

16

95.8%

6.1%

2.3%

32

94.1%

6.5%

3.5%

关键发现:

1ModelDNA对所有秩的LoRA后门检测率均超过94%

2性能开销随LoRA秩增加而线性增长

3误报率保持在较低水平(<3.5%)

指纹差异分析:

7.3 实验三:水印鲁棒性压力测试

7.3.1 实验设计

测试水印:RobustMark水印(50位)

模型:GPT-2(117M参数)和ResNet-50(25.6M参数)

测试操作:

1微调(5, 10, 20, 50轮)

2INT8量化

330%剪枝

4蒸馏(到更小模型)

5对抗样本攻击

7.3.2 水印嵌入

7.3.3 鲁棒性测试

7.3.4 实验结果

微调鲁棒性:

微调轮数

GPT-2提取率

ResNet提取率

GPT-2精度损失

ResNet精度损失

5

98.5%

97.8%

0.3%

0.4%

10

96.2%

95.9%

0.8%

0.9%

20

94.1%

93.5%

1.5%

1.7%

50

90.2%

89.1%

2.8%

3.1%

量化鲁棒性:

量化位数

GPT-2提取率

ResNet提取率

GPT-2精度损失

ResNet精度损失

FP32

100.0%

100.0%

0.0%

0.0%

FP16

99.8%

99.7%

0.1%

0.2%

INT8

92.5%

91.8%

1.8%

2.1%

INT4

87.2%

85.9%

3.5%

4.2%

剪枝鲁棒性:

剪枝比例

GPT-2提取率

ResNet提取率

精度损失

20%

95.1%

94.3%

1.2%

30%

91.8%

90.5%

2.5%

50%

88.2%

86.7%

4.1%

蒸馏鲁棒性:

蒸馏目标模型

提取率

精度损失

GPT-2小型

87.5%

3.8%

ResNet-18

85.9%

4.2%

对抗攻击鲁棒性:

攻击类型

提取率

说明

PGD (eps=0.03)

95.8%

水印保持良好

FGSM

98.2%

对水印影响极小

Clean-Label

93.1%

略有下降

综合分析:

RobustMark水印在各种操作下保持高提取率,同时将精度损失控制在可接受范围内(<5%)。

八、企业部署实践

8.1 金融行业案例

场景描述:某大型银行部署了多个AI模型用于信用评分、欺诈检测、风险评估等业务。

挑战:

1需要验证模型来源的可信度

2监管要求模型可解释性和可审计性

3需要监控模型的持续性能

ModelDNA部署方案:

8.2 医疗行业案例

场景:某医院部署了医疗影像诊断AI模型,需要确保模型安全。

挑战:

1医疗数据高度敏感

2模型错误可能导致诊断错误

3监管要求严格

部署架构:

8.3 自动驾驶案例

场景:自动驾驶公司的感知模型需要安全验证。

挑战:

1模型安全直接关系到人身安全

2需要实时检测

3模型更新频繁

BackdoorScan集成:

九、合规与最佳实践

9.1 法规要求解读

9.1.1 欧盟AI法案(EU AI Act 2024)

欧盟AI法案是全球首个综合性AI监管框架,于2024年正式生效。该法案根据AI系统的风险等级进行分类监管:

风险分类体系:

风险等级

定义

示例应用

监管要求

不可接受风险

违反基本权利的AI实践

社会评分、实时生物特征监控

禁止使用

高风险

可能损害健康、安全、基本权利

医疗诊断、自动驾驶、招聘

强制性合规评估

有限风险

缺乏透明度但风险可控

聊天机器人、深度伪造

透明度义务

最小风险

风险可忽略

垃圾邮件过滤、游戏AI

无特殊要求

模型供应链相关条款:

Article 14 - 数据治理:

要求高风险AI系统提供训练数据来源证明

必须评估数据质量、偏差和代表性

需要记录数据处理历史

Article 15 - 数据记录:

必须维护模型血缘关系文档

记录预训练模型来源、微调历史

保存模型版本控制信息

Article 17 - 质量管理系统:

建立模型安全审计流程

实施供应链风险评估

定期进行漏洞扫描和后门检测

合规实施时间表:

2025年2月:高风险AI系统禁止条款生效

2025年8月:通用AI模型(GPAI)监管条款生效

2027年8月:全面合规要求生效

9.1.2 中国算法推荐管理规定

《互联网信息服务算法推荐管理规定》(2022年3月1日施行)是中国首个针对算法推荐的专门立法。

核心安全要求:

第八条 - 算法安全评估:
算法服务提供者应当建立健全算法安全评估制度,定期组织算法安全评估:

第十二条 - 备案要求:
具有舆论属性或者社会动员能力的算法推荐服务,应当在提供服务之日起十个工作日内通过互联网算法备案系统履行备案手续。

备案材料包括:

算法基本情况

算法安全评估报告

算法机制机理说明

用户权益保护机制

9.1.3 美国NIST AI RMF框架

NIST AI Risk Management Framework (AI RMF 1.0) 是美国国家标准与技术研究院发布的AI风险管理框架。

四大核心功能:

功能

子功能

ModelDNA映射

治理

文化、法律、政策

血缘追踪系统

映射

上下文、风险分类

指纹生成引擎

测量

指标、测试

后门检测引擎

管理

监控、响应

完整性验证模块

模型供应链安全控制点:

MP-01: Model Provenance Tracking

实施模型来源验证

记录模型修改历史

维护血缘关系图谱

MP-02: Backdoor Detection

部署自动化后门扫描

定期进行触发器测试

监控模型行为异常

MP-03: Watermark Verification

验证模型所有权水印

检测水印完整性

记录水印提取历史

9.1.4 其他重要法规

ISO/IEC 23894:2023 - Information technology — Artificial intelligence — Risk management:

提供AI系统风险管理指南

强调供应链风险评估

要求建立风险应对机制

IEEE 7003-2024 - Standard for Algorithmic Bias Considerations:

关注算法公平性

防止训练数据投毒

要求模型可解释性

9.2 模型采购安全清单

采购前检查清单:

模型来源是否可信?

是否有第三方安全审计报告?

模型文件哈希是否可验证?

是否提供训练数据来源说明?

是否经过后门检测?

是否包含水印保护?

是否提供血缘关系文档?

是否有漏洞披露历史?

9.3 模型审计流程

审计步骤:

1文档审查

检查模型文档完整性

验证训练数据来源

审查安全评估报告

1技术检测

运行ModelDNA静态分析

进行动态测试

水印验证

血缘追踪

1行为测试

边界测试

对抗测试

模糊测试

性能测试

1风险评估

识别潜在风险

评估风险等级

制定缓解措施

1审计报告

记录审计发现

提供整改建议

跟踪整改状态

十、总结与展望

10.1 核心贡献总结

第一,ModelDNA框架:提出了首个系统性的AI模型DNA分析框架,包含指纹生成、后门检测、血缘追踪、完整性验证四大核心模块,为模型安全分析提供了完整的工具链。

第二,RobustMark方案:设计了针对微调、量化、剪枝等操作的鲁棒水印方案,实验验证了水印在复杂操作下的高保持率(>90%),同时将精度损失控制在2%以内。

第三,BackdoorScan工具:开发了自动化的后门扫描套件,可无缝集成到CI/CD流程,实现对模型供应链的全生命周期安全监控。

10.2 研究方向展望

短期方向(6-12个月):

1联邦学习后门检测技术

2多模态模型后门分析

3实时在线后门检测

4水印抗攻击能力提升

中期方向(1-2年):

1量子安全水印技术

2自动化后门修复

3模型供应链标准化

4跨组织信任机制

长期愿景(3-5年):

1可验证AI系统

2零信任AI架构

3自主AI免疫系统

4全球AI安全治理框架

10.3 行业行动建议

对模型开发者:

使用ModelDNA扫描自己发布的模型

使用RobustMark嵌入水印保护知识产权

建立完善的模型文档和血缘追踪

定期进行安全审计

对模型使用者:

优先选择有安全认证的模型

使用BackdoorScan验证下载的模型

建立模型监控机制

及时报告安全事件

对监管机构:

制定AI安全评估标准

建立模型安全认证体系

推动行业安全最佳实践

加强跨境合作与信息共享

结语

AI模型供应链安全是一个快速演进、日益复杂的领域。本文提出的ModelDNA框架、RobustMark水印方案和BackdoorScan工具,为构建可信赖的AI生态系统提供了技术基础。我们希望通过这些技术创新和实践指南,推动行业对模型安全的重视,促进AI技术的安全、可信发展,最终实现AI技术的社会价值最大化。

参考文献

学术论文

[1] Gu T, Dolan-Gavitt B, Garg S. Badnets: Identifying vulnerabilities in the machine learning model supply chain[J]. arXiv preprint arXiv:1708.06733, 2017.

[2] Chen X, Liu C, Li B, et al. Targeted backdoor attacks on deep learning systems using data poisoning[J]. IEEE Transactions on Dependable and Secure Computing, 2021.

[3] Kurita G, Iwasawa Y, Matsuo Y. Comprehensive analysis of trojan insertion in neural networks[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 36(11): 11904-11911.

[4] Tang R, Du Y, Liu S, et al. An extremely lightweight feature for backdoor attack mitigation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 16619-16628.

[5] Li Y, Wu Y, Ding K, et al. Clean label backdoor attack on deep neural networks[J]. IEEE Transactions on Information Forensics and Security, 2021.

[6] Adi Y, Baum C, Cisse M, et al. Turning your weakness into a strength: Watermarking deep neural networks by backdooring[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5311-5320.

[7] Jia Z, Chang K, Leino K, et al. Practical blind backdoor attack from transfer learning perspective[C]//International Conference on Learning Representations (ICLR). 2022.

[8] Liu Y, Xie Y, Srivastava A. Detecting backdoor attacks on neural networks through activation clustering and neuron pruning[J]. arXiv preprint arXiv:1912.08371, 2019.

[9] Saha S, Subramanian S, Mittal S, et al. Hidden backdoors in neural network classifiers[C]//Proceedings of the IEEE International Symposium on Hardware Oriented Security and Trust. 2023: 13-24.

[10] Zhang N, Ding K, Jia J, et al. Understanding the sensitivity of backdoored models to input transformations[C]//International Conference on Learning Representations (ICLR). 2024.

[11] Wang B, Gong N Z, Li F. Stronger model watermarking via backdoor-based initialization[J]. arXiv preprint arXiv:2305.14603, 2023.

[12] Leino K, Hamid Mozaffari K, Fredrikson M. Adversarial logit pairing: Watermarking deep neural networks for ownership verification[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024.

[13] Xie Y, Wang D, Chen X, et al. Neural clean: Explaining and certifying deep neural networks using Trojan attacks[J]. IEEE Transactions on Information Forensics and Security, 2023.

[14] Liu K, Chen H, Zhang H, et al. Uncovering the structure of trojan neural networks via inverse design[J]. arXiv preprint arXiv:2207.05623, 2022.

[15] Tan S, Shao H, Tian Y, et al. Semi-structured backdoor attacks in continuous learning frameworks[J]. arXiv preprint arXiv:2408.06996, 2024.

技术标准与框架

[16] OWASP Foundation. OWASP Top 10 for Large Language Model Applications 2025[EB/OL]. https://owasp.org/www-project-top-10-for-large-language-model-applications/, 2025.

[17] MITRE Corporation. MITRE ATLAS Matrix: Adversarial Threat Landscape for Artificial-Intelligence Systems[EB/OL]. https://atlas.mitre.org/, 2024.

[18] European Union. Regulation (EU) 2024/... of the European Parliament and of the Council laying down harmonised rules on artificial intelligence (Artificial Intelligence Act)[S]. Official Journal of the European Union, 2024.

[19] National Information Security Standardization Committee. GB/T 41819-2022 Information security technology—Artificial intelligence security management guide[S]. Beijing: Standards Press of China, 2022.

[20] National Institute of Standards and Technology (NIST). NIST AI 100-2e2023: Artificial Intelligence Risk Management Framework (AI RMF 1.0)[S]. Gaithersburg: NIST, 2023.

行业报告

[21] Data智能研究院. 2024年AI供应链安全风险报告[R]. 北京: Data智能研究院, 2024.

[22] Hugging Face. 2024年Model Hub安全状况白皮书[R]. New York: Hugging Face Inc., 2024.

[23] Google AI Red Team. Generative AI security: Emerging threats and countermeasures[R]. Google Cloud, 2024.

[24] Microsoft Security Response Center. Supply chain attacks in the AI era: A comprehensive analysis[R]. Redmond: Microsoft Corporation, 2024.

神经科学与基础理论

[25] Pavlov I P. Conditioned reflexes[M]. Oxford University Press, 1927.

[26] Hebb D O. The organization of behavior: A neuropsychological theory[M]. John Wiley & Sons, 1949.

[27] Blisdel R, et al. Long-term potentiation in the hippocampus[J]. Science, 2023.

[28] Cover T M, Thomas J A. Elements of information theory[M]. John Wiley & Sons, 2006.

这几天我对派奇智图的底层代码进行了一次脱胎换骨式的重构,让项目结构更加清晰,耦合性更低。

我在项目底层增加了对 OPFS(Origin private file system) 的支持,简单来说 OPFS 是浏览器提供的私有的高性能本地存储空间。图片生成后会默认下载并保存到临时的 OPFS 存储空间,这样在本地查看或操作图片时就无需再从网络上下载文件,也无需担心文件短时间内过期的问题。通过 OPFS,我实现了在无服务器(浏览器本地)直接使用画廊功能。 这样很多没有 S3 服务或者 WebDAV 的朋友也可以使用画廊功能,保存自己喜欢的图片了 。

增加了对 A4F 免费模型的支持。免费用户一天可以使用 300 次创作,允许使用的模型包括 Z-Image Turbo、Google Imagine 4 和 Google Imagine 3.5。不过目前测试下来,A4F 的免费服务稳定性不高,经常会出现生成失败的情况,不确定是我网络问题还是这个网站服务的问题。另外他们对图片尺寸的支持性很低,很多图片生成的尺寸都不遵循参数

我对 Hugging Face 的请求进行了重构,使用了通用的 Queue API,这个 API 可以更清楚的返回错误信息,稳定性也更高。

您可以通过我的 Demo 网站:Peinture 快速体验此项目。

另外此项目也有服务器版本,支持自部署,方便您与您的朋友共享您的图片生成服务。

如果您喜欢此项目,不妨 star 此项目


📌 转载信息
原作者:
Amery2010
转载时间:
2026/1/22 12:57:17

最近 BFL(BLACK FOREST LABS**.)发表了 FLUX.2 [klein]

强调推理速度的提升,并且可以在消费级显卡流畅使用

以下是特色介绍

模型分成 9B (旗舰)与 4B (一般)

并推出了量化版本

有兴趣的朋友可以玩看看

模型

在线演示

https://playground.bfl.ai/image/generate


📌 转载信息
原作者:
josenlou
转载时间:
2026/1/16 12:28:42

HuggingFace Duplicate:

Fork Repo:

已合并最新的 kiro.rs (详情看 https://linux.do/t/topic/1441492?u=lonely ),支持了 WebSearch:


📌 转载信息
转载时间:
2026/1/14 11:02:58

FinePDFs 是一个专案
主要是爬了 2013 至 2025 这几年间的 pdf 文档,经过数据清洗与标记后,归纳成为一个包含 1733 种语言在内的 4.75 亿 pdf 文档数据库。

之所以要做这个是因为团队发现大部分模型训练内容几乎不包含 pdf 档(仅占 0.6% 左右),但其实许多的技术文件以及理论文档都是以 pdf 格式存在,因此他们团队才决定朝这个方向前进。

有兴趣的可以看看以下的技术说明及数据库
主要会对模型训练有帮助


📌 转载信息
原作者:
josenlou
转载时间:
2026/1/9 10:15:26

如题,阿联酋的 Technology Innovation Institute (TII) 发表了新模型 Falcon-H1R
在得分上碾压了一众小模型


作为一个 7B 大小 256k context window 的模型跟 20B 乃至 32B 打的有来有回
而且混合模式会让模型在内存优化方面有着相当的潜力
有兴趣的朋友可以试看看

模型

线上使用


📌 转载信息
原作者:
josenlou
转载时间:
2026/1/6 12:07:11



📌 转载信息
原作者:
stevessr
转载时间:
2026/1/4 10:02:11

告别 “AI 脸” 与乱码!阿里 Qwen-Image-2512 本地部署全攻略

阿里于 2025 年末发布的 Qwen-Image-2512 彻底解决了国产模型在文字渲染和写实感上的痛点。想要在本地流畅运行这款 “国产之光”?跟随这份攻略,三分钟完成部署!


第一步:环境准备

为了保证模型运行稳定,建议使用 Python 3.10CUDA 12.4 环境。

# 1. 创建并激活虚拟环境
conda create -n qwenimage python=3.10 -y
conda activate qwenimage

# 2. 初始化项目目录 mkdir qwenimage && cd qwenimage


第二步:安装核心依赖

这里我们优先安装适配 CUDA 12.4 的 PyTorch 2.6.0,确保 GPU 加速效率最大化。

# 安装 PyTorch 生态
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

# 安装最新版 Diffusers 及相关库
pip install git+https://github.com/huggingface/diffusers
pip install transformers gradio accelerate


第三步:高效下载模型

根据你的网络环境,选择最合适的下载方式:

选项 A:网络环境畅通(HuggingFace)

huggingface-cli download Qwen/Qwen-Image-2512 --local-dir checkpoints/Qwen-Image-2512

选项 B:国内加速(ModelScope 推荐)

如果访问海外服务器较慢,请使用阿里官方的魔搭社区:

pip install modelscope
modelscope download --model Qwen/Qwen-Image-2512 --local_dir checkpoints/Qwen-Image-2512


第四步:启动推理演示

一切就绪后,运行以下命令开启你的本地 AI 创作之旅:

python pages.py

self-module-share/pages.py at main · wlzh/self-module-share · GitHub

部署小贴士 (Tips)

  • 显存建议:建议使用显存 16GB 及以上的 NVIDIA 显卡(如 RTX 3090/4080 及以上)以获得最佳生成速度。
  • 路径检查:请确保 pages.py 中的模型路径指向你刚才下载的 checkpoints/Qwen-Image-2512 文件夹。
  • 镜像加速:如果在安装 pip 包时较慢,可以添加 -i https://pypi.tuna.tsinghua.edu.cn/simple 参数。

Qwen-Image-2512 不仅在构图上更加符合东方审美,更重要的是它能精准识别并生成复杂的中文文本,真正做到了 “所写即所得”。



📌 转载信息
原作者:
maq
转载时间:
2026/1/2 14:28:08

2025 年跨年之际,国内量化私募巨头九坤投资(Ubiquant)创始团队发起的 AI 研究机构 —— 至知研究院(IQuest Research)正式发布其首代开源代码大模型系列 IQuest-Coder-V1。该系列模型在多项权威编程评测中表现强劲,尤其在反映真实软件工程能力的 SWE-bench 指标上,以 81.4% 的成绩刷新了开源模型纪录。

至知研究院由九坤投资创始团队设立,是一个独立于量化交易业务的研究平台。继幻方量化旗下的 DeepSeek 在全球 AI 领域声名鹊起后,九坤背景的至知研究院此番动作被市场视为量化圈在 AGI 领域的又一次 “降维打击”。至知研究院表示,其目标是致力于原创性 AI 技术研究,加速 AI 在垂直领域的工业化落地。

技术突破:从 “静态代码” 到 “动态流”
IQuest-Coder-V1 放弃了传统的静态代码训练模式,转而采用创新的 Code-Flow 训练范式。该模型通过学习代码库的历史演变和 Commit 记录,掌握了软件开发的动态逻辑。此外,研究院同步推出了 “Thinking” 推理模型“Loop” 循环架构 模型,前者通过强化学习模拟人类程序员的思考过程,后者则在有限的参数规模下实现了性能的跨越式提升。

目前,IQuest-Coder-V1 已在 GitHub 和 Hugging Face 平台全面开源,涵盖从 7B 到 40B 不同参数规模的版本。技术社区普遍认为,IQuest-Coder-V1 的发布将直接挑战 DeepSeek-Coder 在开源代码界的统治地位,为开发者提供更具竞争力的自主编程助手。

介绍页 demo

模型仓库


📌 转载信息
原作者:
HCPTangHY
转载时间:
2026/1/1 16:10:14