标签 语义缓存 下的文章

2026 年 1 月 20 日,第十五届亚太 CDN 产业大会暨年度颁奖盛典在北京隆重举行。作为 CDN 领域极具影响力的行业盛会,大会汇聚产、学、研、用领域领袖与专家,聚焦数智新时代下内容分发网络的技术创新与产业变革。火山引擎视频云边缘产品线高级解决方案总监许思安受邀出席,发表《AI 时代下应用加速的演进》主题演讲,深度解析火山引擎边缘云核心能力、AI 大模型融合场景及 CDN 未来演进形态,凭借扎实的技术沉淀与前瞻视野引发全场关注。

从“抖音同款”到生态赋能,火山引擎边缘云的技术进阶之路

演讲开篇,许思安详细介绍了火山引擎的发展历程与平台定位。作为字节跳动旗下云原生 AI 服务平台,火山引擎早期以“抖音同款内容云技术”为核心标签,2025 年起全面升级为面向更广泛机构的技术服务提供商,这一转变既是市场需求的必然回应,也是平台能力的全面进阶。

谈及核心竞争力,许思安强调,火山引擎 CDN 商业化虽始于 2021 年,但依托字节跳动原生技术底座,构建了自主研发的边缘云平台,融合预估算理与边缘网络,实现“让云计算数据无处不在”的核心目标。目前,平台已形成涵盖 RTC、CDN SaaS、IGA 等产品的丰富矩阵:RTC 针对国内外不同场景优化技术方案,底层资源统一适配;CDN SaaS 实现多厂商能力抽象整合,达成管控配置与质量监控一体化;IGA 则从传统分发向全链路加速延伸,提供 7 层全栈加速、3-4 层加速及跨境加速等多元化解决方案,精准覆盖非缓存类加速需求。

三大场景:AI 大模型深度融合,解锁加速服务新价值

在 AI 技术爆发的背景下,火山引擎积极探索边缘云与大模型的融合路径,许思安重点分享了三大核心业务场景:

联合加速方案:传输效率与访问稳定双提升

火山引擎联合豆包大模型打造全栈加速解决方案,具备多重核心优势:兼容 SSE、SaaS 等 AI 常用协议,适配多样化业务需求;通过智能选路、精准缓存等技术优化网络传输效率;集成跨境专线加速与 Web 请求分析能力,在边缘层高效处理并发请求,既保护原点安全,又提升访问稳定性。实测数据显示,该方案可使丢包率降低 5%-10%,延时缩短 10%-30%,目前已在火山引擎官网 RTC 产品矩阵中正式上线。

veFaaS 服务:Agent 适配与安全防护双强化

针对在火山引擎 veFaaS 服务上部署 agent 的客户,平台通过玩机产品适配提供 GS SDK,优化智能购物等业务逻辑。同时,借助 ACP 请求经内网访问火山引擎 refuse 服务,既有效抵御公网攻击,为源站单向服务构建安全屏障,又显著提升访问效率,降低网络延时。

AI 应用开发部署平台:轻量化设计与开发者赋能双推进

聚焦 AI 应用落地痛点,火山引擎打造一键式开发部署平台,整合自身加速、安全防护与观测能力。平台支持模板创建、导入及本地上传等多种开发模式,集成 AI 插件生态,可一键部署代码并调用火山方舟、千川等大模型,大幅降低开发者工作量。目前已覆盖家居、安防等多个场景,为行业 AI 应用落地提供高效支撑。

三阶演进:AI 时代 CDN 加速网的未来形态

谈及 CDN 行业的发展趋势,许思安提出“优化 - 变化 - 变革”三阶演进模型,描绘 AI 时代加速网络的未来蓝图:

优化阶段:AI 驱动全链路效率升级

通过 AI 技术实现四大优化:智能调度基于用户行为与网络状态预判热点,提升缓存命中率;传输优化动态调整视频码率等策略,替代传统固化方案;智能运维构建全局决策系统,实现异常识别与故障自愈,提升容灾切换效率;安全防护从被动防御转向主动感知,形成快速响应机制。

变化阶段:从分发节点到边缘计算单元

硬件层方面,CDN 节点将升级为集计算、存储、网络安全于一体的边缘计算单元,优化 CPU、GPU 等算力配置;软件层从中心化分布向边缘协同分布式平台演进,部署容器引擎并优化节点间通讯资源;场景层面,承载内容从互联网内容拓展至 AIGC 生成数据、车联网数据等全行业低时延数据。

变革阶段:语义缓存 + 边缘推理的深度融合

许思安强调,CDN 的核心突破将是从基于内容哈希的静态缓存,升级为基于语义理解的智能缓存。这一变革将在多场景落地:AIGC 头像生成场景缓存热门提示词接口,大模型聊天机器人场景缓存常见问题响应,AI 推理 API 场景精准分配请求至边缘单元,IOT 设备场景剔除无效数据、聚合同类数据。未来,语义缓存与边缘推理的深度结合,将形成 "场景化精准处理" 的新型架构,大幅降低 AI 请求响应时间与后端算力成本。

双奖加持:行业认可火山引擎技术实力

本次大会颁奖环节,火山引擎凭借在 AI 基础设施领域的卓越技术创新、完善解决方案及行业影响力,以及在 CDN 领域的深耕细作与突出服务表现,一举斩获“AI 基础设施标杆奖”“CDN 行业先锋奖”两项重磅荣誉,充分彰显行业对其技术实力与市场价值的高度认可。

未来,火山引擎将持续深耕 AI、应用加速、CDN 等核心领域,以技术迭代与产品创新为驱动力,不断探索加速服务与行业场景的深度融合,为千行百业数字化转型提供更高效、更安全、更智能的技术支撑,助力数字经济高质量发展。

2026 年 1 月 20 日,第十五届亚太 CDN 产业大会暨年度颁奖盛典在北京隆重举行。作为 CDN 领域极具影响力的行业盛会,大会汇聚产、学、研、用领域领袖与专家,聚焦数智新时代下内容分发网络的技术创新与产业变革。火山引擎视频云边缘产品线高级解决方案总监许思安受邀出席,发表《AI 时代下应用加速的演进》主题演讲,深度解析火山引擎边缘云核心能力、AI 大模型融合场景及 CDN 未来演进形态,凭借扎实的技术沉淀与前瞻视野引发全场关注。

从“抖音同款”到生态赋能,火山引擎边缘云的技术进阶之路

演讲开篇,许思安详细介绍了火山引擎的发展历程与平台定位。作为字节跳动旗下云原生 AI 服务平台,火山引擎早期以“抖音同款内容云技术”为核心标签,2025 年起全面升级为面向更广泛机构的技术服务提供商,这一转变既是市场需求的必然回应,也是平台能力的全面进阶。

谈及核心竞争力,许思安强调,火山引擎 CDN 商业化虽始于 2021 年,但依托字节跳动原生技术底座,构建了自主研发的边缘云平台,融合预估算理与边缘网络,实现“让云计算数据无处不在”的核心目标。目前,平台已形成涵盖 RTC、CDN SaaS、IGA 等产品的丰富矩阵:RTC 针对国内外不同场景优化技术方案,底层资源统一适配;CDN SaaS 实现多厂商能力抽象整合,达成管控配置与质量监控一体化;IGA 则从传统分发向全链路加速延伸,提供 7 层全栈加速、3-4 层加速及跨境加速等多元化解决方案,精准覆盖非缓存类加速需求。

三大场景:AI 大模型深度融合,解锁加速服务新价值

在 AI 技术爆发的背景下,火山引擎积极探索边缘云与大模型的融合路径,许思安重点分享了三大核心业务场景:

联合加速方案:传输效率与访问稳定双提升

火山引擎联合豆包大模型打造全栈加速解决方案,具备多重核心优势:兼容 SSE、SaaS 等 AI 常用协议,适配多样化业务需求;通过智能选路、精准缓存等技术优化网络传输效率;集成跨境专线加速与 Web 请求分析能力,在边缘层高效处理并发请求,既保护原点安全,又提升访问稳定性。实测数据显示,该方案可使丢包率降低 5%-10%,延时缩短 10%-30%,目前已在火山引擎官网 RTC 产品矩阵中正式上线。

veFaaS 服务:Agent 适配与安全防护双强化

针对在火山引擎 veFaaS 服务上部署 agent 的客户,平台通过玩机产品适配提供 GS SDK,优化智能购物等业务逻辑。同时,借助 ACP 请求经内网访问火山引擎 refuse 服务,既有效抵御公网攻击,为源站单向服务构建安全屏障,又显著提升访问效率,降低网络延时。

AI 应用开发部署平台:轻量化设计与开发者赋能双推进

聚焦 AI 应用落地痛点,火山引擎打造一键式开发部署平台,整合自身加速、安全防护与观测能力。平台支持模板创建、导入及本地上传等多种开发模式,集成 AI 插件生态,可一键部署代码并调用火山方舟、千川等大模型,大幅降低开发者工作量。目前已覆盖家居、安防等多个场景,为行业 AI 应用落地提供高效支撑。

三阶演进:AI 时代 CDN 加速网的未来形态

谈及 CDN 行业的发展趋势,许思安提出“优化 - 变化 - 变革”三阶演进模型,描绘 AI 时代加速网络的未来蓝图:

优化阶段:AI 驱动全链路效率升级

通过 AI 技术实现四大优化:智能调度基于用户行为与网络状态预判热点,提升缓存命中率;传输优化动态调整视频码率等策略,替代传统固化方案;智能运维构建全局决策系统,实现异常识别与故障自愈,提升容灾切换效率;安全防护从被动防御转向主动感知,形成快速响应机制。

变化阶段:从分发节点到边缘计算单元

硬件层方面,CDN 节点将升级为集计算、存储、网络安全于一体的边缘计算单元,优化 CPU、GPU 等算力配置;软件层从中心化分布向边缘协同分布式平台演进,部署容器引擎并优化节点间通讯资源;场景层面,承载内容从互联网内容拓展至 AIGC 生成数据、车联网数据等全行业低时延数据。

变革阶段:语义缓存 + 边缘推理的深度融合

许思安强调,CDN 的核心突破将是从基于内容哈希的静态缓存,升级为基于语义理解的智能缓存。这一变革将在多场景落地:AIGC 头像生成场景缓存热门提示词接口,大模型聊天机器人场景缓存常见问题响应,AI 推理 API 场景精准分配请求至边缘单元,IOT 设备场景剔除无效数据、聚合同类数据。未来,语义缓存与边缘推理的深度结合,将形成 "场景化精准处理" 的新型架构,大幅降低 AI 请求响应时间与后端算力成本。

双奖加持:行业认可火山引擎技术实力

本次大会颁奖环节,火山引擎凭借在 AI 基础设施领域的卓越技术创新、完善解决方案及行业影响力,以及在 CDN 领域的深耕细作与突出服务表现,一举斩获“AI 基础设施标杆奖”“CDN 行业先锋奖”两项重磅荣誉,充分彰显行业对其技术实力与市场价值的高度认可。

未来,火山引擎将持续深耕 AI、应用加速、CDN 等核心领域,以技术迭代与产品创新为驱动力,不断探索加速服务与行业场景的深度融合,为千行百业数字化转型提供更高效、更安全、更智能的技术支撑,助力数字经济高质量发展。

在大模型(LLM)服务极速发展的当下,效率至关重要。为了降低延迟并控制算力成本,主流推理框架广泛引入了先进的缓存机制。然而,这种追求极致速度的设计是否埋下了安全隐患?

本论文是由奇安信技术研究院、中国海洋大学和清华大学联合完成的AI安全研究工作说明了缓存机制如果实现不恰当的话,就会造成安全隐患。论文题目为《Cache Me, Catch You: Cache Related Security Threats in LLM Serving Frameworks》。这项工作由中国海洋大学和奇安信联合培养的硕士研究生吴祥凡在奇安信技术研究院联培期间主导完成,导师为应凌云博士(奇安信星图实验室)和曲海鹏教授(中国海洋大学),其他作者为陈国强(奇安信星图实验室),谷雅聪(清华大学)。这项研究聚焦于大语言模型(LLM)推理服务框架中的安全威胁,深入分析了 KV Cache、多模态缓存及语义缓存 三大核心机制。

1. LLM推理加速背后的隐忧

随着模型参数规模的不断膨胀,推理计算的开销急剧上升。为了优化用户体验,vLLM、SGLang、GPTCache等主流服务框架引入了多种缓存策略,包括前缀缓存(Prefix Cache)、语义缓存(Semantic Cache)和多模态缓存(Multimodal Cache)。

虽然这些机制通过存储中间状态极大地减少了重复计算,但我们的研究发现,现有的缓存实现往往“重效率、轻安全”。非加密哈希函数的滥用、有缺陷的对象序列化以及模糊的语义匹配标准,共同构成了一个全新的、尚未被充分探索的攻击面。与以往关注训练阶段的数据投毒不同,这是一类发生在推理阶段的全新安全威胁。

2. Cache Me, Catch You:首个LLM缓存安全系统性研究

为了揭示这一风险,我们对主流LLM服务框架的缓存实现进行了全面的解构与分析,并提出了六种新颖的攻击向量。这些攻击利用了哈希碰撞和语义模糊匹配的特性,能够在不接触模型权重的情况下,通过污染共享缓存来操纵模型输出。

主要发现与攻击向量:

我们将发现的威胁归纳为两大类:一是面向用户的欺诈攻击,即攻击者利用系统渠道向用户传递恶意信息 ,具体手段包括利用哈希碰撞替换合法提示词以劫持对话逻辑的系统提示词碰撞、针对语义缓存构造高相似度恶意查询诱导错误回答的语义模糊投毒 ,以及在检索增强生成场景下利用文档相似性扩大攻击面的RAG语义投毒 ;二是系统完整性攻击,旨在破坏服务功能或绕过安全审查 ,具体涵盖构造与目标完整前缀碰撞以劫持响应的提示词碰撞劫持 、通过精心构造padding token让恶意代码块对LLM“隐形”以绕过审计的分块碰撞劫持 ,以及利用图像处理忽略元数据(如尺寸)缺陷构造哈希碰撞图片以绕过审核的多模态碰撞 。

细节详解:

以多模态为例,其核心漏洞根源在于当前主流推理框架(如vLLM)在对多模态数据进行序列化时存在严重的逻辑缺陷。具体而言,vLLM默认调用PIL 的 tobytes() 方法来提取图像数据以计算哈希,该方法虽然能获取原始像素字节流,但在vLLM的后续操作中完全忽略了图像宽高等尺寸信息以及调色板等关键元数据。攻击者利用这一特性实施“尺寸伪装”攻击,通过重塑图像维度(例如将 H*W的图像变形为W*H)而不改变像素排列顺序,使得原本违规的图片变成一团毫无意义的噪点,从而生成与原图完全一致的哈希值。此外,攻击者还能利用“调色板模式”漏洞,构造出索引数据相同但颜色定义截然相反的图片对(如黑底白字与白底黑字),由于序列化过程仅读取索引而忽略调色板定义,这两张视觉迥异的图片在系统眼中却拥有相同的“指纹”。

同样的隐患也出现在SGLang框架中,其为了适配张量数值范围将SHA256哈希值进行了取模截断,导致哈希空间被压缩至极易发生碰撞的范围。

下图是我们操纵图片当中的尺寸和PNG当中的P格式的调色盘,实现看上去不同的图片但是hash一致。

3. 实验效果与影响评估

我们在vLLM、SGLang及GPTCache等主流开源框架上进行了实测,证实了这些攻击路径的高可用性与低门槛:攻击者仅需不到1美元的成本即可完成一次投毒 。以针对vLLM的前缀缓存攻击为例,我们在30分钟内便成功搜索到碰撞哈希,实现了100%的缓存命中 。

实验还还原了真实的威胁场景违规图片如何利用多模态缓存缺陷骗过内容审核系统。下图展示一个示意图,成功命中图片之后会复用之前的图片预处理结果,导致生成了错误回复。

4. 防御方案与行业响应

针对发现的漏洞,我们提出了五层防御策略,包括引入随机化哈希(Salting)、采用强加密哈希函数、强制规范化序列化流程、使用更鲁棒的Embedding模型以及增加LLM辅助过滤层。我们的理论分析和实际验证表明,上述的防御方案是可行的、有效的。

我们在第一时间将发现的漏洞通报给了受影响的厂商和社区,包括 vLLM、SGLang、GPTCache、AIBrix、rtp-llm 和 LMDeploy,并分配了 3个 CVE 编号。值得注意的是,vLLM、GPTCache 和 AIBrix 已经采纳了我们提出的缓解措施(如引入随机盐值、规范化图像序列化等)并完成了修复。(在本文发表时,SGLang也反馈采纳了我们的缓解措施。)

5. 讨论与未来展望

我们的研究再次表明,高性能不应成为忽视底层系统安全的理由。本研究证明,即便模型本身无懈可击,外围缓存框架的设计缺陷仍足以瓦解整个系统的信任基石;特别是在云端共享算力场景下,必须实施严格的多租户隔离与键值空间分离以防御跨租户攻击。作为填补推理侧缓存安全空白的先行工作,本研究旨在推动社区正视这一隐蔽威胁,共同构建更稳健的大模型服务基础设施。

更多参考

想了解更多技术细节?欢迎阅读我们的学术论文或访问项目主页:

代码仓库:https://github.com/XingTuLab/Cache_Me_Catch_You

感谢您的阅读,期待能为您的AI安全研究与工程实践带来启发!

在大模型(LLM)服务极速发展的当下,效率至关重要。为了降低延迟并控制算力成本,主流推理框架广泛引入了先进的缓存机制。然而,这种追求极致速度的设计是否埋下了安全隐患?

本论文是由奇安信技术研究院、中国海洋大学和清华大学联合完成的AI安全研究工作说明了缓存机制如果实现不恰当的话,就会造成安全隐患。论文题目为《Cache Me, Catch You: Cache Related Security Threats in LLM Serving Frameworks》。这项工作由中国海洋大学和奇安信联合培养的硕士研究生吴祥凡在奇安信技术研究院联培期间主导完成,导师为应凌云博士(奇安信星图实验室)和曲海鹏教授(中国海洋大学),其他作者为陈国强(奇安信星图实验室),谷雅聪(清华大学)。这项研究聚焦于大语言模型(LLM)推理服务框架中的安全威胁,深入分析了 KV Cache、多模态缓存及语义缓存 三大核心机制。

1. LLM推理加速背后的隐忧

随着模型参数规模的不断膨胀,推理计算的开销急剧上升。为了优化用户体验,vLLM、SGLang、GPTCache等主流服务框架引入了多种缓存策略,包括前缀缓存(Prefix Cache)、语义缓存(Semantic Cache)和多模态缓存(Multimodal Cache)。

虽然这些机制通过存储中间状态极大地减少了重复计算,但我们的研究发现,现有的缓存实现往往“重效率、轻安全”。非加密哈希函数的滥用、有缺陷的对象序列化以及模糊的语义匹配标准,共同构成了一个全新的、尚未被充分探索的攻击面。与以往关注训练阶段的数据投毒不同,这是一类发生在推理阶段的全新安全威胁。

2. Cache Me, Catch You:首个LLM缓存安全系统性研究

为了揭示这一风险,我们对主流LLM服务框架的缓存实现进行了全面的解构与分析,并提出了六种新颖的攻击向量。这些攻击利用了哈希碰撞和语义模糊匹配的特性,能够在不接触模型权重的情况下,通过污染共享缓存来操纵模型输出。

主要发现与攻击向量:

我们将发现的威胁归纳为两大类:一是面向用户的欺诈攻击,即攻击者利用系统渠道向用户传递恶意信息 ,具体手段包括利用哈希碰撞替换合法提示词以劫持对话逻辑的系统提示词碰撞、针对语义缓存构造高相似度恶意查询诱导错误回答的语义模糊投毒 ,以及在检索增强生成场景下利用文档相似性扩大攻击面的RAG语义投毒 ;二是系统完整性攻击,旨在破坏服务功能或绕过安全审查 ,具体涵盖构造与目标完整前缀碰撞以劫持响应的提示词碰撞劫持 、通过精心构造padding token让恶意代码块对LLM“隐形”以绕过审计的分块碰撞劫持 ,以及利用图像处理忽略元数据(如尺寸)缺陷构造哈希碰撞图片以绕过审核的多模态碰撞 。

细节详解:

以多模态为例,其核心漏洞根源在于当前主流推理框架(如vLLM)在对多模态数据进行序列化时存在严重的逻辑缺陷。具体而言,vLLM默认调用PIL 的 tobytes() 方法来提取图像数据以计算哈希,该方法虽然能获取原始像素字节流,但在vLLM的后续操作中完全忽略了图像宽高等尺寸信息以及调色板等关键元数据。攻击者利用这一特性实施“尺寸伪装”攻击,通过重塑图像维度(例如将 H*W的图像变形为W*H)而不改变像素排列顺序,使得原本违规的图片变成一团毫无意义的噪点,从而生成与原图完全一致的哈希值。此外,攻击者还能利用“调色板模式”漏洞,构造出索引数据相同但颜色定义截然相反的图片对(如黑底白字与白底黑字),由于序列化过程仅读取索引而忽略调色板定义,这两张视觉迥异的图片在系统眼中却拥有相同的“指纹”。

同样的隐患也出现在SGLang框架中,其为了适配张量数值范围将SHA256哈希值进行了取模截断,导致哈希空间被压缩至极易发生碰撞的范围。

下图是我们操纵图片当中的尺寸和PNG当中的P格式的调色盘,实现看上去不同的图片但是hash一致。

3. 实验效果与影响评估

我们在vLLM、SGLang及GPTCache等主流开源框架上进行了实测,证实了这些攻击路径的高可用性与低门槛:攻击者仅需不到1美元的成本即可完成一次投毒 。以针对vLLM的前缀缓存攻击为例,我们在30分钟内便成功搜索到碰撞哈希,实现了100%的缓存命中 。

实验还还原了真实的威胁场景违规图片如何利用多模态缓存缺陷骗过内容审核系统。下图展示一个示意图,成功命中图片之后会复用之前的图片预处理结果,导致生成了错误回复。

4. 防御方案与行业响应

针对发现的漏洞,我们提出了五层防御策略,包括引入随机化哈希(Salting)、采用强加密哈希函数、强制规范化序列化流程、使用更鲁棒的Embedding模型以及增加LLM辅助过滤层。我们的理论分析和实际验证表明,上述的防御方案是可行的、有效的。

我们在第一时间将发现的漏洞通报给了受影响的厂商和社区,包括 vLLM、SGLang、GPTCache、AIBrix、rtp-llm 和 LMDeploy,并分配了 3个 CVE 编号。值得注意的是,vLLM、GPTCache 和 AIBrix 已经采纳了我们提出的缓解措施(如引入随机盐值、规范化图像序列化等)并完成了修复。(在本文发表时,SGLang也反馈采纳了我们的缓解措施。)

5. 讨论与未来展望

我们的研究再次表明,高性能不应成为忽视底层系统安全的理由。本研究证明,即便模型本身无懈可击,外围缓存框架的设计缺陷仍足以瓦解整个系统的信任基石;特别是在云端共享算力场景下,必须实施严格的多租户隔离与键值空间分离以防御跨租户攻击。作为填补推理侧缓存安全空白的先行工作,本研究旨在推动社区正视这一隐蔽威胁,共同构建更稳健的大模型服务基础设施。

更多参考

想了解更多技术细节?欢迎阅读我们的学术论文或访问项目主页:

代码仓库:https://github.com/XingTuLab/Cache_Me_Catch_You

感谢您的阅读,期待能为您的AI安全研究与工程实践带来启发!