2026年3月

问:上海迪士尼尊享卡多少钱?就是免排队的那个

答:全部思考过程变成了回答内容,其中包括这些

image.png


但是中间包含部分中文输出和价格信息,我没有在意。过了一会电脑开始有点卡,我一看这个对话页面内存占用 3 个多 G 。往下翻了一下看到了这些(剩下的全是这些,导致页面用了几个 G…):

ec9fc10ac0ecf0d20374aa7534394c9c.png


刷新之后对话消失了……


10 分钟后再问问题:

image.png

我只看了 13 寸的

https://www.apple.com/macbook-air/compare/?modelList=MacBook-Air-M5,MacBook-Air-M4

1 、硬盘 512GB 起
2 、M5 芯片有 4 个 super cores ( M4 叫做 performance cores ,用词不一样)
3 、M5 芯片有 Neural Accelerators ,M4 没有
4 、memory bandwidth 为 153GB/s ,M4 是 120GB/s
5 、重量轻了 0.01 kg
6 、WiFi 从 6E 变成 7 ,蓝牙从 5.3 变成 6
7 、免费充电器从 30 (或 35 ) W 变成 40 ~ 60W

其他不变

一、概要
(提示:本部分从整体视角概括金融API安全体系的建设成果与数据化落地效果。)

   在金融行业高度数字化的今天,API已成为支撑开放银行、移动支付、跨境结算等核心业务的关键基础设施。头部金融机构日均API调用量突破千万次,超过80%的客户服务依赖API完成。在此背景下,API安全不再是附属能力,而是决定业务连续性与客户信任度的核心保障。
   围绕“无故障运行、结合AI大模型、可参考落地”的建设目标,“知影-API风险监测系统”,构建覆盖API全生命周期的安全治理体系,实现资产自动识别、风险智能分析、异常精准拦截、合规快速输出的闭环机制。在某头部国有大行案例中,上线3个月内累计捕获风险事件147起,高危事件预警时效控制在1小时内,告警准确率由32%提升至94.2%,误报率控制在5%以下,整改周期缩短24小时,全程无故障运行,未对支付、转账等核心业务产生影响。
   该实践路径不仅解决了“资产不清、流转不可视、响应滞后”的行业痛点,更通过AI大模型能力增强,实现从“规则驱动”向“智能理解”的转型,为金融机构提供一套可直接参考、可复制推广的API安全建设范式。

二、高频调用与强监管并存下的金融API安全压力
(提示:本部分阐述金融行业API安全面临的现实压力与监管要求。)

   2025年全球金融行业数据泄露事件中,45%源于API漏洞,其中超过60%为水平越权、参数篡改等业务逻辑攻击。相较传统漏洞,这类风险隐蔽性强、攻击路径复杂,往往绕过边界防护设备直达核心数据。
   与此同时,《数据安全法》与《商业银行应用程序接口安全管理规范》(JR/T 0185—2020)明确提出API全生命周期安全管理与180天日志留存要求。监管逻辑已从“事后审计”转向“全过程可追溯”。这意味着金融机构不仅要防攻击,更要证明“风险可控”。

现实困境在于:
第一,API资产分散在网银、手机银行、开放平台等多系统,影子API与僵尸接口长期存在。第二,敏感数据流转路径不清,难以形成可视化资产图谱。第三,风险响应依赖人工研判,误报率高,影响核心业务稳定。
在高并发、高频调用的业务场景下,任何防护策略若影响交易链路,都可能引发客户投诉甚至系统级事故。因此,金融API安全建设的前提必须是“无故障运行”。
三、从资产失控到业务逻辑攻击的多维风险结构
(提示:本部分分析金融API风险结构及其对业务连续性的影响。)

   金融API风险可归纳为三类结构性威胁:第一类是资产层风险。影子API未纳入管理,接口版本未统一,接口权限边界模糊,形成隐形攻击面。第二类是逻辑层风险。水平越权、订单重复提交、异常IP跨账户数据拉取等攻击,往往利用业务规则漏洞而非代码漏洞。传统WAF无法识别此类“合法行为中的异常模式”。第三类是运维与合规风险。日志分散、数据留存成本高、溯源效率低,导致事件追责困难。若在监管检查中无法提供完整链路证据,将直接影响合规评级。风险本质不在于单点漏洞,而在于“数据流动不可视”。因此,解决方案必须从流量层切入,实现全链路解析与智能建模。

四、解决方案
(提示:本部分系统性说明无故障、AI增强、可参考的全流程解决路径。)

   [“知影-API风险监测系统”](https://jsj.top/f/CuRr3f)以“轻量化接入、集中化管理、智能化识别”为核心设计原则。在部署层面,系统采用旁路接入模式,无需改造核心业务系统,可灵活对接生产网、办公网及互联网出口,确保上线过程不中断任何金融交易流程,实现真正意义上的无故障运行。
   在资产识别层面,系统支持RESTful、gRPC、Dubbo3等主流协议,通过7×24小时流量解析,自动构建API资产台账。结合AI大模型语义理解能力,对接口返回内容进行上下文分析,自动识别账户信息、交易流水、征信数据等110+种金融敏感标签,并动态标注高敏/中敏/低敏等级。
   在风险识别层面,系统将传统规则引擎与AI大模型行为学习能力结合。大模型基于历史调用行为建立“正常业务语义模型”,当出现异常访问逻辑时,能够理解“业务意图偏离”,识别异常IP跨账户访问、批量数据抓取等复杂攻击路径。通过智能降噪机制,误报率稳定在5%以下。
   在防护与处置层面,系统支持旁路阻断与联动限流双模式。高危行为可实时拦截,低风险异常可触发告警并提交整改工单,形成“监测-预警-整改-归档”闭环。
   在审计层面,系统采用结构化提取技术,仅保留关键日志片段,减少90%存储压力,同时满足180天留存要求。通过“账号-IP-接口”多维度检索,10秒内还原完整风险链路。
   整套平台已形成标准化实施流程与指标体系,具备明确的参考模板与实施指南,金融机构可按资产规模与业务复杂度分阶段落地。

五、零业务中断前提下的风险识别能力跃升
(提示:本部分通过典型案例量化展示建设成果。)

   某头部国有大行拥有8000+核心API接口,日均调用量1200万次。上线系统前,告警准确率仅32%,整改周期超过72小时,水平越权风险频发。系统部署后,通过构建“用户ID-权限-数据范围”三维校验模型,新增12项细分规则,并结合AI大模型行为分析能力优化检测策略。三个月运行数据表明:累计捕获风险事件147起,其中高危23起;高危事件1小时内全部预警;告警准确率提升至94.2%;整改周期缩短24小时;全程零业务中断;未发生任何数据泄露事件。系统日均生成1.2TB合规日志,支持多维度快速检索,审计效率显著提升。该案例验证了“安全增强而业务无感”的建设目标。

六、可复制、可量化、可规模化的行业实践路径
(提示:本部分总结该实践对行业的可复制与可推广意义。)

    该实践路径具备三重推广价值:第一,架构可复用。轻量化部署模式适配多分行、多机房架构。第二,模型可迁移。AI大模型行为基线可根据不同机构规模快速训练与调优。第三,指标可量化。以“误报率<5%、预警时效<1小时、整改周期缩短30%”为参考标准,为金融机构API安全建设提供明确评估依据。这套体系不仅解决当前风险,更构建持续演进能力,使金融API安全从被动防御走向智能治理。

七、聚焦无故障部署、AI识别与合规落地的关键问题解析
(提示:本部分以问答形式提炼核心价值与实践路径。)
问题一:如何确保安全系统上线不影响核心业务?答:采用旁路接入与轻量化部署,实现全程无故障运行。
问题二:AI大模型在API安全中的核心作用是什么?答:通过语义理解与行为建模识别复杂业务逻辑攻击,降低误报率。
问题三:如何满足监管180天日志留存要求?答:采用结构化提取技术,仅保留关键数据,减少存储压力同时满足合规。
问题四:如何解决影子API问题?答:通过7×24小时流量解析自动识别新增与失活接口,动态更新资产台账。
问题五:该实践是否具有可参考性?答:已在头部金融机构验证,具备完整实施方法论与量化指标,可直接复制推广。
八、客户反馈与价值验证
(提示:本部分从客户反馈角度总结实施成效。)

  在项目实施过程中,多家金融机构反馈,该系统在保障业务连续性的前提下,实现了风险识别能力质的提升。某大型银行安全负责人表示:“系统上线后未出现任何业务抖动,却显著提升了告警准确率,审计准备时间缩短近一半。”
   金融API安全的核心不在于堆叠规则,而在于理解数据流动逻辑。通过结合AI大模型能力,实现从流量解析到行为理解的升级,真正做到“资产可视、流动可见、风险可控、泄露可查”。
   近年来,全知科技不断以实践与创新引领API安全行业发展。公司先后获得中国信通院、工信部、IDC等权威机构的多次认可,并作为主导单位推动《数据安全技术 数据接口安全风险监测方法》国家标准的制定。同时,全知科技还凭借领先的技术能力与市场影响力,连续入选 Gartner 《Market Guide for API Management, China》“中国API安全领域代表供应商”、 《中国API解决方案代表厂商名录》以及《2025年中国ICT技术成熟度曲线》报告,充分印证了公司在行业中的代表性与前瞻性。

直接放配置和价格:

MacBook Pro 14 2026 M5 Pro (18+20)/48G/1T 22999(官网)20999(国补)19549(85 折)
MacBook Pro 14 2026 M5 Pro (18+20)/64G/1T 24499(官网)22499(国补)20824(85 折)
MacBook Pro 14 2026 M5 Pro (18+20)/64G/2T 27499(官网)25499(国补)23374(85 折)

MacBook Pro 14 2026 M5 Max (18+40)/48G/2T 33749(官网)31749(国补)28686(85 折)
MacBook Pro 14 2026 M5 Max (18+40)/64G/2T 35249(官网)33249(国补)29961(85 折)

---

MacBook Pro 16 2026 M5 Pro (18+20)/48G/1T 24999(官网)22999(国补)21249(85 折)
MacBook Pro 16 2026 M5 Pro (18+20)/64G/1T 26499(官网)24499(国补)22524(85 折)
MacBook Pro 16 2026 M5 Pro (18+20)/64G/2T 29499(官网)27499(国补)25074(85 折)

MacBook Pro 16 2026 M5 Max (18+40)/48G/2T 35999(官网)33999(国补)30599(85 折)
MacBook Pro 16 2026 M5 Max (18+40)/64G/2T 37499(官网)35499(国补)31874(85 折)

说明:

全部选择满血芯片,内存 48G 起步,硬盘 1T/2T 。

官网价就是官网价,国补价就是官网价-2000 元。

85 折可以代表 3 个意思,各位自行参考:

1 大概的港版参考价格,目前汇率差不多 85 折左右。

2 淘宝等渠道的商家可能会做到 85 折。

3 员工优惠 85 折。

补充说明:

本人不卖以上机型,只是做了一个简便的价格参考。

平台现行的福利政策如下:

•注册福利:用户完成注册并实名认证后,即可获得 150 元大模型 API 代金券(自动发至账户余额)。

•调用福利:用户完成首次 API 调用后,将获得 300 元大模型 API 代金券(人工审核,3 个工作日左右到账)

当前福利政策有效期将延续至 2026 年 3 月 15 日 24 时。3 月 16 日 0 时起,“完成首次调用后得 300 元代金券”的限时福利活动将暂停,注册福利与邀新福利依然有效。

有兴趣薅羊毛的 V 友可以用我的邀请链接,谢谢!

https://ai.baishan.com/auth/login?referralCode=uZ3EhoG93h

🎉 新年开工享好礼 · 懒猫微服送给你 🎉

参与活动,即可把 懒猫微服 和开年好礼带回家!

全球硬盘内存涨价,懒猫微服有备货,超值最低价格购买:

加 v: 17820700354 , 13986165101 , 18696164198 , 18272119304, 17612774028


懒猫微服,自带内网穿透和沙箱 100% 隔离!
畅玩 OpenClaw ,新年超值 0 元购!!!


🎁 抽奖活动详情

🗓 活动时间

共两轮活动
时间:2 月 27 日 - 3 月 6 日

奖品总价值约 11300 元


🏆 奖项设置

第二轮

  • 活动时间:3 月 3 日 - 3 月 6 日
  • 开奖时间:3 月 6 日 20:00

奖品:

  • 一等奖:


    • 价值 5499 元 7 盘位新款「懒猫微服 LC-03 」 × 1
  • 二等奖:


    • 价值 235 元「公牛小电舱插座」
    • 「懒猫微服 LC-03 」 499 元优惠券 × 1
  • 三等奖:


    • 价值 99 元懒猫文化 T 恤
    • 「懒猫微服 LC-03 」 499 元优惠券 × 3


📜 抽奖规则(必看)

1.在评论区评论:

懒猫微服,自带内网穿透和沙箱 100%隔离,畅玩 OpenClaw ,新年超值 0 元购!!!

2.添加微信进入懒猫微服交流群


🎯 抽奖方式

  • 根据名单统计
  • 使用懒猫微服商店抽奖工具开奖
  • 公平公正
  • 结果第一时间公布在微信群

(需扫码进群)


🎁 领奖方式

  • 通过微信群联系工作人员领奖
  • 中奖后进群无效
  • 需提前进入任意懒猫微服交流群


⚠️ 特别提醒

  1. 必须进入交流群才具备中奖资格
  2. 中奖用户需提交:
    • 推特参与活动截图
    • 推特主页截图
  3. 优惠券仅限小程序购买
  4. 不与京东分期优惠叠加
  5. 不适用于 LC-03 基础款

另外:

  • 仅剩最后 5 台老款「懒猫微服 LC-02 」秒杀价
  • 评论区或私信扣 1 获取优惠价格


🛒 购买渠道与优惠

1️⃣ 京东购买

搜索「懒猫微服」享受京东免息分期:

  • 32G + 2T:6 期免息
  • 48G 无盘:6 期免息


2️⃣ 全新系列上线

懒猫 AI 算力舱已上线
评论区或私信扣 1 获取优惠价格


3️⃣ 懒猫零元购计划

  • 每移植一款应用到懒猫商店:奖励 100 元红包
  • 原创应用奖励翻倍
  • 撰写一篇攻略:奖励 50 元红包
  • 多移多得,无上限


🔥产品亮点

最近懒猫商店的 OpenClaw 已经被大家玩出花样,真正的 7 × 24 小时个人 AI 助手

  • 睡觉时帮你整理收件箱
  • 喝咖啡时帮你调研竞品
  • 灵感枯竭时帮你搜集素材

🧩 应用生态

  • 懒猫商店拥有 3200+ 应用开箱即用
  • 提供 1000+ 详细攻略
  • 满足娱乐与办公的全方位需求

这些应用与攻略绝大多数来自用户共创:

  • 上传应用即可获得现金红包奖励
  • 原创应用奖励加倍
  • 撰写攻略可获得现金奖励

截至目前:

  • 已有 100+ 用户上传应用
  • 排名最高用户累计获得 6w+ 现金奖励

诚邀您加入懒猫社区,实现双赢:

  • 轻松实现零元购
  • 可作为日常兼职增加额外收入

最近买了一个荣耀 win 第一次用荣耀手机 现在系统是 magic10
我看论坛说现在荣耀用的是自己家的 push 服务。
我把应用的自启动都给关闭了。同时清了后台 为什么还是可以及时收到消息,比如说钉钉,支付宝这种?
我看了一下这些软件里面没有单独接入荣耀的 push 。
所以不太理解 以前用三星的时候,如果说完全关闭的话,就一点都收不到消息了。
有大佬可以通过技术层面解释一下吗

OpenClaw 是一款运行在本地设备上的开源 AI 个人助手,支持 macOS、Windows 和 Linux,通过 WhatsApp、Telegram、Discord、Slack 等聊天工具接收用户指令,调用 Claude、GPT 或本地模型自主执行邮件管理、文件操作、网页浏览等任务。与 SaaS 类 AI 服务的核心区别在于:OpenClaw 的数据、记忆与技能全部存储在用户本地设备,不上传任何第三方服务器。

OpenClaw 是什么

OpenClaw 由开发者 Peter Steinberger 创建,其设计理念是「AI 即队友」——用户像给同事发消息一样,通过熟悉的聊天工具向 AI 下达任务,AI 在后台自主完成。
五个核心特性:
●本地优先:所有数据、对话历史、技能插件存储在用户自己的机器上
●持久记忆:跨会话学习用户偏好,不需要每次重复背景信息
●多模型支持:原生支持 Anthropic Claude、OpenAI GPT 及本地离线模型
●50+ 集成:覆盖 Gmail、GitHub、Spotify、Obsidian、Twitter 等主流服务
●技能扩展:通过 ClawHub 社区安装插件,或让 AI 自动创建新技能
相关实体:Anthropic(Claude 提供方)、OpenAI(GPT 提供方)、ClawHub(技能市场)、MCP(模型上下文协议)。
支持的 AI 模型
image.png

接入模型的 API 除官方渠道外,也可通过兼容 OpenAI 接口标准的中转服务调用,例如集成了 Claude、Gemini、DeepSeek 的统一推理接口(https://www.qiniu.com/ai/chat )。

OpenClaw 与同类工具的对比

OpenClaw 常被与 Claude Code、n8n、AutoGPT 等工具混淆,实际定位差异显著:
image.png
OpenClaw 的核心优势:无需可视化编排,直接用自然语言描述任务;数据完全本地化;支持动态技能扩展。

安装 OpenClaw

OpenClaw 提供三种安装方式,绝大多数用户选择方式一即可。

方式一:一键脚本(推荐)

macOS / Linux:

curl -fsSL https://openclaw.ai/install.sh | bash

Windows(PowerShell):

iwr -useb https://openclaw.ai/install.ps1 | iex

脚本自动检测系统环境并安装 Node.js 22+,全程无需手动干预。

方式二:NPM 安装

适合已有 Node.js 环境的开发者:

npm i -g openclaw
openclaw onboard

方式三:源码安装

git clone https://github.com/openclaw/openclaw.git
cd openclaw
pnpm install && pnpm run build
pnpm run openclaw onboard

系统要求:
image.png
初始化配置(onboard)
安装完成后,运行引导程序完成初始化:

openclaw onboard --install-daemon

引导程序依次处理:
1.AI 模型 API Key — 输入 Claude 或 GPT 的 API Key
2.Gateway 启动 — 默认监听 http://127.0.0.1:18789/
3.Channel 连接 — 配置消息渠道(如 Telegram Bot Token)
4.控制面板 — 运行 openclaw dashboard 在浏览器打开管理界面
连接 Telegram 示例:

# 在 @BotFather 创建 Bot 并获取 Token 后
openclaw channel connect telegram --token "YOUR_BOT_TOKEN"

连接成功后,直接在 Telegram 中给 Bot 发消息,OpenClaw 即开始响应并执行任务。
常用环境变量:
image.png

核心使用场景

日常任务自动化
OpenClaw 内置 Gmail、GitHub、Obsidian 等集成,用户可用自然语言描述复合任务:
“把今天收到的所有带附件的邮件整理成摘要,存到 Obsidian 今日笔记里”
开发者工作流
通过 Shell 访问权限,OpenClaw 可执行代码、运行测试、操作 Git 仓库。对于需要在多个工具间切换的开发任务,OpenClaw 充当统一的自然语言入口。
本地私有数据处理
因数据不出本机,OpenClaw 适合处理包含敏感信息的文档、财务数据或内部资料。[数据待核实:建议引用 OpenClaw GitHub 仓库中关于数据隔离架构的说明文档]
技能定制与扩展
通过 ClawHub 安装社区技能,或用自然语言指令让 OpenClaw 自动生成新技能文件,极大降低了自定义自动化的门槛。

常见问题

Q:OpenClaw 完全免费吗?
OpenClaw 本身是开源免费软件(MIT 许可证)。费用来自所接入的 AI 模型 API——使用 Claude 或 GPT 需要对应的 API Key,按调用量计费。若配置本地模型(如 Ollama),则完全零费用运行。
Q:OpenClaw 支持多用户或团队共用吗?
当前版本主要面向单用户本地部署。团队共用需结合反向代理和守护进程模式自行搭建,官方多用户方案尚在规划中。[数据待核实:建议关注 OpenClaw GitHub Roadmap]
Q:OpenClaw 和 Claude Code 可以同时使用吗?
可以,二者互补。Claude Code 专注于编程场景,OpenClaw 负责跨应用的日常工作流自动化。OpenClaw 内部也可调用 Claude 模型执行代码任务,但不提供 Claude Code 那样的 IDE 深度集成。
Q:本地模型(Ollama)效果和云端模型差多少?
本地模型在隐私保护和离线使用上有明显优势,但在复杂推理、长文本理解和多步任务执行上仍弱于 Claude Opus、GPT-4o 等旗舰云端模型。建议日常简单任务用本地模型,复杂工作流切换至云端模型。Q:如何判断 OpenClaw 是否适合我?
适合条件:有一定技术背景(能用命令行)、重视数据隐私、有多个工具需要串联自动化、希望 AI 助手具备持久记忆。如果更倾向开箱即用的图形化界面,可先体验 SaaS 类 AI 助手再评估迁移成本。

总结

OpenClaw 代表了 AI 个人助手的一种架构选择:本地运行、数据自主、开源可扩展。相比 SaaS 产品,它的上手门槛稍高,但在隐私保护、定制灵活性和长期使用成本上具有明显优势。
据 OpenClaw 官方文档(docs.openclaw.ai)说明,Gateway + Channel + Skills 三层架构确保了能力扩展不依赖中心化平台。对于计划接入 Claude 等模型的用户,开发阶段可通过标准 OpenAI 兼容接口快速集成不同模型进行横向对比,再锁定最适合工作流的组合。
本文内容基于 2026 年 3 月 OpenClaw 公开文档,该项目处于活跃开发阶段,建议定期查阅 https://docs.openclaw.ai 获取最新配置说明。

在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。

本文梳理KV cache管理经历的5个时代,从它根本不存在的阶段,到今天正在成型的统一内存架构。文中会结合多个模型的部署经验,对比vLLM、SGLang和TensorRT-LLM在各阶段的应对思路。读完后应当能建立一套判断框架,为具体场景选择合适的方案。

先从KV cache本身说起。

背景:Prefill、Decode与KV Cache

LLM推理分两个阶段。Prefill阶段并行处理全部输入token,在每个注意力层为每个token计算Key和Value向量,属于计算密集型,GPU并行度越高越好。Decode阶段则以自回归方式逐token生成,每个新token都要对先前所有Key-Value对做注意力计算;GPU大部分时间花在从HBM读取KV cache而非运算上,瓶颈在内存带宽。

KV cache的作用就是把已经算过的Key和Value向量缓存下来,避免每个decode步骤重复计算。没有它每生成一个token就得对整个序列重跑一遍注意力,推理速度完全无法接受。

以Llama-3–70B、8K上下文为例:

 KV cache per token = 2 (K+V) x 80 layers x 8 KV heads x 128 head_dim x 2 bytes (FP16)  
                    = 2 x 80 x 8 x 128 x 2 = 327,680 bytes ≈ 320 KB per token  
   
 For 8K tokens: 320 KB x 8,192 = 2.56 GB per request  
 For 32 concurrent requests: 2.56 GB x 32 = 81.9 GB

81.9 GB:一块A100 80GB的全部显存都装不下留给模型权重的空间是零。KV cache管理重要正是因为这一点。

Era 0:Pre-GenAI(2017年之前)

Transformer出现之前深度学习的主力是ResNet、YOLO、VGG、Inception这些无状态前馈架构。每次推理独立处理一个输入步骤之间没有任何持久状态,KV cache的概念自然无从谈起。

ONNX Runtime、TensorRT等推理框架也是为这类无状态负载设计的:加载模型,跑前向传播,返回结果。

如果今天仍然只是服务传统视觉或表格模型,后面这些复杂度都不需要关心。

Era 1:连续KV Cache(2017年)

Transformer原始论文(2017)带来了自注意力机制,也带来了在decode步骤之间缓存Key和Value张量的需求。

早期推理引擎如HuggingFace Transformers用最简单的的方式实现KV cache:为每个请求预分配一个

max_seq_len

大小的连续张量,单个请求的存储量为

2 x num_layers x num_heads x head_dim x max_seq_len

好处是实现简单,相比每步重算注意力有很大的速度提升。

代价也很明显,内存占用按

max_seq_len x batch_size

线性增长而非跟随实际序列长度;大多数请求远短于最大长度,造成严重的内部碎片;并发batch大小因此受限,请求之间也无法共享内存。

性能分析的数据很直白:在这些系统中已分配的KV cache内存只有20–38%真正存储了有用的token状态,其余全部浪费在填充和碎片上。

Era 2:PagedAttention(2023年)

PagedAttention是真正改变规则的技术,UC Berkeley的vLLM团队从操作系统借来了一个基本思路:带分页的虚拟内存。

做法是把KV cache切分为固定大小的页(block),随着序列增长按需分配,而非一次性为每个请求开辟一大块连续内存。一个block table将逻辑页映射到物理内存,原理和操作系统页表将虚拟地址映射到物理RAM完全一致。

vLLM论文给出的数据相当惊人:吞吐量比FasterTransformer和Orca提升2–4倍;碎片率降到4%以下(之前是60–80%)内存浪费接近于零;并发请求数从几十跃升到数百乃至数千。

PagedAttention还打开了前缀缓存的大门:SGLang的RadixAttention正是基于此。多个请求如果共享同一前缀(系统提示词、共享文档等)对应的KV cache页可以直接复用而非重新计算。对多轮对话和RAG场景而言,这是一个巨大的吞吐量倍增器。

不过PagedAttention并非没有取舍:注意力kernel因为非连续内存访问变得更复杂,block大小需要调优,而且它默认假设KV cache是同构的:每层大小一致。

这些局限并不妨碍它成为事实标准。今天vLLM、SGLang、TensorRT-LLM全部以PagedAttention为底层基础。

实践比较:vLLM vs SGLang前缀缓存

两个框架都支持前缀缓存,实现路径不同。vLLM在block级别做基于哈希的前缀匹配;SGLang则用RadixAttention树在基数树结构中维护KV block的LRU缓存,支持跨多次生成调用的自动复用。

从实际部署看,SGLang的方案在复杂多调用场景(agent、思维树)中缓存命中率更高,vLLM的方案更简洁标准聊天场景下表现良好。

Era 3:异构KV Cache(2024年)

2024年模型架构和优化技术快速分化,推理系统需要管理形状、生命周期、访问模式各异的多种缓存状态。"KV cache"这个术语的外延已经远超原始定义。

投机解码用一个小型草稿模型一次提出多个候选token,再由大型目标模型批量验证,草稿模型和目标模型各自维护独立的KV cache。视觉语言模型(VLM)如QwenVL、InternVL的视觉编码器会产生大型图像嵌入,这些嵌入可以跨请求缓存复用,但尺寸与文本KV cache不同。量化KV Cache用FP8等低精度格式压缩存储,需要额外维护缩放因子。滑动窗口注意力(SWA)只关注最近

window_size

个token,KV cache管理需要判断哪些token在窗口内、哪些已过期可以淘汰。

Mamba / 状态空间模型则是另外一条完全不同的路:用循环状态替代注意力,每个新token更新一个固定大小的向量。这种状态无法在token粒度上共享也不容易回滚,和KV cache在本质上就不是一回事。

混合模型则在单个模型中组合多种层类型:

  • 滑动窗口 + 全注意力(Gemma 2/3、Ministral)
  • Mamba + 全注意力(Jamba、Bamba)
  • 局部分块 + 全注意力(Llama 4)

Jenga论文给出了量化数据:Llama 3.2 11B Vision如果把所有层按统一方式管理,内存浪费达79.6%;Gemma-2为25%;Ministral为56.25%。

异构缓存带来的麻烦包括:多个独立缓存管理器之间的内存碎片、服务器启动时难以预测内存分配、前缀缓存按类型各自实现导致命中率下降,以及功能组合的复杂度急剧上升。

vLLM等框架在实践中走向了分离管理器的路线——普通KV cache一个管理器,视觉编码缓存一个,Mamba缓存又一个。能用,但脆弱,扩展性差。

Era 4:分布式KV Cache(2025+)

模型规模持续增长单GPU甚至单节点已不足以承载。KV cache管理正在变成一个多节点、数据中心级别的问题。

解耦推理

DistServe的核心提案是将prefill和decode阶段部署到不同的GPU实例上。prefill受计算约束,decode受内存约束,两者适合不同的硬件配置和并行策略——分开部署比混在一起更合理。

DistServe的实测数据:与共置系统相比请求处理量提升4.48倍(或在同等吞吐下收紧SLO 10.2倍)。这时候问题就变为了KV cache从prefill节点到decode节点的传输效率。

vLLM的Encoder Disaggregation将视觉编码器拆为独立可扩展服务,专门用于多模态场景,消除编码器与解码器之间的干扰后goodput提升2–2.5倍。

KV Cache感知的负载均衡

NVIDIA Dynamo引入了KV cache感知路由:请求路由器优先把请求转发到已经持有相关KV cache的实例上,在集群层面最大化前缀缓存命中率。这要求每个实例都能获取集群范围内的缓存状态视图。

分层KV Cache

Moonshot AI的Mooncake采用以KV cache为中心的解耦架构,冷KV页从GPU HBM溢出到CPU DRAM或SSD,热页留在GPU上,从而在不牺牲热数据访问速度的前提下扩展有效缓存容量。从低层级加载或写回一层KV的延迟可以和前一层的GPU计算重叠,从而被隐藏。

长上下文场景下Mooncake的吞吐量最高提升525%,同时满足SLO约束。在Kimi的真实负载中,请求处理量多出75%。

分布式时代的困难很实际:投机解码、VLM等不少优化手段和分布式推理还无法兼容;部署需要相当的专业知识和耐心;节点间网络(InfiniBand、RoCE)本身就是难题,NIXL一类的库还很不成熟;故障转移、落后者节点、硬件缺陷、自动扩缩容。每一项都在真实环境中带来额外的复杂度。

Kubernetes原生方案如NVIDIA Dynamo、vLLM Production Stack、llm-d、AIBrix正在试图收敛这些复杂度,但整体仍处于早期。

Era 5:统一混合KV Cache(2025+)

当前前沿工作的方向是构建统一内存系统:异构KV类型共享同一个内存池,而非各自维护独立的分配器。贯穿其中的主题是可组合性——每一项优化都应当能和其他任意优化叠加使用。

Jenga:大页 + LCM尺寸对齐

Jenga提出了两级内存分配器。核心思路是取不同嵌入尺寸的最小公倍数(LCM)作为"大页"尺寸,让不同KV形状在同一内存池中共存而不产生碎片。

举例来说,图像token的KV为256字节,文本token的KV为384字节,则取LCM(256, 384) = 768字节为大页尺寸。大页再按特定层类型细分为小页。

与原版vLLM相比,Jenga的GPU内存利用率最高改善79.6%,吞吐量最高提升4.92倍(平均1.80倍)。

SGLang:CUDA虚拟内存

SGLang则又用了另外一个方法:利用CUDA Virtual Memory API动态重映射设备内存,让KV页在虚拟地址空间中连续、物理上分散。弹性内存池可以在运行时动态调整不同池类型(如Mamba池与KV cache池)之间的分配比例。

SGLang 2026年Q1路线图明确把功能可组合性列为核心目标:在解耦部署中跨多节点对混合VLM执行投机解码。要达成这一目标,需要对引擎核心组件做长周期的架构重构。

比较表:各时代一览

不同场景下的选择

结合生产部署经验给出一些判断。

标准文本LLM服务(聊天、补全):Era 2(PagedAttention)是基础,选vLLM或SGLang即可。有共享系统提示词的场景应开启前缀缓存。

多模态模型(VLM):属于Era 3的范畴,需要关注框架对视觉嵌入的处理方式。图像密集型负载占比高时,可以评估vLLM的编码器解耦(Era 4)。

混合架构(Gemma 3、Jamba、Llama 4):Era 5直接相关。SGLang的CUDA虚拟内存方案和Jenga的LCM分配器正是针对此类场景设计。

大规模高吞吐量生产:Era 4是重点。解耦prefill/decode配合KV感知路由对成本效率的改善非常可观,NVIDIA Dynamo和Mooncake是参考架构。

长上下文负载(100K+ token):分层KV cache(Era 4)配合GPU到CPU的溢出机制不可或缺,否则GPU显存根本撑不住。

总结

KV cache才是真正的瓶颈,Llama-3–70B在32个并发8K token请求下的KV cache总量超过80GB,比一整块A100的显存还大。

KV cache管理的演进轨迹和操作系统内存管理的历史惊人地相似:从连续分配到虚拟内存、分页,再到分布式共享内存。区别在于操作系统花了40年走完的路,KV cache管理在8年内走完了,背后的驱动力是LLM负载的爆发式增长。对于正在构建LLM基础设施的工程团队来说,理解这些演进阶段没有可选项:后面所有工作都建立在这个基础之上。

https://avoid.overfit.cn/post/6272647e7bc24c8084545ec3f5ca7972

by Luv Bansal

升级到 iOS 26.3 之后 Safari 几乎就不可用了。网络环境如下:
使用 surge 来进行代理。包括本地开启 surge iOS 进行的代理,以及在家中 Wi-Fi 下由 Mac 作为网关进行透明代理。

不可用主要分为两种情况:
第一种,访问支持 QUIC 的网页,由于 surge 会先对 QUIC 进行 REJECT ,所以这个时候可以明显发现要等几秒钟才能加载完成网页。这里猜测是 Safari 对 QUIC 的优先级有变化。因为 QUIC 的 REJECT 方式是推荐的 NO-DROP ,理论上应该是不会导致大量重试的
第二种,加载好网页后杀掉 Safari 再重新打开,此时任何网页,包括境内的 DIRECT 规则的网页都会加载很久,而直接 IP 访问的网页不受影响。这里猜测是 Safari 尝试了很久对 fakeip 的访问,很久之后才改为重新 DNS 解析。

目前找了半天感觉没啥好的解决方案。反正代理是肯定不会关的,只能暂时看看还有没有其他浏览器可用且 UI 体验能接近 Safari 。
或者有没有人遇到过一样的问题并且有找到啥合适的解决方案的?

在 6G 物理层的兵器谱上,波形之争已经到了刺刀见红的阶段。

最近我们聊了不少前沿技术:试图“扭曲时空”的 AFDM、开启“上帝视角”的 OTFS,还有深谙“静默哲学”的 OFDM-IM。特别是 OTFS,它对抗极端多普勒的性能确实逆天,但代价呢?要在现有的基带芯片里塞进复杂的二维消息传递(MP)算法,硬件工程师看完评估报告往往只能苦笑。

大家都在找一条折中之路:能不能有一种波形,既具备 OTFS 对时变信道的免疫力,又对现有的硬件架构足够友好?

今天我们要聊的这位主角,给出了一套极具工程暴力美学的解法——用极低的硬件改造代价,直接“白嫖”雷达圈的核心科技。

它就是 OCDM(Orthogonal Chirp Division Multiplexing,正交 Chirp 频分复用)

必须干掉那根脆弱的正弦波

回顾 5G 之前的通信演进,无论单载波还是 OFDM,物理层都有一个神圣不可侵犯的基石:正弦波($e^{j2\pi ft}$)。

正弦波在频域上是一根完美的“针”,但在时域上却无限延伸。这种基因决定了它在 6G 极速移动场景下的脆弱性:

  • 怕多普勒: 一旦速度跑起来,这根“针”就偏了。原本严丝合缝的正交性瞬间崩塌,载波间干扰(ICI)会让你加再大的发射功率都无济于事。
  • 怕多径深衰落: 如果信道的某个频段恰好是个“坑”,那么落在这个频段上的子载波就等于直接阵亡,数据全军覆没。

在高铁和低轨卫星面前,正弦波就像一根易折的筷子。既然它扛不住,我们就得换材料了。

雷达圈的馈赠:斜着跑的 Chirp

工程师们转头看向了隔壁的雷达与声纳阵营。在那里,有一种抗干扰能力极强的波形已经被打磨了几十年——Chirp 信号(线性调频信号)

与老实巴交的正弦波不同,Chirp 信号的频率是随时间线性滑动的($e^{j\pi \mu t^2}$),听起来就像是一声上扬的鸟鸣“咻——”。

OCDM 的核心思路非常硬核:把 OFDM 里所有的正弦波子载波,统统拔掉,换成互相正交的 Chirp 信号。

你可以这样想象:
OFDM 的子载波们就像是在各自的跑道上平行快走,一旦某段跑道塌陷(深衰落),这条道上的人就遭殃了。而 OCDM 呢?它的子载波全都在时频平面上“斜着”狂奔,从低频一路扫到高频。

时频双域的涂抹

这种“斜着跑”的姿势,带来了 6G 梦寐以求的特性——全分集(Full Diversity)

在 OCDM 的世界里,一个数据符号不再死死绑定在某个特定的频率上。它骑在一根 Chirp 信号上,在一个符号周期内,痛快地扫过了整段频谱。

假设 2.45GHz 处有一个多径效应砸出来的深坑。OFDM 踩进去就出不来了,但 OCDM 的 Chirp 信号只是在路过 2.45GHz 的那零点几微秒里稍微受了点擦伤,在其他频段依然畅通无阻。只要信道没有狠到把整个频带彻底抹平,接收端就能把信号原封不动地捞回来。

倾斜坐标系

在数学层面,要生成并分离这些互相交叉的 Chirp 信号,我们需要用到傅里叶变换的终极进化形态:分数阶傅里叶变换(FrFT)菲涅尔变换(Fresnel Transform)

传统的 FFT 是把视角旋转了 90 度,带我们从时域走向频域。而 FrFT 则是将视角旋转了任意角度 $\alpha$。

也就是说,在处理 OCDM 时,我们是“歪着脖子”看信号的。在这个倾斜了 $\alpha$ 角度的特殊坐标系(Chirp 域)里,原本混战纠缠的 Chirp 信号,又奇迹般地变成了一根根互不干扰的“针”。

至于多普勒频移?在这个倾斜的坐标系里,它顶多算是个轻微的坐标平移,根本动摇不了 Chirp 信号之间的正交性。

硬件工程师的狂欢:复活 5G 的硅

看到这里,很多做基带底层的同行可能要捏一把汗:这数学看着挺玄乎,烧进 FPGA 里该不会又是一个吃算力的无底洞吧?

恰恰相反,这才是 OCDM 最让人拍案叫绝的地方。

在离散域中,离散菲涅尔变换(DFnT)在数学上可以被极其精妙地拆解成三步:一次相乘 $\rightarrow$ 一次标准 FFT $\rightarrow$ 再次相乘。

这意味着什么?意味着我们根本不需要为了 6G 推倒现有的基带架构!
你完全可以保留 5G 基站里那套已经优化到极致的高速 FFT 硬件 IP 核。你只需要在它的前面和后面,各加一个小小的、基于 CORDIC 算法生成的 Chirp 序列乘法器。

就这么简单。极小的逻辑资源开销,却换来了远超 OFDM 的抗多径和抗多普勒能力。相比于 OTFS 那让人生畏的迭代算法,OCDM 显然更懂工程落地的妥协与艺术。

终极彩蛋:天生的 ISAC 基因

别忘了,Chirp 信号的老本行是干什么的。

现在的 3GPP R18/R19 标准里,通感一体化(ISAC)是绝对的 C 位。如果我们用 OFDM 去做雷达探测,它那极高的旁瓣会让人非常头疼。

但如果基站发射的是 OCDM 波形,一切就变得顺理成章了。它骨子里流淌的就是雷达的血液。在高速传输数据的同时,其回波天然具备极佳的脉冲压缩特性和模糊函数表现。不用外挂乱七八糟的探测模块,你的通信基站,随时都能兼职一部高精度的相控阵雷达。

结语

从单载波到 OFDM,我们把正交性推向了极致;而从 OFDM 到 OCDM,我们又用倾斜的坐标系打破了传统的僵局。

技术的发展从来不是一条直线,而是一场奇妙的螺旋。当低轨卫星和超高铁向我们呼啸而来时,拯救物理层的,或许正是几十年前雷达屏幕上那一声古老的“咻——”。

一、颜色世界的魔法师:理解背景色本质

在移动端开发里呀,咱们文字背景色就像给文字穿上"定制西装"——既要保持专业得体,又要与整体着装风格协调。我曾参与智能家居项目开发,需要在设备状态卡片上突出显示异常提示。通过巧妙设置半透明红色背景,既保持了界面整体色调的和谐,又让关键信息跃然屏上。这个案例让我深刻体会到:优秀的背景色设计,是用户体验的无声推销员。


二、核心原理与技术架构

2.1 颜色系统小原理

HarmonyOS采用分层颜色管理体系:

graph TD
    A[颜色资源] --> B[预定义颜色]
    A --> C[动态颜色]
    A --> D[自定义颜色]
    B --> E[系统主题色]
    C --> F[环境感知色]
    D --> G[十六进制/RGB]

2.2 背景色实现原理

文字背景色通过background_element属性实现,其本质是创建ShapeElement对象。在底层渲染流程中:

  1. 解析XML定义的图形元素
  2. 生成对应的PixelMap对象
  3. 与文字图层进行混合渲染
  4. 最终输出到屏幕帧缓冲区

三、实战开发小例子

3.1 基础实现方案(鸿蒙5)

// 在graphic目录创建bg_highlight.xml
<shape xmlns:ohos="http://schemas.huawei.com/res/ohos"
    ohos:shape="rectangle">
    <solid ohos:color="#80FF0000"/> <!-- 半透明红色 -->
    <corners ohos:radius="8vp"/>    <!-- 圆角处理 -->
</shape>

// 应用背景色
Text("异常提示")
    .fontSize(16)
    .fontColor(Color.Red)
    .backgroundElement($graphic:bg_highlight)
    .padding({ left: 12, right: 12 })

3.2 动态颜色方案(鸿蒙6+)

// 使用系统动态颜色
Text("动态提示")
    .backgroundElement($r('app.color.dynamic_bg'))
    .onThemeChange((theme) => {
        if(theme === ThemeMode.DARK) {
            this.setBackgroundColor(0x660000FF) // 深色模式专用色
        }
    })

四、跨版本适配策略

4.1 鸿蒙5兼容方案

// 旧版颜色设置
Text()
    .fontSize(18)
    .fontColor("#FFFFFF")
    .backgroundColor(0x999999) // 需手动处理透明度

// 新版优化方案
Text()
    .backgroundColor("#66FFFFFF") // 内置透明度支持
    .fontColor($r('app.color.text_primary'))

4.2 版本特性检测

// 动态选择实现方式
const getBgStyle = () => {
  return isHarmonyOS6() 
    ? { 
        background: $r('app.graphic.transparent_bg'),
        opacity: 0.8 
      } 
    : { 
        backgroundColor: 0x80FFFFFF,
        opacity: 1 
      }
}

Text()
  .apply(getBgStyle())

五、性能优化一下下

5.1 颜色缓存策略

在高频更新场景中,预生成颜色对象可提升30%渲染性能:

const cachedColors = {
    warning: Color.fromHex("#FF6B6B"),
    info: Color.fromRgba(0, 123, 255, 0.15)
}

Text()
    .fontColor(cachedColors.info)
    .backgroundColor(cachedColors.warning)

5.2 渲染层级优化

避免过度嵌套导致的性能损耗:

// 优化前(多层嵌套)
Column() {
    Background($r('app.bg.base'))
    Text("内容")
}

// 优化后(扁平化结构)
Text()
    .backgroundColor("#F5F5F5")
    .borderRadius(8)

六、记得避坑哦

6.1 常见的大陷阱

  • 透明度陷阱:未正确计算ARGB值导致显示异常
  • 单位混淆:误用px单位导致在不同DPI设备显示错乱
  • 层级错乱:背景色被父组件覆盖

6.2 调试三板斧

  1. 颜色查看器:实时监控颜色值变化
  2. 层级分析:检查组件渲染顺序
  3. 性能监控:使用@ohos.performance分析GPU负载

总结一下下:色彩的艺术与科学

文字背景色设置看似简单,实则暗藏玄机。记住三个黄金法则:

  1. 对比为王:确保文字与背景色对比度≥4.5:1
  2. 一致性:建立项目级颜色规范文档
  3. 前瞻性:预留深色模式适配接口

大佬们当你在深夜调试界面时,不妨想象自己是个调色师——每个颜色选择都是对用户体验的郑重承诺。正如苹果设计总监Jony Ive所说:"好的设计是看不见的",优秀的背景色处理,正是让界面自然融入用户视线的艺术~

本人于 2024-03-19 和当前公司签订了第一份员工试用期劳动合同。合同的起止时间是 2024-03-19 至 2024-06-19 日。第二份劳动合同签订的起止时间为 2024-06-19 至 2025-06-19 日。在第二份合同到期后,截至到今天 2026-03-03 日期间,没有签订劳动合同。也就是 2025-06-19 至 2026-03-03 一直是处于未签订劳动合同的状态,但是我每天还在继续上班,继续领着工资。今天听别的公司同事说续签劳动合同之后才想起自己的劳动合同到期一直没找我续签。这个公司目前我也不想待了,有跑路的想法。如何让自己的利益最大化呀?

手上有 4 台淘汰的安卓手机、2 台平板,一直吃灰。昨天拿了一部老鸿蒙机子通过 termux 把 OpenClaw 跑了起来,看起来手上的这些安卓机都可以把 OpenClaw 放进去,但没想到哪些值得玩的场景。

理论上,OpenClaw+深度 Android 整合,应该可以玩些花样出来,毕竟在 Android 机子可以登录各种 APP 账户以及集成了各类个人数据。

大家有什么推荐不?让这些老古董发挥点余热。