包含关键字 typecho 的文章

最重要的就是先更新最新的 Antigravity Tools,否则很可能会 429,我就是这么困扰了好几天的。
地址:Release Antigravity Tools v3.3.49 · lbjlaq/Antigravity-Manager · GitHub


账号可以多加几个,可以一键切换,启动反代服务,其它的我目前是都默认就可以。
个人经验分享一下 Antigravity tools 配合 cc switch2


然后就是在 cc switch 中增加配置,这里我增加了一手配置
地址:Releases · farion1231/cc-switch · GitHub

{ "env": { "ANTHROPIC_AUTH_TOKEN": "sk-*", "ANTHROPIC_BASE_URL": "http://127.0.0.1:2333", "ANTHROPIC_DEFAULT_OPUS_MODEL": "claude-opus-4-5-thinking", "ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-sonnet-4-5-thinking", "API_TIMEOUT_MS": "3000000", "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1" }, "model": "opus" } 


启用配置后再配合 opcode, 就可以畅享 CC 了。
地址:Release v0.2.0 · winfunc/opcode · GitHub
还有注意的就是「节点」要稳,大部分 429 都是节点问题。
不是大佬,只是把自己试出来的东西分享给大家,peace and love


📌 转载信息
原作者:
beauty
转载时间:
2026/1/23 11:59:05

自己从 lroolle/chatgpt-degraded fork 改装来的,其实也就是加了一个监控订阅剩余时长的,这个对于 team 订阅来说还是挺重要的( 我自己有这个需求,所以就改装了一下

大概用了两个月了,一直没啥问题。订阅时间也很准,不过很多时候可能 openai 会提前封号,尤其是订阅时间只剩 1-2 天的时候要注意一下。

greasyfork 脚本:


📌 转载信息
原作者:
zhenhuang
转载时间:
2026/1/23 11:58:56

项目地址

V2 版本

  • 改用 KV 管理账号
  • 自带简易保活

V1 版本

一键部署

点击下方按钮快速部署:

Render 服务管理面板 V2 版本,重大更新2

Render 服务管理系统

一个现代化的 Render 服务管理面板,让你能够集中管理多个 Render 账户中的 WEB_SERVICE 服务。提供账户管理、服务监控、部署控制、环境变量管理、日志查看和实例管理等完整功能。

特性

账户管理

  • 通过 Web 界面动态添加、编辑、删除 Render 账户
  • API Key 添加前自动验证有效性
  • 账户信息安全存储在 Cloudflare KV 中
  • API Key 仅显示预览(前 8 位… 后 4 位)

安全登录

  • 提供密码保护的登录页面
  • 基于 Cookie 的会话管理(24 小时过期,滑动刷新)
  • CSRF Token 双提交 Cookie 模式保护
  • IP + 用户名双重登录失败锁定(指数退避)
  • 时序安全的密码比较(防止时序攻击)
  • HSTS 安全头强制 HTTPS
  • 登录状态持久化

服务监控面板

  • 实时显示服务状态(运行中 / 已暂停)
  • 服务统计信息(总数、运行中数量、账户数)
  • 服务搜索和账户过滤功能
  • 智能缓存机制(15 分钟新鲜 / 24 小时过期)
  • 手动刷新按钮和缓存时间显示

部署管理

  • 一键触发部署
  • 查看部署历史记录
  • 取消进行中的部署
  • 回滚到历史版本

服务控制

  • 暂停 / 恢复服务
  • 重启服务
  • 服务状态实时更新

环境变量管理

  • 查看所有环境变量
  • 在线编辑环境变量值
  • 添加新的环境变量
  • 删除现有环境变量
  • 值的复制功能

日志与监控

  • 查看服务运行日志
  • 日志级别筛选(error/warn/info/debug)
  • 终端风格深色主题日志查看器
  • 查看服务实例状态
  • 扩缩容服务实例

事件日志

  • 查看最近事件日志
  • 显示部署开始 / 结束状态
  • 部署成功 / 失败状态标识
  • 显示触发原因和用户信息

现代化 UI

  • 响应式设计,支持移动端
  • 漂亮的卡片式布局
  • 流畅的交互动画
  • 一致的设计风格

自动保活(Cron)

  • 定时 Ping 所有运行中的 Web 服务
  • 并发批处理(每批 10 个服务)
  • 指数退避重试机制
  • 智能利用缓存减少 API 调用

快速开始

方式 1: 通过 Wrangler CLI 部署(推荐)

  1. 克隆仓库

    git clone https://github.com/ssfun/render-service-manager.git
    cd render-service-manager
    
  2. 安装 Wrangler CLI

    npm install -g wrangler
    
  3. 创建 KV 命名空间

    npx wrangler kv:namespace create RENDER_KV
    

    将返回的 ID 复制备用。

  4. 配置 wrangler.toml
    编辑 wrangler.toml 文件:

    name = "render-service-manager" main = "src/index.js" compatibility_date = "2025-10-01" [observability] enabled = true [[kv_namespaces]] binding = "RENDER_KV" id = "你的KV_ID" # 替换为上一步获取的 ID [triggers] crons = ["*/5 * * * *"]  # 每5分钟执行一次保活任务 [vars] ADMIN_USERNAME = "admin" ADMIN_PASSWORD = "your-strong-password" # 请修改为强密码 
  5. 登录并部署

    npx wrangler login
    npx wrangler deploy
    
  6. 添加 Render 账户

    • 访问部署后的 URL
    • 使用配置的用户名密码登录
    • 点击右上角 "账户管理"
    • 点击 "添加账户",输入名称和 Render API Key

方式 2: 手动部署(无需 Wrangler CLI)

  1. 登录 Cloudflare 账户

  2. 创建 KV 命名空间

    • 导航到 “Workers” > “KV”。
    • 点击 “Create a namespace”。
    • 输入名称(如 “RENDER_KV”),复制生成的 ID 备用。
  3. 创建 Worker

    • 导航到 “Workers” > “Overview”。
    • 点击 “Create a Worker”。
    • 输入 Worker 名称(如 “render-service-manager”)。
  4. 上传代码

    • 在 Worker 编辑器中,上传本项目的源代码。
  5. 配置环境变量

    • 点击 “Settings” > “Variables”。
    • 添加以下环境变量:
      变量名
      ADMIN_USERNAMEadmin
      ADMIN_PASSWORDyour-strong-password
  6. 绑定 KV 命名空间

    • 在 “Settings” > “Bindings” > “KV Namespace Bindings” 部分。
    • 点击 “Add binding”。
    • 变量名称输入 RENDER_KV
    • 选择步骤 2 中创建的 KV 命名空间。
  7. 部署 Worker

    • 点击 “Save and Deploy”。
    • 通过提供的 URL 访问(例如: render-service-manager.your-subdomain.workers.dev)。
  8. 添加 Render 账户

    • 登录后点击 "账户管理" 添加你的 Render 账户。

环境变量

变量名说明必填
ADMIN_USERNAME管理员登录用户名
ADMIN_PASSWORD管理员登录密码

致谢

许可证

本项目采用 MIT 许可证. 版权所有 © 2025 sfun


📌 转载信息
转载时间:
2026/1/23 11:58:16

1. 首先更新到最新版的 codex,0.88 或者 0.89

2. 配置方法二选一

# 仅本次会话生效,临时指令
codex --enable collab --enable collaboration_modes

# 永久生效:~/.codex/config.toml
[features]
collab = true
collaboration_modes = true 

3./experimental,然后勾选 muti agent 开启实验性功能


4. 选择 collab,选择你需要的模式


5.shirt+tab 可以便捷切换模式



📌 转载信息
原作者:
23375
转载时间:
2026/1/23 11:57:48

一款不绑卡免登入可用 AI 聊天的新站
听说是 GPT 模型
于是我就拿了最近大家在申请 365 常用的测试题来试
结果如下:

一个棱长为30厘米的立方体铁块,从8个角各去掉一个棱长10厘米的立方体铁块。然后放入一个底面积为2500平方厘米,原本盛有20厘米水的容器。放入后水位是多少厘米

看起来应该是还行
有兴趣的朋友可以看看


📌 转载信息
原作者:
josenlou
转载时间:
2026/1/23 11:56:20

一、 为什么读这本书?

最近在梳理并发编程,所以想了解一些异步开发, asyncio 的用法,《Asynchronous Programming in Python》是 2025 年出版,比较新,所以选择阅读这本书。

二、这本书写了什么?

总体而言,这本书什么都谈一点。基础概念:进程(process)、线程(thread) ,纤程(fiber),协程(coroutine),生成器。异步库:asyncio, trio。性能分析(scalene),测试(pytest-asyncio), 设计模式(monitor object patter, leader/follower patter),框架(Django, Flask, Quart),数据库操作(sqlite3, aiosqlite)等等,在此就不一 一罗列了。

三、本书评价

本书总计 171 页,从 2025 年 12 月 29 日至 2026 年 1 月 20 日,期间断断续续花了 22 天阅读完《Grokking Concurrency》。

总体而言,本书问题较多,例如:

1.罗列内容,缺乏深度。

这本书只有171页,但是却谈了很多很多的技术概念、库(框架),相当于把各种库的基本用法汇总上去就完了,如果让我给这本书起一个中文名,我觉得应该叫做《Python异步编程概览》,都达不到入门的程度。看完了也只是在头脑中有一个印象而已,对实际工程项目没有任何帮助。

2.代码写法随意,风格不统一。

# p55, 不用 f-string:
print("Queue size:",curr_len)
# p56, 用 f-string:
f = open(f'./tmp/${item["id"]}.json', "a")

虽说怎么写都行,但是代码保持统一风格,有利于代码阅读、维护。

3.存在多处代码错误

# p55 
async def fetcher():
    while True:
        msg = await sse_client_get_values()
        try:
            for item in msg:
                vals.put(item)
        except queue.Full:
            print("Queue full")
            return True
        await asyncio.sleep(1)

这里没有指定 timeout, 并不会触发 queue.Full 异常。当然,错误远不止这一处。

4.表述不严谨

p69, "This blocking operation is easily solved by relying on one of the most used asynchronous HTTP clients, aiohttp, which provides a non-blocking HTTP connection pooling mechanism to reuse a connection to a server.", aiohttp 是 "Asynchronous HTTP Client/Server for asyncio and Python."。aiohttp 既可以做 Client, 也可以做 Server, 而不只是 Client,这样写容易让人误解。
p71, 测试代码的模块命名为 test1.py,这在实际的开发中是万万不行的,同时也没有指出在实际开发中,测试代码的组织结构。
p91, "Several Python frameworks became popular way before asynchronous programming mechanisms had become incorporated into Python’s core APIs. "。这里用 Python’s core APIs 这个概念, 其实大部分人看到这个概念根本不知道指的是什么。

本来阅读是为了解决一些问题,但是如果阅读这本书,问题会更多,因为如果你是很认真的看,你就需要花大量的时间去梳理作者说的某个概念具体指的是什么,作者说的到底对不对。

回到为什么读这本书——“了解一些异步开发, asyncio 的用法”,这本书没有解决我的问题,因为介绍的非常浅,仅仅写个 demo 而已,根本无法在生产环境使用。

四、阅读方法

基于本人秉持的观点“虽然每个作者的写作水平不一样,但我们要做一个高水平的读者,要根据作者的写作水平,调整自己的阅读方法”,本人阅读此书的方法如下:

1..直接下载源码,然后在源码里面创建目录写自己的代码。之前自己都是新建一个项目写代码,然后在自己的项目和书中的项目来回切换,太麻烦了。

2.作者很多描述是不准确的,不必纠结于作者给出的概念,先往下读。

3.对于不熟悉的技术,如:异步编程的语法,包。先熟悉,再自己写,不然就会遇到各种问题。虽然先自己写,然后再和作者的代码对比也是一种方式,但是更慢。

五、这本书适合什么样的人?

介于作者泛泛而谈,东一榔头,西一棒子,距离工程应用相距十万八千里,本书只适合想大概浏览一下 Python 异步编程相关库的人。

六、阅读指数

按照 5 星标准,本书阅读指数 1 颗星(★☆☆☆☆)。

七、参考资料

1. 编程

(1)豆瓣,Nicolas Bohorquez,《Asynchronous Programming in Python》:https://book.douban.com/subject/38207055/

(2)Github,源码:https://github.com/PacktPublishing/Asynchronous-Programming-in-Python

2. 英语

(1) Etymology Dictionary:https://www.etymonline.com

(2) Cambridge Dictionary:https://dictionary.cambridge.org

欢迎搜索及关注:编程人(a_codists)

你好,我是 Silvana,一名前端开发。

这里记录我写过的代码、做过的项目,以及一些真实想法。

最近捣鼓了个有意思的小效果 —— 纯 CSS 实现的 3D 等距立方体,鼠标在页面上移动时,立方体还能跟着转动,视觉上既有层次感又不复杂。先放个效果动图直观感受下👇

一、先搭 HTML 骨架:简单到只有一个 “盒子”

整个效果的 HTML 结构特别直观,核心就是一个承载 3D 效果的box容器,里面嵌套了立方体的四个侧面,每个侧面放对应的文字内容就行。

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8" />
  <!-- 适配移动端,保证小屏也能正常显示 -->
  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
  <title>CSS创意等距设计</title>
  <!-- 引入样式文件 -->
  <link rel="stylesheet" href="style.css" />
</head>
<body>
  <!-- 3D立方体的外层容器,所有3D变换都基于这个盒子 -->
  <div id="box">
    <!-- 立方体的侧面容器,包裹四个不同角度的侧面 -->
    <div>
      <!-- 第一个侧面:旋转0度,对应立方体正面 -->
      <span>
        <div class="container">
          <div class="side">
            <h2>CSS</h2>
            <h3>Isometric</h3>
            <h4>Design</h4>
          </div>
        </div>
      </span>
      <!-- 第二个侧面:旋转90度,对应立方体右侧面 -->
      <span>
        <div class="container">
          <div class="side">
            <h2>CSS</h2>
            <h3>Isometric</h3>
            <h4>Design</h4>
          </div>
        </div>
      </span>
      <!-- 第三个侧面:旋转180度,对应立方体背面 -->
      <span>
        <div class="container">
          <div class="side">
            <h2>CSS</h2>
            <h3>Isometric</h3>
            <h4>Design</h4>
          </div>
        </div>
      </span>
      <!-- 第四个侧面:旋转270度,对应立方体左侧面 -->
      <span>
        <div class="container">
          <div class="side">
            <h2>CSS</h2>
            <h3>Isometric</h3>
            <h4>Design</h4>
          </div>
        </div>
      </span>
    </div>
  </div>
  <!-- 鼠标交互的JS代码 -->
  <script>
  </script>
</body>
</html>

二、CSS 样式:调对 3D 变换才有质感

这个效果的核心全在 CSS 里,尤其是transform-style: preserve-3d(保留 3D 空间)、rotateX/rotateY(3D 旋转)和translate3d(3D 位移),我把关键样式拆出来,每一步都标了注释,一看就懂。

/* 全局重置:清除默认边距,盒模型设为border-box(宽高包含边框/内边距) */
* {
  margin: 0;
  padding: 0;
  box-sizing: border-box;
}
/* 页面主体:居中显示,背景色设为浅蓝,最小高度占满屏幕 */
body{
  display: flex;
  justify-content: center;
  align-items: center;
  min-height: 100vh;
  background: #80c7ff;
}
/* 3D立方体外层容器:开启3D空间,设置宽高 */
#box {
  position: relative;
  width: 260px;
  height: 340px;
  transform-style: preserve-3d; /* 关键:保留子元素的3D变换效果 */
}
/* 立方体的“顶面”:通过rotateX旋转90度,模拟3D顶面,加模糊增加层次感 */
#box::before{
  content: '';
  position: absolute;
  top: 0;
  left: 0;
  width: 260px;
  height: 260px;
  background: #fff;
  transform: rotateX(90deg) translateZ(130px); /* 旋转+位移,定位到立方体顶部 */
  filter: blur(4px); /* 轻微模糊,模拟光影效果 */
}
/* 立方体的“底面阴影”:同理旋转,加半透明黑色模拟阴影 */
#box::after{
  content: '';
  position: absolute;
  top: 0;
  left: 0;
  width: 260px;
  height: 260px;
  background: rgba(0,0,0,0.15);
  transform: rotateX(90deg) translateZ(-260px); /* 位移到立方体底部,模拟阴影 */
}
/* 立方体侧面的父容器:继承3D空间属性 */
#box div {
  position: absolute;
  top: 0;
  left: 0;
  width: 100%;
  height: 100%;
  transform-style: preserve-3d;
}
/* 每个侧面的基础样式:居中显示内容,继承3D空间 */
#box div span {
  position: absolute;
  top: 0;
  left: 0;
  width: 100%;
  height: 100%;
  transform-style: preserve-3d;
  display: flex;
  justify-content: center;
  align-items: center;
}
/* 第一个侧面:旋转0度,作为立方体正面 */
#box div span:nth-child(1){
  transform: rotateY(0deg) translate3d(0,0,130px); /* 沿Y轴旋转0度,向Z轴位移130px(立方体边长的一半) */
  background: #f1f1f1;
}
/* 第二个侧面:旋转90度,作为立方体右侧面 */
#box div span:nth-child(2){
  transform: rotateY(90deg) translate3d(0,0,130px);
  background: #f8f8f8;
}
/* 第三个侧面:旋转180度,作为立方体背面 */
#box div span:nth-child(3){
  transform: rotateY(180deg) translate3d(0,0,130px);
  background: #ededed;
}
/* 第四个侧面:旋转270度,作为立方体左侧面 */
#box div span:nth-child(4){
  transform: rotateY(270deg) translate3d(0,0,130px);
  background: #f7f7f7;
}
/* 文字容器:居中对齐 */
#box div span .container {
  text-align: center;
}
#box div span .container .side{
  display: flex;
  justify-content: center;
  align-items: center;
}
/* 文字样式:垂直排版(writing-mode: vertical-lr),增强3D立方体的视觉效果 */
#box div span .container .side h2{
  font-size: 5em;
  writing-mode: vertical-lr; /* 文字垂直排列 */
  text-orientation: upright; /* 文字直立显示 */
  font-weight: 700;
  line-height: 1.2em;
  color: #0e2f56;
}
#box div span .container .side h3{
  font-size: 2.7em;
  text-transform: uppercase; /* 字母大写 */
  writing-mode: vertical-lr;
  color: #fff;
  letter-spacing: .12em;
  background: #0e2f56;
  padding-top: 20px;
  padding-bottom: 10px;
  font-weight: 300;
}
#box div span .container .side h4{
  font-size: 2.2em;
  writing-mode: vertical-lr;
  text-orientation: upright;
  text-transform: uppercase;
  line-height: 2em;
  color: #0e2f56;
}

三、几行 JS 搞定:鼠标交互效果

交互逻辑就监听鼠标移动事件,获取鼠标的 X 轴坐标,动态修改立方体的rotateY值,再固定rotateX为 - 30 度,让立方体保持等距视角,鼠标一动就有反馈,手感刚好。

// 获取3D立方体的DOM元素
var box = document.getElementById("box");
// 监听全局鼠标移动事件
window.onmousemove = function(e) {
  // e.clientX:鼠标相对于浏览器可视区的X坐标
  // rotateX(-30deg):固定立方体的上下角度,保持等距视觉
  // rotateY(${e.clientX}deg):让立方体跟着鼠标X轴旋转
  box.style.transform = `rotateX(-30deg) rotateY(${e.clientX}deg)`
}
写着写着就到了结尾,祝您今晚有个好梦(代码少报错一点)。

本文由mdnice多平台发布

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、Microsoft 开源 VibeVoice-ASR 语音识别模型:支持 60 分钟单次长音频处理,集成 64K 上下文与热词自定义

Microsoft 发布「VibeVoice-ASR」语音识别模型,突破了传统 ASR 依赖短音频切片的限制,支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口,在单一推理过程中联合完成识别、说话人日志与时间戳生成。

  • 60 分钟单次推理能力:放弃传统的短音频切片模式,避免了因切片导致的全局语义丢失和跨片段说话人追踪失败问题。
  • 64K Token 级长上下文支持:利用超长上下文窗口,实现 ASR、Diarization(说话人日志)与 Timestamping(时间戳)的端到端联合输出,生成包含「Who, When, What」的结构化转录文本。
  • Customized Hotwords 动态引导:允许用户在识别时注入特定专有名词、技术术语或背景词汇,显著提升特定领域或低频词的识别准确率。
  • DER 与 cpWER 综合性能优化:通过联合训练,模型在说话人错误率和带时间戳的字错误率等指标上具备竞争优势。
  • 标准化部署环境:支持 NVIDIA PyTorch Container(验证版本 24.07 至 25.12),核心计算依赖 Flash-Attention 以优化超长序列的推理效率。

已在 Hugging Face 开源并提供测试 Demo,采用 MIT 开源协议。

HuggingFace:
https://huggingface.co/microsoft/VibeVoice-ASR

GitHub:
https://github.com/microsoft/VibeVoice

( @GitHub)

2、FlashLabs 发布 Chroma 1.0:开源原生 Speech-to-Speech 模型,TTFT 降低至 135ms

FlashLabs 推出「Chroma 1.0」开源端到端的 Speech-to-Speech 大模型。该模型跳过了传统的语音识别(ASR)与合成(TTS)阶段,直接在音频 Token 维度完成推理,为开发者提供了一个可私有化部署的 OpenAI Realtime 模型替代方案。

  • 原生端到端语音架构:弃用「ASR → LLM → TTS」的级联管道,采用单一闭环处理音频 Token。该架构原生支持全双工中断,并能完整保留对话中的语调、情感和节奏。
  • 135ms 极低响应延迟:模型 TTFT(首字音频延迟)小于 150ms;在启用 「SGLang」 优化后,TTFT 进一步降低至 135ms,实时系数保持在 0.47–0.51 之间,推理速度达实时语速的 2 倍以上。
  • 4B 参数量与高保真克隆:模型基于 「Qwen 2.5-Omni-3B」 与 「Mimi」 构建,仅需数秒音频样本即可实现高保真语音克隆。其相似度指标 SIM 达到 0.817,较人类基准(0.73)提升约 11%。
  • 集成双层 RAG 架构:内置双层 RAG 机制,可直接挂载向量数据库与知识图谱,实现由智能体驱动的事实检索与语音生成分离,提升对话准确性。

模型权重(Chroma-4B)与推理代码已在 Hugging Face 和 GitHub 全面开源,支持通过 FlashAI 平台直接部署。

相关链接:
https://www.flashlabs.ai/flashai-voice-agents

HuggingFace:
https://huggingface.co/FlashLabs/Chroma-4B

( @flashlabsdotai\@X)

3、Inworld AI 发布 TTS-1.5 语音模型:P90 延迟降至 130ms,推理成本仅为同类产品 1/25

「Inworld AI」正式推出 TTS-1.5 语音合成模型,旨在解决实时语音交互中的延迟与成本瓶颈。通过优化强化学习算法,该版本在显著提升表现力的同时,将 P90 延迟压缩至 250ms 以内,并实现了极低廉的定价策略,直接面向大规模商用语音智能体市场。

  • 生产级实时延迟:TTS-1.5 Mini 模型的 P90 首包延迟低于 130ms,Max 模型低于 250ms,响应速度较前代提升约 4 倍,突破了人类自然对话约 300ms 的感知间隔。
  • 稳定性与表现力优化:通过规模化强化学习训练,词错率降低 40%,大幅减少了长文本合成中的幻觉、断句和杂音;同时语音表现力提升 30%。
  • 极具竞争力的定价结构:交互成本低至 0.5 美分/分钟,每百万字符定价为 $5-$10,对比行业头部方案($120+/百万字符)成本降低逾 25 倍。
  • 扩展功能与部署灵活性:支持 15 种语言(重点优化了印地语);专业级声音克隆功能正式开放 API 调用;并为企业用户提供 On-prem(本地化)部署选项。
  • API 平滑迁移:现有开发者可通过更改 modelId 为 inworld-tts-1.5-mini 或 max 实现快速接入,已整合至 Voximplant 等第三方平台。

已正式上线,开发者可通过 「Inworld AI」 官网 API 或集成合作伙伴平台接入;提供开源/闭源方案及企业级私有化部署。

相关链接:
https://inworld.ai/tts

( @inworld\_ai\@X)

4、DeepSeek 新模型「MODEL1」曝光

1 月 21 日下午消息,DeepSeek 于官方 GitHub 仓库更新了一系列 FlashMLA 代码,在这些更新中,一个名为 「Model 1」的模型 引起了广泛关注。

据悉,目前这个还很神秘的 Model1 不仅出现在了代码与注释中,甚至还有与 DeepSeek-V3.2 并驾齐驱的文件。这也不禁引发广大网友猜测,认为 Model 1 很可能就是传闻中 DeepSeek 将于春节前后发布的新模型代号。

最新消息显示,Model1 是 DeepSeek FlashMLA 中支持的两个主要模型架构之一,另一个是 DeepSeek-V3.2。

据推测,MODEL1 很可能是一个高效推理模型,相比 V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对 16K+序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对 16K+序列优化,适合文档理解、代码分析等长上下文任务。

另外,MODEL1 的硬件实现跨越多个 GPU 架构。在英伟达 H100/H200(SM90 架构)上有两个版本:model1\_persistent\_h64.cu 用于 64 头配置,model1\_persistent\_h128.cu 用于 128 头配置。在最新的 B200(SM100 架构)上有专门的 Head64 内核实现,而 SM100 的 Head128 实现仅支持 MODEL1,不支持 V3.2,有人猜测 DeepSeek 为适配英伟达新一代 GPU,专门优化了 MODEL1 的架构。

(@雷锋网)

02 有亮点的产品

1、苹果首款 AI 穿戴设备曝光:AirTag 尺寸胸针,双摄、三麦克风

1 月 22 日消息,科技媒体 The Information 发布博文,报道称苹果正在研发一款尺寸类似 AirTag 的「AI 佩戴式胸针」,计划最早于 2027 年发布。

这款设备目前的开发代号尚未公开,但其形态被描述为「类似 AirTag 大小的圆形圆盘」。项目仍处于早期阶段且存在取消风险,不过消息称苹果工程师正全力推进,目标定于 2027 年推向市场。

在硬件规格方面,这款 AI 胸针混合铝合金与玻璃外壳材质,厚度略高于 AirTag。为了实现环境感知,该设备正面集成了两颗摄像头(标准镜头与广角镜头),不仅能拍摄照片,还能实时捕捉用户周边的视频信息。

设备内置了三个麦克风用于精准收音,配备了一个扬声器进行语音反馈,并在边缘设置了一枚实体按键,背部采用了与 Apple Watch 相似的磁吸感应充电接口。

(@IT 之家)

2、苹果首款 AI 智能家居中枢爆料:带屏幕、会转头,最早今春登场

科技媒体 The Information 今天发布博文,爆料称苹果计划最快今年春季发布新款智能家居中枢(Home Hub),采用「机器人旋转底座」设计,根据声音或动作让设备自动转向用户。

消息称这款智能家居中枢不仅配备了小型显示屏和高保真扬声器,更引入了具身智能的关键组件「机器人旋转底座」,让设备能够物理转动,改变传统智能音箱被动静止的交互模式。

尽管爆料未详细阐述旋转底座的技术原理,但科技媒体 MacRumors 认为其核心目的是实现「视觉追随」。结合苹果在传感器领域的布局,该设备预计将搭载阵列式传感器,用于精准识别用户在房间内的位置。

例如用户发出语音指令或移动后,底座驱动屏幕自动转向用户,不仅能提供更好的视频通话视角,还能通过物理动作模拟注视感,赋予 AI 助手一种「视觉人格」,从而提升交互的沉浸感与自然度。

发布日期方面,供应链消息指出,其上市时间窗口将与 iOS 26.4 的发布时间高度重合。硬件上的灵动转向配合软件上的更智能 Siri,苹果有望重新定义智能家居的控制中心。

(@IT 之家)

3、字节 AI 硬件传人事变动:Oladance 创始人李浩乾或离职,新一代耳机与眼镜曝光

据蓝鲸新闻消息,字节跳动 Flow 旗下 Ocean 团队核心骨干、原 Oladance 创始人李浩乾或将离职。知情人士透露,目前内部人事调整仍存变数,不排除转岗等可能。 李浩乾曾任职于 Bose 并带领研发 QC35,后于 2019 年创立 Oladance 主攻开放式耳机。2024 年中旬,字节跳动以约 5000 万美元全资收购 Oladance,李浩乾随团队加入字节,职级定为 5-1,负责代号为「D 线」的 AI 可穿戴设备业务。

在收购完成后,字节跳动迅速整合资源,于 2024 年 10 月推出了首款搭载豆包大模型的智能耳机 Ola Friend,预售价 1199 元。该产品深度集成了豆包的语音交互能力,并于 2025 年 5 月上线了 AI 外教智能体「Owen」,支持英语对话、双语点评及职场模拟等功能,试图通过垂直场景切入教育硬件市场。然而,有消息显示该产品后期的市场反响未达团队预期。

面对硬件赛道的挑战,字节跳动正在加速调整产品布局。供应链信息指出,字节正研发新一代豆包 AI 耳机,由歌尔股份专门设立事业群负责代工,产品核心思路将转向与手机的深度协同。此外,豆包 AI 眼镜(无屏版)预计将于 2026 年第一季度面世,首批规划量约 10 万台,将采用邀请制发售。

(@多知)

03 有态度的观点

1、马斯克喊话「不要让亲人用 ChatGPT」,奥特曼回应:超过 50 人死于 Autopilot

昨天,特斯拉 CEO 伊隆 · 马斯克在 X 转发一则帖子,直言「不要让你的亲人使用 ChatGPT」。该帖子声称 ChatGPT 自 2022 年发布以来,已与 9 起死亡案例相关联。

OpenAI CEO 山姆 · 奥特曼随后对此进行回应,强调 OpenAI 在保护脆弱用户与确保产品可用性之间面临艰难平衡。

他表示「我们需要保护脆弱用户,同时确保所有用户都能从工具中受益」,并指出马斯克此前曾抱怨 ChatGPT 的内容审核「过于严格」。

在回应中,奥特曼还回击了特斯拉汽车的 Autopilot 自动驾驶功能。

他表示,自己曾乘坐搭载该系统的车辆,「第一反应是这远不是特斯拉应该发布的安全产品」,并暗示马斯克旗下 xAI 的 Grok 在内容安全上也存在争议。

《商业内幕》报道指出,围绕 ChatGPT 的安全性,OpenAI 目前已面临至少 8 起与心理健康恶化、自杀或暴力事件相关的诉讼;

而特斯拉 Autopilot 也卷入多起致死事故诉讼,包括一起发生于 2019 年、最终由陪审团裁定特斯拉承担 33% 责任的案件。

这场公开争执发生在双方长期法律纠纷的背景下。马斯克此前起诉了奥特曼及 OpenAI 高层,指控其偏离最初的非营利使命,并称自己曾为 OpenAI 的早期发展投入 3800 万美元。

( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考​

摘要

随着数据密集型应用的快速发展,哈希索引已成为内存数据库、键值存储和重复数据删除系统的核心组件。传统哈希索引在面对持久内存(PMem)时,由于存储流量放大和内存效率低下,难以充分利用其大容量和持久性优势。为此,OceanBase研究人员联合厦门大学、昆士兰大学学生及教授提出了一种新型哈希索引设计MetoHash,通过层次化设计、批量持久、指纹过滤和重复合并等技术,有效解决了传统方案在存储 I/O 放大和内存效率方面的问题。

简介

随着数据密集型应用的快速增长,能够实现常数级查找复杂度的哈希索引已成为构建内存数据库、键值存储和重复数据删除系统的核心组件。传统哈希索引在面对新兴的持久内存时,虽然利用了其大容量和数据持久性优势,却在存储流量放大和内存效率方面面临严峻挑战。

持久内存以其大容量、数据持久性、近 DRAM 性能等特性,为内存架构带来革命性变革。然而,PMem 的固定访问粒度和持久化 CPU 缓存特性,使得传统哈希索引设计难以充分发挥其硬件潜力,其原因在于现有方案极易放大存储 I/O 或降低内存效率。

日前,一篇题为《MetoHash: A Memory-Efficient and Traffic-Optimized Hashing Index on Hybrid PMem-DRAM Memories》的论文被高性能计算顶级会议SC 2025录用,并荣获最佳学生论文提名(该会议录用的 136 篇论文中选择 6 篇)。该论文由厦门大学、昆士兰大学与 OceanBase 的研究人员联合完成。其中,厦门大学硕士生余子祥、邓光阳为共同第一作者,沈志荣教授为通讯作者;昆士兰大学鲍芝峰教授,以及 OceanBase 的徐泉清、杨传辉研究员共同参与了此项研究。

SC 由美国计算机协会(ACM)与美国电气电子工程师学会(IEEE)于 1988 年共同创办,是全球高性能计算领域公认的年度顶级盛会,是中国计算机学会 CCF 推荐的 A 类国际会议。SC 2025 会议共收到 643 篇投稿,接收 136 篇,录用率 21.2%。

本论文的核心思想是构建一个跨越 CPU 缓存、DRAM 和 PMem 的三层索引架构,让数据在层次化存储中高效流动。

本文提出的 MetoHash 通过层次化设计、批量持久、指纹过滤、重复合并等关键技术,系统性地解决了现有方案在流量放大与内存效率上的痛点,为高性能键值存储、内存数据库、实时分析等应用提供了强大的底层支撑。

核心理念:三层协同,让数据在混合内存中“各得其所”

传统哈希索引在面对由持久内存(PMem)和动态随机存取内存(DRAM)构成的混合内存系统时,面临一个根本性矛盾:若为追求 PMem 的持久性而将索引完全置于其中,则会因 PMem 较高的访问延迟和固定的写入粒度导致严重的性能下降和 I/O 放大;若为追求速度而将索引完全置于 DRAM,则又无法利用 PMem 的大容量和持久化优势。

MetoHash 的创新核心理念在于“解耦与协同”。它不再将哈希索引视为一个单一的整体,而是将其功能拆解,并根据 CPU 缓存、DRAM 和 PMem 的不同硬件特性进行重新部署,构建了一个三层的高效数据管理流水线。其目标是让热数据、元数据和海量持久化数据分别在最适合的存储层级上被处理,从而在整体上实现高吞吐、低延迟、低流量和高内存效率的统一。


图1 MetoHash 的三层索引结构

核心技术一:缓存辅助的批量收集写入

此技术旨在根治向 PMem 进行小粒度插入时引发的“写放大”(Write Amplification)与频繁桶探测问题。其方案是在持久性 CPU 缓存中预分配多个与 PMem 访问粒度对齐的“收集表”(Collecting Table)。新到达的键值对根据哈希值被直接路由到相应收集表,并通过原子操作实现无锁快速插入,从而充分利用缓存的高速与持久化特性。当一个收集表被填满时,其包含的多个键值对将作为一个完整的、与 PMem 最佳写入粒度匹配的数据单元,被一次性顺序刷写到 PMem 的备份日志中。这种方法彻底消除了因写入粒度不匹配带来的额外 I/O 流量,充分利用 PMem 的写入带宽,同时将零散插入转化为高效批量操作。


图2 持久缓存刷入 DRAM 和 PMem 中

核心技术二:基于 DRAM 指纹的反向精准查找

该技术致力于解决在混合多层索引中查询时在 PMem 层进行盲目、耗时的桶探测的瓶颈。其核心是在 DRAM 中维护一个紧凑的“指纹”目录,其本质为 PMem 主哈希表中的每个键哈希值的一个简短片段。

在进行查询时,系统首先计算查询键的指纹,并利用 SIMD 指令等在 DRAM 指纹目录中进行高速并行比对,迅速筛选出 PMem 中少数几个可能匹配的位置。只有这些候选位置,才需要访问 PMem 进行精确的键值比较。整个查询遵循 PMem 主表 → DRAM 表 → CPU 缓存收集表的反向路径,确保定位到有效值。这一设计将耗时的海量比对操作从慢速的 PMem 转移至高速的 DRAM,极大减少了查询延迟与 PMem 访问压力。


图3 DRAM 结构刷入 PMem 中,并在 DRAM 中保留指纹

核心技术三:段分裂驱动的重复项消除与空间回收

为解决“先插入后检查”模式可能产生的键重复问题以及删除操作导致的空间碎片化问题,MetoHash 在数据结构段分裂中引入合并与清理机制。

首先,DRAM 桶与 PMem 桶在逻辑布局上严格对齐,使得 DRAM 桶满时其内容能高效批量刷写至 PMem 对应位置。当 PMem 中某个段需要分裂以扩容时,系统将旧段所有数据读入 DRAM,在此过程中主动识别并消除同一键的多个版本的无效值,仅保留其最新的有效项,并将合并、去重后的结果写入新分配的段。此过程自然跳过了已标记删除的项,从而在完成容量扩展的同时,一举实现了存储空间的即时回收与整理,保持了 PMem 存储的紧凑性与查询效率。

性能成果

在实际搭载英特尔傲腾持久内存的测试平台上,MetoHash 与八种前沿方案进行了全面对比。

①吞吐量提升:在 YCSB 等各类负载下,其吞吐量平均超越以往方案 86.1% 至 257.6%,并呈现近线性扩展能力。


图4 MetoHash 相较其他基线索引在不同负载下均有明显优势

②变长数据支持:在处理 16B 至 256B 的变长键值时,其吞吐量平均仍领先对比方案 190.8%,尤其在小值主导的负载中优势显著。


图5 MetoHash 相较于其他基线索引在不同键值对大小下均有明显优势

③内存效率权衡:相比将全部索引存于 DRAM 的方案(如 VIPER),MetoHash 的 DRAM 占用减少 86.7%;相比 PMem 利用率低的方案 (如 Plush),MetoHash 的 PMem 占用减少 86.5%。


图6 MetoHash 相较于其他基线索引能够取得较好的 DRAM/PMem 效率权衡

小结

这项工作提出的 MetoHash 混合内存哈希索引,为持久内存时代的高性能、高内存效率数据管理提供了系统的解决方案。在理论上,MetoHash 首次通过缓存、DRAM、PMem 三层协同的架构,解决了由 PMem 固定访问粒度引发的 I/O 放大与内存效率低下这一对核心矛盾。在实践中,其在多种负载下的吞吐量相较当前方案平均提升 86.1% 至 257.6%,存储流量大幅降低,内存占用显著优化,在多种负载中验证了其卓越性能。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

我一直用 Bark ,很喜欢:省心、稳定,作者也一直在更新。PushGo 这个坑某种程度上就是从 Bark 开始的,先向作者致敬🫡。

后来我自己维护的东西越来越多:服务器、CI 、脚本任务、家里设备……推送一开始还能靠“多发点提醒”解决,但很快就会变成另一种麻烦:消息很难整理。同一件事会从不同来源冒出来(监控、脚本、日志、告警),通知列表里一堆“碎片”,你要自己在脑子里拼图:到底发生了什么、现在处于什么状态、是偶发还是持续、有没有恢复。

所以我干脆自己写了个 PushGo ,目前它的定位很明确:先把“收消息 + 更好整理”做好。后面再慢慢往更通用、更可扩展的方向演进。

PushGo 的思路

PushGo 的思路和 Bark 不太一样,更像 MQTT / Ntfy 那套:频道 + 订阅( pub/sub )

你创建频道、订阅频道,消息按主题走,路由和转发会灵活很多;未来不管是扩展更多推送渠道,还是把消息类型做得更丰富,这种结构都更顺手。

  • 目前已经完成 iOS / watchOS / macOS + Android ( FCM )平台适配,全部原生开发,apple 平台使用 Swift ,Android 平台使用 Kotlin
  • WNS 和自有推送渠道正在路上,国内无法访问 FCM 的问题,自有渠道上线后就会得到解决
  • 公共网关已部署,并且支持自部署网关
  • 消息正文支持文本和部分 markdown 标签,可以渲染轻量级表格
  • 消息支持 AES-GCM 加密,网关不保留任何与解密有关的数据
  • 永久完全免费,不管客户端还是网关,纯公益运营

未来方向

  • 客户端会持续推进更多平台支持,并不仅限于高性能设备,比如目前我自己就在做一个带屏的 ESP32 设备

  • 目前客户端还很简单,也存在很多不足,尤其是 UI ,因为我自己实在没有这方面的天赋,所以 UI 只能尽量贴合系统原生,未来会持续改进优化,不断改进功能和体验,如果你有任何产品问题和建议,也可以加入 TG 群一起探讨,如果有小伙伴愿意提供 ui 设计方面的支持,欢迎 TG 私聊,感谢

  • 服务端未来会加入 MQTT 等协议支持,不仅支持消息接入,也会提供第三方注册为客户端接收消息

  • 我后面有一个比较明确的长期方向:参考 IoT 里的 物模型 概念,把一些东西(服务器、任务、设备)抽象成“模型”,用属性持续更新状态,然后在 App 端围绕这些状态做聚合展示、规则处理、报警/联动等。从消息接收器转身为综合消息枢纽,不过这个变化很大,未来尚不确定是基于 PushGo 演进,或者另开新坑

目前进度 & 参与测试

目前网关 + iOS / watchOS / macOS + Android ( FCM )都已经有初版了,也部署了公共网关,正式版预计将在一个月左右到来。

作为免费运营的公益项目,欢迎大家参与共建,为 App 和网关的持续迭代建言献策,我不希望闭门造车,大家的需求才是最重要的演进方向

截图

截图被第三方图床压缩过了,惨不忍睹,大家随便看看就好

https://www.bilibili.com/video/BV1u6kKBBEec/?aid=115903870015...

NVIDIA 最新发布的单插槽 GPU NVIDIA RTX PRO™ 4000 Blackwell,相比较上一代 NVIDIA RTX™ 4000 Ada,采用最新 Blackwell 架构,配备 24GB 超高速显存、第五代 Tensor Core 和第四代 RT Core,可处理大型数据集,加速生成式 AI 工作流程,并以极快的速度渲染逼真的场景。接下来,我们将通过图形测试、实时渲染、AIGC 应用以及工业软件多个维度,为大家带来全面性能评测,看看相比上代究竟有多少性能提升。

1.参数对比
图片

2.测试数据

测试环境
图片

测试内容
图片

图形性能
1、SPECviewperf 2020 v3.0

SPECviewperf是一个专业级、符合工业标准的OpenGL图形显卡效能测试分析软件,使用C语言编写,用于测量运行在OpenGL应用程序接口之下硬件的3D图形性能。其中包含了 3ds max、catia、creo、energy、maya、medical、snx、solidworks 共8款软件的性能测试。
图片
从测试结果来看:RTX PRO 4000 相较 RTX 4000 Ada 综合提升约 27%。

2、3D Mark3DMark是一个由UL开发的智能设备性能评测软件,可用于评测设备的3D图形渲染能力。我们主要测试了 Port Royal 和 Speed Way 两个场景。
图片
在 Port Royal 场景中,RTX PRO 4000 相较 RTX 4000 Ada 提升约 44%;在 Speed Way 场景中,RTX PRO 4000 相较 RTX 4000 Ada 提升约 41%;

3、V-Ray Benchmark 6.00.01

V-Ray Benchmark 是一款免费的独立渲染速度测试软件,用于测试计算机的渲染速度。
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 64%。

4、OctaneBench

OctaneBench 是一种专有基准测试工具(也是当今最流行的GPU渲染基准测试),用于测量以每小时OctaneBench 点数(OBh)表示的GPU渲染速度,用于标准化和基准测试GPU性能。
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 35%。

实时渲染性能(4K)

1、Blender
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 16%。2、Houdini

图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 118%。

3、Maya
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 38%。

4、UE5
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 71%。

5、NVIDIA Omniverse™
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 69%。

AI 性能
1、Stable Diffusion
测试项目:SD文生图
生成尺寸:1024*1280
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 21%。

测试项目:FLUX 文生图
生成尺寸:1024*1280
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 24%。

测试项目:SDXL文生图
生成尺寸:1280*720
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 20%。

2、ComfyUI测试项目:
FLUX 文生图
生成尺寸:1280*720
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 59%。

测试项目:Hunyuan3D 模型生成
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 33%。

测试项目:Wan2.2 图生视频
图片
RTX PRO 4000 相较 RTX 4000 Ada 提升约 44%。

工业软件性能

1、UG NX 应用测试
UG NX 作为面向高端制造的三维设计软件,在复杂装配体设计、多物理场仿真等场景中应用广泛,本次选取五类模型,从简单到复杂覆盖不同负载需求,详细测试内容见下表:
图片

测试结果:

1、中小型场景

图片

2、大型复杂场景

大型复杂模型场景测试瞄准中大型制造企业的复杂设计需求,为构建更复杂的模型,评测组将YL-777 电梯实训装置、智能装配生产线、睿抗机器人工程三个复杂模型组合到一起,组建三合一模型进行极限环境下的显卡性能测试,三合一模型总计包含零部件数量约2.1万个,型文件总大小1.5G,含大量高精度曲面、关联特征与运动信息,对显卡图形处理能力与显存容量要求极高。

图片

从三合一模型的载入速度看,RTX PRO 4000、RTX 4000 Ada 分别是12秒和13秒,差别不大,编辑、旋转和缩放等操作流畅度。工程图生成,RTX PRO 4000 耗费29秒,RTX 4000 Ada 耗费32秒,约10%左右的性能差距。

在仿真稳定性方面,评测小组分别对 RTX PRO 4000 与 RTX 4000 Ada 进行2个小时的连续运行,整个过程无崩溃、无掉帧、无卡顿,显现出较好的仿真性能;高保真渲染环节,两款显卡用时相近,过程流畅,无卡顿。

2、Solidworks 性能测试

Solidworks 以易用性与兼容性著称,广泛应用于通用机械、模具设计等领域,本次测试选取两款模型,贴合不同用户的实际应用场景。
图片

测试结果:
图片

在载入、编辑、旋转、缩放、工程图生成等操作中,RTX PRO 4000 与 RTX 4000 Ada表现出极佳的性能,流畅完成厂房布局调整与设备关联编辑;稳定性方面,凭借更大显存带宽,两款显卡连续运行3小时后温度仍控制在 65℃以下,无降频或崩溃现象;只是在渲染和仿真过程中系统提示内存占用过高,从而影响显卡性能表现。

在复杂模型渲染或仿真时,硬件平台的性能瓶颈可能成为制约显卡性能发挥的关键因素。针对这一问题,我们认为对于厂房等大型模型设计,推荐用32GB或更大内存,极力避免因平台性能不足而导致显卡性能无法发挥全部性能的情况。

申请显卡测试

https://my.feishu.cn/share/base/form/shrcnEmbNj6oRKsQ58SNldkb...

*与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。
图片

修改后的封面.png

经过了前面一系列文章的铺垫,终于迎来了「知识管理系列」的终章:以 Obsidian 、Get 与 flomo 为骨架,辅以其他工具 X ,来解决知识管理(几乎)所有问题!

这套方案精妙之处在于将信息的搜集、整理、回顾拆分成不同的模块,每个模块都有对应的工具,并有高度的替代性。

所以你可以针对自己的实际情况,定制自己的知识管理流程。

1. 方案概述

Get 笔记 负责信息搜集;Obsidian 负责信息的加工与内化;flomo 负责知识的回顾与快速翻阅。

我们可以通过一系列配置,将这三者丝滑的串联起来,不仅可以数据共享,操作也十分流畅。

至于 X ,则看使用者的目的。

如果想加入 AI 功能,X 可以是 ClaudianCopilot 等 Obsidian 插件,也可以是 Trae 等支持 markdown 文件的 IDE ,亦或是能与 Obsidian 联动的 Cherry Studio 等客户端。

如果想写作输出,X 可以是 NoteToMP 等支持排版功能的 Obsidian 插件,也可以是 Typora 等支持本地 markdown 的编辑器。

如果想深入学习,那么 X 可以是支持本地文件上传的 NoteBook ML,或者是最近大火的 YouMindDessix 等。

2. 核心是 Obsidian

看到这里,你会发现 Obsidian 的出镜率极高,因为它就是知识管理的核心中转站。

除了自身强大的编辑功能,Obsidian 还可以跟很多工具无缝衔接。

首先 Obsidian 的笔记是以 markdown 形式存储在本地,这意味着它可以跟其他支持 markdown 的工具丝滑联动,如上面提到的 Trae 、Typora 。

其次 Obsidian 内置网络浏览器插件,这意味着凡是支持网页操作的工具都可以内嵌到 Obsidian 中。

此外,得益于 Obsidian 在知识管理界 Top 2 的地位,很多工具都为 Obsidian 做了适配,例如 Cherry Studio ,哪怕没有官方支持,网上也能搜到很多协同的邪修方案。

所以,文章会以 Obsidian 为基点,围绕 Obsidian 打造一站式的知识管理,去践行 INKPR 的每一步:搜集、转化、吸收、输出、回顾。

3. 信息搜集:Get 笔记

我对信息的搜集工具有以下几个要求

  1. 完全独立的存储空间;
  2. 覆盖网页与移动端,方便信息搜集;
  3. 支持多种格式录入,如文字、语音等;

虽然满足上述条件的工具有很多,例如 Readwise 、Cubox 等,但是考虑到网络环境与价格,这里还是首推 Get 笔记。

Get 笔记是 得到 推出的笔记工具,大厂出品保证了它的下限:短期内不会死掉。

另外,Get 笔记覆盖了网页、Android 、iOS 、微信小程序等所有平台,保证了信息搜集的便利性。

最牛逼的是,Get 笔记有两个非常强大(近乎免费)的 AI 功能

首先,他能快速总结主流平台的内容,包括但不限于

  1. 文章:公众号、小红书
  2. 视频:B 站、Youtube
  3. 网页:博客
  4. 社媒:Twitter 、微博等

这个功能非常实用,可以帮我们在后期整理时,省下大量时间。

image.png

其次,我们录入语音时,Get 笔记能自动纠偏口癖词,重复字等,将其转化成流畅的文字笔记。

除此之外,Get 笔记还支持图片、音频、视频等几乎所有格式的信源输入。,可谓是信息搜集的先天圣体!
b24d8684cccd703adc9ef6962b5b9639.jpg

而我们只需要在 Obsidian 自带的浏览器中,输入 Get 笔记网址,并将其固定,就可以将 Get 笔记集成到 Obsidian 中了。
image.png

4. 内容整理:Obsidian

使用 Get 笔记搜集了大量的信息后,接下来便是加工处理,内化成知识,其中最重要的方法便是 PARA 与卡片盒笔记法的应用,这里不再详述,具体可参考

  1. PARA:伪装成分类方法的成长之道
  2. 知识管理的工业革命:卡片盒笔记法
  3. INKPR—打造自主演化的知识生态

对于我来说,Obsidian 不仅是笔记的核心聚集地,也是内容输出的主战场,这里特别推荐 NoteToMP 插件,可以让我们内容一键排版,非常强大!如果大家觉得这篇公众号的排版还不错,可以评论区留言,我可以分享对应的 css 样式。

5. 笔记回顾:flomo

看过 INKPR—打造自主演化的知识生态文章的读者都知道,回顾是知识管理中重要的一环。

根据自己的使用经验,回顾场景至少有一半是在手机上完成的。

令人遗憾的是,Obsidian 的移动端不忍直视,其移动端的页面设计与操作逻辑依然沿用了桌面端那一套,非常生硬,而且插件多了,加载时间也慢。

而 flomo 就是 Obsidian 最佳的移动端(之一)。

5.1 两大问题

我们先要解决一个核心问题:保证 Obsidian 与 flomo 的数据同步。

具体又分为两个子问题:

首先要保证 Obsidian 与 flomo 层级结构的一致性,但是 Obsidian 的层级是文件夹目录,而 flomo 是多级标签。

如何将文件夹目录转化为多级标签,是我们面临的第一个问题。

其次,如果 Obsidian 中的笔记发生了修改,flomo 对应的笔记该如何同步?这是第二个问题。

5.2 层级结构保持一致

为了将 Obsidian 中的文件夹目录与 flomo 的多级标签对应起来,我们需要将 Obsidian 的文件夹目录标签化。

举个例子,如果在 Obsidian 中,一条笔记的文件夹目录是 03 领域/家庭教育/AI,那么我们需要在这条笔记打上 #03 领域/家庭教育/AI 的标签,然后同步到 flomo 中。

如此一来,flomo 就会生成一个 #03 领域/家庭教育/AI 的三级标签。

就此,Obsidian 的层级目录顺利的转化成了 flomo 的多级标签。

上述操作可以手动完成,也可以通过 Template 插件快速插入 (后面会给出完整的 Template 代码)。

5.3 flomo 笔记快速定位

将 Obsidian 修改后的笔记同步到 flomo ,操作会更为复杂,流程如下:

  1. 在 flomo 中查找旧笔记
  2. 删除 flomo 中的旧笔记
  3. 把 Obsidian 修改后的新笔记同步到 flomo

而查找 flomo 的旧笔记是关键中的关键。

而我给出的方案是:将 Obsidian 的笔记标题写入笔记,然后将其同步到 flomo 中。

如此一来,flomo 中的笔记也有了标题,后续我们只需要在 flomo 查找标题,就能快速找到目标笔记,为后续的删除提供了条件。

所以,在 Obsidian 中,一个整理后的笔记样式以及对应的 flomo 笔记应如下图所示。
image.png

无论是将 Obsidian 笔记的标题写入笔记首行,还是将目录层级转化为标签,都可以通过 Template 插件实现,具体代码如下

#<% tp.file.folder(true) %>
<% tp.file.title %>

然后再设置插入的快捷键,就能一键将笔记标题与层级目录插入到笔记的内容中。

至于将 Obsidian 的笔记同步到 flomo ,可以手动粘贴,也可以使用 Share to Flomo 插件。

5.4 小结

我们重新梳理一下 Obsidian 笔记同步到 flomo 的全过程。

首先,通过 Template 插件,给 Obsidian 的笔记内容添加多级标签与标题。

然后通过 Share to Flomo 插件或者复制粘贴的形式将 Obsidian 的笔记同步到 flomo 中。

如果 Obsidian 的笔记做了改动,则可以在 flomo 中搜索笔记标题,查找旧笔记,将其删除后,重新将修改后的 Obsidian 笔记同步到 flomo 中。

我分别给 Template 的插入操作与 Share to Flomo 的同步操作设置了快捷键

  1. Template:option+i
  2. Share to Flomo:option+f

给 Obsidian 的笔记插入标题与标签,再同步到 flomo 中,也就几秒钟,非常高效。

至于如何使用 flomo 进行笔记回顾与翻阅,可以参考轻度知识管理的神器 — flomo

6. 结尾

从 2025 年 3 月份开始的知识管理系列,到这里终于告一段落,后续可能也会写一些软件或者插件的番外篇,但是从理论到实践的系统梳理,基本告一段落。

快写完的时候,我还特意找到了之前的聊天记录,当初只是想单纯的给朋友分享知识管理的用法,没想到这一更就将近一年。

image.png

在这将近一年的时间里,其实收获最大的是自己,很多零散的经验在梳理的过程中慢慢体系化,一些长期的困扰也慢慢清晰明朗。

当然,关于知识管理的实践,我会继续摸索优化,毕竟身处 AI 时代,无论知识管理的工具与还是理论都在快速迭代,等到自己进化到下一个阶段,会再系统梳理一波,期待那时能呈现出更加优质的文章。

最后,感谢大家的持续关注,接下来,会继续跟大家一起成长!

下面是这个系列的其他文章,如果大家感兴趣,可以查看

  1. 看过就忘、有理说不出、笔记成坟场?或许你需要知识管理!
  2. 知识管理的工业革命:卡片盒笔记法
  3. PARA:伪装成分类方法的成长之道
  4. INKPR—打造自主演化的知识生态
  5. 轻度知识管理的神器 — flomo
  6. 中度知识管理神器:reminds

导读

阿里云 Tair KVCache 团队联合 SGLang HiCache Team 、蚂蚁 AI Infra-推理服务团队、阿里云服务器震旦异构计算团队,共同推出面向 Sparse Attention 的分层稀疏化框架,本文详细介绍该框架的架构设计与实现细节。

在前文《智能体式推理对 KVCache 的挑战与 SGLang HiCache 技术深度剖析》中,我们详细介绍了 HiCache 如何通过分层存储架构(GPU → CPU → 远端存储)突破 KVCache 的容量瓶颈,将有效缓存容量从 40GB 扩展至 TB 级别,使长上下文、高并发的 LLM 推理服务得以规模化部署。

然而,当上下文长度跨越 128K 甚至迈向百万 Token 时,两个新的瓶颈开始凸显:

  • 计算瓶颈:Attention 计算成本随序列长度线性增长,并受限于 HBM 带宽。动态稀疏注意力(DSA)通过"Select-then-Compute"范式选择 Topk Token 参与 Attention 计算,成功突破了这一瓶颈。
  • 容量瓶颈:引入 DSA 后,主要瓶颈从 HBM 带宽转移到了 HBM 容量——为确保低延迟,全量 KV Cache 仍需驻留 GPU,导致并发推理能力受限。

本文引入了分层稀疏化——将全量 KV Cache 存储在 CPU,GPU 中仅维护 Top-k 的 LRU Buffer——为破解这一双重约束提供了可行路径。本文将系统性介绍 SGLang 的分层稀疏化框架设计,包括:

  • 整体架构:SparseCoordinator、Algorithm、BackendAdaptor、SparseKVCacheManager 的模块化设计;
    *
  • 核心机制:Sparse Diff Kernel 的增量传输、I/O Kernel 的高性能传输优化;
  • 实践案例:DeepSeek DSA 的深度集成,实现单请求显存占用从 8GB 降至 200MB,3倍单机吞吐提升;
    分层稀疏化标志着 KVCache 管理范式的又一次跃迁:从 HiCache 的"分层存储 → 扩展容量",到本文的"稀疏化 + 分层 → 突破带宽与容量双重约束",为超长上下文推理开辟了全新的技术路径。(注:此项目目前处于开发阶段,尚未正式发布。)

本系列技术文章将系统性拆解面向智能体推理的KVCache技术演进路径:

1.智能体式推理对 KVCache 的挑战与 SGLang HiCache 技术深度剖析

2.3FS-KVCache 工程化落地:企业级部署、高可用运维与性能调优实践

3.Hybrid Model Support:SGLang 对 Mamba-Transformer 等混合架构模型的支持方案

4.Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现

5.KVCache 仿真分析:高精度的计算和缓存模拟设计与实现

  1. 本文|Hierarchical Sparse Attention:分层稀疏注意力框架下的 KV 分层管理与按需加载
  2. 展望:KVCache驱动的软硬结合演进

1.引言:双重瓶颈与协同破解之道

1.1 HiCache:容量扩展的胜利与新的战场

在前文《智能体式推理对 KVCache 的挑战与 SGLang HiCache 技术深度剖析》中,我们详细介绍了 HiCache 如何通过分层存储架构(GPU 显存 → CPU 内存 → 3FS 远端存储)突破 KVCache 的容量瓶颈。通过智能的热度感知调度与异步预取机制,HiCache 将原本仅有 40GB 的 GPU 显存扩展至 TB 级别的有效缓存容量,使得长上下文、高并发的 LLM 推理服务得以实现规模化部署。

在真实生产环境中,HiCache 已展现出显著价值:缓存命中率从 40% 提升至 80%,平均 TTFT 下降 56%,推理 QPS 提升 2 倍。

然而,当我们将目光投向更极致的长上下文场景——例如 128K 甚至百万级别的上下文窗口时,新的瓶颈开始浮现。

1.2 长上下文的 HBM 带宽墙:从线性增长到稀疏化破局

1.2.1 Attention 计算的带宽瓶颈

在长上下文推理中,Attention 计算呈现出独特的性能特征。每个 Decode 步骤需要将完整的 KV Cache 从 HBM 加载到计算单元,执行Attention计算。由于 KV Cache 随序列长度线性扩展,Attention 计算成本也随之线性增长。

关键问题在于 Attention 的计算强度(Arithmetic Intensity) 过低——相对于海量的访存操作,实际的浮点运算量不足以饱和 GPU 的计算单元。这使得 Attention 成为典型的 memory-bound 操作,Attention 计算受限于 HBM 带宽。随着上下文长度从 32K 扩展至 128K 甚至百万级别,这一带宽瓶颈成为长上下文推理的主要性能制约因素。

1.2.2 动态稀疏注意力(DSA)的 Select-then-Compute 范式

为突破带宽瓶颈,动态稀疏注意力算法(Dynamic SparseAttention, 后文简称 DSA)从 Attention 机制的本质特性出发:在自回归生成过程中,并非所有历史 Token 都对当前输出贡献相同的权重。研究发现,Attention 分布往往呈现显著的长尾特征——少数关键 Token 占据了绝大部分的 Attention Score,而大量 Token 的贡献可以忽略不计。更重要的是,这些关键 Token 的集合在不同 Query 间动态变化,无法通过静态规则预先确定。

DSA 将这一观察转化为 "Select-then-Compute" 工作流,通过三个协同阶段实现稀疏化:

  • 分块与元数据抽象:将 KV Cache 划分为固定大小的块(block size 通常为 32 tokens),每个块维护轻量级的元数据结构。这些元数据可以是 Key 向量的统计摘要(均值、方差)、Bounding Box(每维度的最大/最小值)、或经过降维的紧凑表示。元数据的存储开销通常不到完整 KV Cache 的 1%,可以常驻 GPU 内存。
  • 快速重要性评估:对于每个新生成的 Query Token,算法无需访问完整的 Key Cache,而是基于元数据快速计算每个块的 Criticality Score。这一评估过程的计算量远小于完整 Attention(通常为 O(n/32) vs O(n)),且可以高效并行化。随后通过 Top-k 选择算法(如 heap-based selection),筛选出最相关的 k 个块(典型值 k=2048,对应 64 个块)。
  • 按需稀疏计算:仅对选中的 Top-k 块加载其完整的 Key 和 Value Cache,执行标准的 Scaled Dot-Product Attention。未被选中的块则完全跳过,避免了不必要的 HBM 访问。

代表性 DSA 算法包括

  • Quest:训练无关的启发式算法,利用 Query-Key Bounding Box 的几何关系近似估计 Attention Score 上界。通过维护每个块在各维度上的 Key 最大/最小值,Quest 可以在不访问完整 Key 的情况下,快速排除不重要的块。
  • ClusterKV: 将 Prefill 阶段的所有 Keys 向量进行聚类(如 K-means),生成 C 个聚类中心;每个原始 key 被映射到其最近的 centroid; Decode 阶段 Query 跟聚类中心计算,获取最具相关的 Topk。
  • DeepSeek DSA:作为模型原生的稀疏注意力机制,通过专门训练的 Indexer 模块动态预测 Token 重要性,Indexer 的输出直接指导 Top-k 选择。

1.3 隐形的显存墙:稀疏计算的容量困境

尽管稀疏注意力在计算层面取得突破,但其执行流程存在固有的先后依赖关系:

在 Stage 1 中,算法需要评估每个 Token/Page 的重要性(计算 );在 Stage 2 中,基于评分选择 Top-k;只有在 Stage 2 完成后,Stage 3 才知道应该对哪些 KV 进行计算。

这一依赖链导致了一个根本性问题:在确定 Top-k 之前,系统无法预知需要哪些 KV 数据,因此必须将全量 KVCache 保留在 GPU 中。

关键约束:稀疏化实现了计算复杂度的降低(O(n) \rightarrow O(k)),但显存占用复杂度依然保持 O(n);也即采用 DSA 后,主要性能瓶颈从 HBM 带宽转移到了 HBM 容量;这一容量约束导致:

  1. HBM 容量利用率低下(Poor HBM Capacity Utilization):98.4% 的 KV Cache 在每步中未被访问,却占据宝贵的 HBM 空间。
  2. 并行能力受限(Limited Parallelism):小 Batch Size 无法充分发挥 GPU 的并行计算能力,推理吞吐难以提升;例如对于 DeepSeek V32,单个 128K 请求的 Latent Cache 占 8 GB,H200 扣除模型权重后,最多只能支持 Batch=5,这严重限制了 GPU 并行计算能力的发挥。
  3. 分层存储价值受阻(Value Blockage):传统的 KV Cache Offload 方案要求所有数据在 Decode 前加载到 HBM,无法与 DSA 的动态选择特性协同工作。

1.4 分层稀疏化:存储与计算的协同优化

破解显存墙的关键洞察在于:既然 Attention 计算只需要 Topk 部分,何不只在 GPU 中存储 Topk 部分,并结合 CPU HICache,在计算完 Topk 后动态加载增量的 Topk 部分?

分层稀疏化的关键是改变 KVCache 的存储位置和加载时机(下面以 DeepSeek DSA 为例):

  • 传统流程:完整 Latent Cache 必须驻留在 GPU 显存中。Decode 阶段执行 Indexer 选择 Top-2k,然后对选中的部分进行 Attention 计算。单个 128K 请求,虽然理论计算量降低了 60+ 倍,但显存占用依然是 O(n),占用 8 GB,H200 最多支持 Batch=5;
  • 分层稀疏化流程:Prefill 后将完整 Latent Cache(8 GB)Offload 至 Host 内存,GPU 仅保留轻量 Sparse Indexer 元数据。Decode 时基于元数据在 GPU 执行 Indexer 选择 Top-2k,Host 筛选对应的 Latent 子集并增量传输至 GPU,最后执行 Attention 计算;

    • 单请求 GPU 显存占用降至 < 200 MB,单 GPU 可支持$B_{max} = \min \left( \frac{M_{host}}{M_{req}}, B_{SLO} \right)$
    • 其中,$M_{host}$代表单卡可分配的最大 CPU 内存容量;B\_{SLO}代表满足 SLO 延迟要求的最大 Batch Size。

核心优势:

  • 完整 KVCache 存储在 Host,突破 GPU 显存物理空间限制;
  • GPU 侧只需存储轻量 Sparse 元数据和 Topk 部分 KVCache,Req 显存占用从O(n)降至 O(k);
  • 高性能传输:结合 HICache IO Kernel 实现 Topk Cache 高性能传输,单层 IO 延迟控制在 us 级别;并结合 Overlap 能力将 IO 延迟隐藏在计算中。

分层稀疏化不仅解决了计算问题,更从根本上破解了显存容量的刚性约束,实现了计算效率与存储效率的协同优化,为超长上下文推理开辟了全新的技术路径。

2.SGLang 分层稀疏化框架设计

2.1 整体框架设计

SGLang 的分层稀疏化框架采用模块化、可插拔的三层架构设计,通过标准化接口实现算法解耦、后端兼容与非侵入式集成。框架核心由以下模块构成:

  • SparseCoordinator(协调层):通过生命周期钩子编排三大功能模块的协同工作

    • Algorithm(算法层):提供可插拔的 Top-k 选择策略实现;
    • BackendAdaptor(适配层):完成稀疏索引到物理地址的转换与后端对接;
    • SparseKVCacheManager(传输层):基于 Diff & IO Kernel 实现 Host-GPU 间的高效、增量数据传输。
  • RequestTrackers(状态管理):维护每个请求的稀疏化状态管理。

该架构既原生支持模型内置的稀疏化机制(如 DeepSeekV32 DSA),也允许 Training Free 的稀疏化算法(Quest / SnapKV)与通用 Attention 后端(FlashAttention / Triton)灵活组合,为长上下文推理场景提供统一且高度可扩展的分层稀疏化方案。

2.2 SparseCoordinator:稀疏化流程编排器

SparseCoordinator 是分层稀疏化框架的中枢控制器,通过生命周期钩子函数(Lifecycle Hooks)在模型推理的关键节点精确编排 Algorithm、BackendAdaptor 和 SparseKVCacheManager 三大模块的协同工作。其设计遵循事件驱动模式,将 Retrievable Sparse 的完整流程解耦为标准化的钩子接口,实现了算法与模型的零侵入集成。

SparseCoordinator 将稀疏化推理划分为两个核心阶段:

  • Representation Construction Phase(Prefill 结束或 Decode 初期):通过 attention\_end hook 调用 Algorithm 的 construct\_representations() 和 update\_representations() 方法,将原始 KVCache 压缩为语义表示并存入 Representation Pool,此阶段执行完整 Attention 计算以确保表示质量;
  • Query-Guided Decoding Phase:每个 Decode Step 在 attention\_begin hook 中,Coordinator 驱动 Algorithm 基于当前 Query 从 Representation Pool 中执行 retrieve\_topk() 选择最相关的 Top-k 表示,随后由 BackendAdaptor 完成逻辑索引到物理索引的转换并触发 SparseKVCacheManager 的增量数据传输(通过 Diff Kernel 计算 Topk 集合差异,仅加载变化部分),最终动态重构 Attention Metadata(如 FlashAttention 的 PageTable)供 Attention 后端执行稀疏化计算;
  • 通过这种"捕获-计算-转换-注入"的闭环设计,SparseCoordinator 在保持框架灵活性的同时,实现了高效的 KVCache 分层管理。

2.3 可插拔的稀疏化策略

在 SparseCoordinator 的编排下,Algorithm 和 BackendAdaptor 作为两个核心功能模块,分别负责"选择什么"和"如何映射"的问题,通过清晰的接口定义实现了高度的可插拔性和扩展性。

2.3.1 Algorithm:抽象的 Top-k 选择策略

Algorithm 层采用抽象基类 BaseSparseAlgorithm 定义统一接口,将稀疏化算法的核心逻辑解耦为三个标准化方法:

  • retrieve\_topk(queries, layer\_id, ...):

    • 基于当前 Query 从 Representation Pool 中检索 Top-k 重要 Token/Page 的逻辑索引;
    • 算法只需返回"逻辑索引"(Token ID 或 Page ID),无需关心底层 KVCache 的物理存储布局和 Attention 后端的实现细节(FlashAttention / Triton)。
  • construct\_representations(...):在 Prefill 阶段或 Decode 阶段初期构建用于检索的 Representation Pool 语义表示(如 Key 的压缩表示)。
  • update\_representations(...):在 Decode 阶段增量更新 Representation Pool。

    以 Quest 算法为例:

  • Quest 是一个 Training Free 的 page-wise 稀疏注意力算法,通过为每个 KV Page 维护 per-dimension 的 Key Bounding Box(min/max 值)来避免完整的 Query-Key 点积计算;
  • 在 construct\_representations 阶段,算法遍历所有 Pages 提取 Keys 并计算 Keys 在每个维度的最小/最大值存入 page\_k\_min/max Representation Pool (内存开销约为完整 Key 存储的 1%);
  • 在 retrieve\_topk 阶段,通过 criticality 计算 Attention Score 的上界估计,快速筛选 Top-k Pages 后交由 BackendAdaptor 完成物理地址转换。
2.3.2 BackendAdaptor:索引转换与后端对接的桥梁

BackendAdaptor 层解决了"逻辑世界"到"物理世界"的映射问题。不同的 Attention 后端(DSA Backend、FlashAttention、Triton FA3)对输入数据的格式和索引方式有不同要求,Adaptor 负责屏蔽这些差异。

以 FlashAttention Adaptor 为例:FlashAttentionAdaptor 通过 req\_to\_token 映射表将逻辑 Page IDs 转换为物理页号,重构 PageTable 并更新序列长度元数据(cache\_seqlens, cu\_seqlens\_k),使 FlashAttention 能够基于 Top-k 选中的稀疏页执行注意力计算。

2.4 DeepSeek DSA 接入实践

2.4.1 DeepSeek SparseAttention 介绍

和 DeepSeek-V3.1 相比,DeepSeek-V3.2 的架构改动是在继续训练过程中引入了 DeepSeek Sparse Attention(DSA)。

DSA的原型设计由两部分进行构成,Lightning Indexer(闪电索引器)和 Fine-grained Token Selection Mechanism(细粒度 Token 选择机制)。其首先通过一个轻量级的索引器,进行快速筛选出与当前查询 Token 最相关的候选 Tokens,然后仅在这部分稀疏的候选集上执行高精度的注意力计算。

(注:图片出自 DeepSeek 论文)

2.4.2 DeepSeek DSA 整体接入流程


关键设计包括:

  • 双缓存映射:系统维护两套独立的物理地址映射表(DSADecodeReqToTokenPool):req\_to\_token 中存储每个 Req 对应的  Latent Cache LRU Buffer 页表(LRU Size = 2~4KB),req\_to\_dsa\_index\_k 存储 indexer\_k 页表。Prefill 阶段,Indexer 模块为每个 Token 生成 index\_k,存储至 GPU 端;同时完整的 Latent Cache 被 Offload 至 CPU 内存。Prefill 阶段结束后,每个 Req 占用的显存空间会固定在 LRU Size。
  • 增量传输机制:Decode 阶段,每个 Token 生成时,Indexer 基于当前 Query 和历史缓存的 index\_k 高效计算出 Top-2K Tokens 逻辑索引;随后 Sparse Diff Kernel 通过集合差分算法比较 prev\_topk 和 curr\_topk,精确计算出需要新加载的索引变化量 Δ;SparseKVCacheManager 据此调用 load\_to\_device\_per\_layer 仅传输 Δ 对应的 Latent Cache 块到 GPU 的 LRU Buffer,最小化 PCIe 带宽消耗。
  • 零侵入集成:DeepSeek DSA 通过 SparseCoordinator 的生命周期钩子与模型解耦集成,DeepSeekDSAAlgorithm 作为 Algorithm 层的具体实现直接调用模型原生的 Indexer;DSABackendAdaptor 负责将逻辑 Top-k 索引转换为物理设备地址并触发增量传输;最终由 DSA Backend(支持 flashmla\_sparse/flashmla\_kv/fa3 等多种实现)基于稀疏页表执行 Attention 计算。这一设计使得 128K 长上下文推理的 GPU 显存占用从约 8GB 降至约 200MB。
2.4.3 Sparse Diff Kernel: 增量 Cache 传输基石

动机:时间局部性带来的优化空间

DSA 的 Top-k 选择结果在时间维度上呈现显著的局部性:相邻 Decode Steps 的 Top-k 集合高度重叠。实验表明,相邻 Steps 的 Top-k 重合度通常达到80%~90%,这意味着每个 Decode Step 理论上仅需加载不到 20% 的新 Cache,为增量传输提供了天然的优化空间。

Buffer 容量与命中率的权衡

然而,随着序列长度的增长,Top-k 选择的候选范围线性扩展,相邻步的差异逐渐放大。不同的 LRU Buffer 容量配置会直接影响 Cache 命中率。

可以看到,当 Buffer 容量仅为 Top-k 大小(2K)时,长序列场景下命中率显著下降,I/O 延迟成为瓶颈。而将 Buffer 扩大至 4K~8K,可以用可控的显存开销换取成倍的 I/O 效率提升。

LRU Diff Kernel 设计与实现

为充分利用 DSA 的时间局部性,我们设计了基于 LRU 淘汰策略的 Diff Kernel。其核心思想是:在 GPU 侧维护一个 Top-k 的 2~4 倍容量的 LRU Buffer(典型配置为 4K~8K Token),通过智能淘汰策略容纳 Top-k 的短期波动。

Kernel 工作流程分为三个阶段:

阶段 1:集合交集计算

比较 prev\_topk 和 curr\_topk,识别出两步共同选中的 Token。这部分 Cache 已驻留 GPU,无需重新加载,直接更新 PageTable(curr\_device\_indices)以复用现有数据。

阶段 2:LRU 淘汰决策

这是与严格 Top-k Buffer 的核心差异。Kernel 不会简单驱逐所有 prev\_topk 中未在 curr\_topk 出现的 Token,而是:

  • 仅当 Buffer 空间不足时才触发淘汰;
  • 优先淘汰过去多个 Step 中均未被命中的 Cache 页(基于 LRU 策略);
  • 计算 evict\_device\_indices,标记最冷的物理页位置可被覆写。

阶段 3:增量加载映射

从 curr\_topk 中提取新增的 Token(未命中部分),生成一对一的加载映射关系:

  • load\_host\_indices:这些 Token 在 Host Memory 中的物理地址;
  • load\_device\_indices:它们在 GPU 中的目标物理页号(复用阶段 2 淘汰的位置)。

这种启发式策略充分利用了 DSA Top-k 选择的时间连续性,为每个 Request 动态维护一个高效的缓存窗口, 使得系统可以用较少的 GPU 缓存空间维持长序列场景下至少 80%+ 的缓存命中率,达到空间和效率的动态平衡。

2.4.4 I/O Transfer Kernel: 高性能传输利器 TODO

为了实现 GPU-CPU 异构内存层次间的高效数据迁移,SGLang HiCache 设计了专门的 IO Kernel 传输引擎。该引擎采用 CUDA 底层优化技术,通过 warp-level 细粒度并行最大化 PCIe 带宽利用率。

IO Kernel 支持多种内存布局模式(layer\_first、page\_first、page\_head),实现了对 MHA和 MLA 架构的统一抽象。在 CPU 侧采用 pinned memory 和 CUDA host register 机制确保零拷贝传输,结合 per-layer 和 all-layer 两种传输粒度的动态调度策略,在 prefill 阶段后进行批量全层 offload,在 decode 阶段进行增量单层传输,有效平衡了传输延迟与带宽开销。

实测表明,通过 NUMA 绑定,该 IO Kernel 在 8×H20 上可达到接近\~40GB/s per GPU,为分层 KV cache 架构提供了低延迟、高吞吐的数据搬运基础设施。

3.性能评估

我们在 SGLang 分层稀疏注意力框架上接入了 DeepSeek V32 DSA,并在长上下文推理场景下进行了系统性能评估。实验采用 DeepSeek-V32 模型,针对 16k、32k 和 64k 三种序列长度配置,在 8×H200 GPU With 1TB 内存上测试了不同 batch size 下的输入吞吐量(input tokens/s)。

实验结果表明,相较于传统的全量 KV cache 方案,分层稀疏注意力方案(Hierarchical Sparse)通过结合KV cache 分层管理、GPU-CPU 异构存储以及动态 TopK 检索机制,在长序列场景下展现出显著的性能优势。具体而言:

  1. 内存效率&吞吐量突破:传统方案受限于 GPU 显存容量,在 64k/32k/16k 序列长度下分别仅能支持最大 batch size 为 32/64/128,而 Hierarchical Sparse 方案通过将 KVCache Offload 至 CPU 内存,可支持的最大 batch size 分别达到 160/304/600,实现了 5 倍的批处理能力提升,2~3 倍的 Through 提升。
  2. 可扩展性验证:随着 batch size 增加,Hierarchical Sparse 方案的吞吐量呈现近线性增长趋势,验证了分层缓存架构和稀疏注意力机制在大规模并发推理场景下的良好扩展性。

该结果证明了分层稀疏注意力架构在突破 GPU 显存墙、支持超长上下文大规模并发推理方面的有效性。

4.展望与Roadmap

技术深化方向

  • 算法与后端扩展:适配更多 Sparse 算法(如 StreamingLLM、PQCache)与 Attention 后端(如 FlashInfer、Triton),提升框架的生态兼容性。
  • 性能优化

    • IO 掩藏:通过 TwoBatch Overlap、Kernel Fused 等技术进一步降低 I/O 延迟开销,逼近理论性能上限。
    • 异步检索: 基于相邻 Token 的 Query 具有高度相似性原则,通过前序 Token 的 Query 提前异步检索 当前 Step 的 Topk,减少检索开销。

架构演进方向:随着超节点架构的普及,GPU 通过 Scale-Up 网络访问共享内存池的带宽已显著超越传统 PCIe 带宽。在此硬件趋势下,KVCache 的内存池化管理(Memory Pooling)成为自然选择。我们将协助实现超节点内的 KVCache 统一池化调度,充分发挥 Scale-Up 网络的带宽优势,突破传统 PCIe 瓶颈,为超长上下文推理提供更高效的分层稀疏化基础设施。

了解更多

欢迎搜索钉钉群号:109765011301入群与技术专家交流!

主要更新:

Apple Watch 独立播放

  • 无需 iPhone 即可播放
  • 手表端完整控制(播放/暂停/进度/章节)
  • 适合跑步、健身等场景

格式支持扩展

  • PDF 阅读 + TTS 朗读
  • MOBI / AZW / AZW3 (Kindle 格式)
  • DOCX (Word 文档)
  • HTML / HTM (网页文件)
  • RTF (富文本)

核心功能

  • 离线 + 在线双模式
  • 播放速度调节 (0.5x - 2.0x)
  • CarPlay 车载支持
  • 本地文件管理

下载地址

iOS: https://apps.apple.com/us/app/audiotome/id6755520834

Android: https://play.google.com/store/apps/details?id=com.audiotome.audio_tome

交流群:

群二维码


评论留下平台+邮箱,送激活码

欢迎试用反馈

近期出现的高危漏洞中,就包括飞塔(Fortinet)FortiSIEM 安全信息与事件管理设备存在的严重漏洞,攻击者可通过远程利用该漏洞完全攻陷设备系统,进而侵入企业的内部网络。
该漏洞编号为CVE-2025-64155,网络安全公司 Defused 于本周四发布报告称,在飞塔发布安全预警后不久,其蜜罐系统就监测到了针对该漏洞的在野活跃利用尝试
芬兰网络安全公司 Defused 的首席执行官兼创始人西莫・科霍宁表示,此次攻击尝试中,来自中国境内 IP 地址的攻击行为异常活跃,且在该漏洞细节公布后,一系列定向攻击几乎立即展开。
飞塔于 1 月 13 日公开了该漏洞的相关细节,发布安全公告披露这一操作系统命令注入漏洞,并推出软件更新包进行修复。公告指出,除 FortiSIEM 云版本及 7.5 版本外,所有 FortiSIEM 版本均存在 CVE-2025-64155 漏洞,该漏洞可能导致未通过身份验证的攻击者,通过构造恶意 TCP 请求执行未授权的代码或命令。
飞塔已发布 7.4.1、7.3.5、7.2.7 和 7.1.9 版本的修复程序以解决该问题。而 7.0.x 及 6.7.x 系列版本虽同样存在该漏洞,但飞塔表示不会为这些版本推出修复补丁,同时建议相关用户将系统迁移至仍受官方支持的已修复版本
飞塔还指出,用户也可通过限制对 7900 端口上 phMonitor 服务的访问,实现对该漏洞的风险缓解。
该漏洞由网络安全公司 Horizon3 发现,该公司已于 2025 年 8 月 14 日将漏洞信息上报给飞塔。Horizon3 在技术深度分析中称,其向飞塔上报的漏洞包含两个:一是未授权的参数注入漏洞,该漏洞可导致任意文件写入,让攻击者以管理员权限执行远程代码;二是文件覆盖提权漏洞,攻击者可通过该漏洞获取系统最高 root 权限。为配合厂商修复,Horizon3 在漏洞上报后的 153 天里未对外透露任何相关信息,直至飞塔 1 月 13 日发布安全更新后才公开细节。
Horizon3 在协同漏洞披露声明中表示,该漏洞是其在 2025 年 8 月飞塔发布 FortiSIEM 设备另一款命令注入漏洞(编号CVE-2025-25256)的安全公告后,后续发现的新漏洞。
该公司称,CVE-2025-64155 漏洞存在于phMonitor 服务中,该服务是 FortiSIEM 设备不同功能模块的通信核心 —— 负责将数据上传至管理端的远程采集器,正是通过该服务基于 TCP/IP 传输自定义 API 消息实现通信。
同样在 1 月 13 日,Horizon3 还在 GitHub 平台上,发布了该漏洞的概念验证漏洞利用代码
网络安全公司 Arctic Wolf 指出,Horizon3 发布的概念验证代码展示了攻击者如何将 CVE-2025-64155 漏洞武器化:通过向 curl 等工具注入命令,实现对设备的完全系统接管。未通过身份验证的攻击者可借助该方式,将反向 shell 载荷写入通常仅管理员有权限操作的文件,随后进一步提权获取系统 root 权限。
为防范此类漏洞被利用,飞塔建议企业将 FortiSIEM 设备部署在受保护的网络网段内,通过防火墙进行安全防护,避免设备直接暴露在公共互联网中。
Arctic Wolf 表示:“将该服务与公共互联网隔离,可有效缩小设备的攻击面,防止攻击者利用 CVE-2025-64155 这类高危漏洞实现初始入侵。”

攻击目标:边缘网络设备

飞塔此次发布漏洞预警的背景,是业界持续发出的安全警示:各类攻击者 —— 包括国家级黑客组织、勒索软件团伙及其他网络犯罪分子,正将边缘网络设备列为主要攻击目标。
网络安全公司 VulnChec 于本周三发布 2025 年已知被利用漏洞分析报告,发现防火墙、VPN 设备、代理服务器等网络边缘设备是被攻击者利用最多的目标,其次为内容管理系统和开源软件。
通常在漏洞被分配 CVE 编号、厂商发布公开安全预警后,针对该漏洞的利用行为就会迅速出现。
VulnChec 指出,2025 年有近 30% 的已知被利用漏洞,在CVE 编号发布当天或之前就已被攻击者利用。这一数据凸显了攻击者的行动速度,他们往往能在漏洞公开披露或获得 CVE 编号前,就完成漏洞的利用部署。
攻击者针对新漏洞的攻击行动向来十分迅速,但企业的漏洞修复工作却常常滞后,甚至从未开展。
本月早些时候,专注于对抗恶意软件、僵尸网络和网络欺诈的非营利安全组织 Shadowserver 基金会发出警示:其扫描发现,仍有超过 1 万台飞塔防火墙设备存在CVE-2020-12812 漏洞,而该漏洞的修复补丁,飞塔早在 5 年半前就已发布。
该基金会发布报告前,飞塔首席信息安全官卡尔・温莎已于 2025 年 12 月 24 日在博客中披露,飞塔监测到该漏洞在特定配置环境下,近期已出现实际在野利用行为
在特定条件下,攻击者可利用该漏洞强制飞塔 FortiGate 防火墙启用特定身份验证选项,进而绕过双因素认证机制,实现对管理员账户和 VPN 账户的未授权访问。
温莎表示:“这一特殊的身份验证漏洞,根源在于 FortiGate 防火墙默认对用户名进行大小写敏感校验,而企业的 LDAP 目录服务通常不开启该校验规则。”
飞塔已于 2020 年 7 月在 FG-IR-19-283 安全公告中,发布了 FortiOS 6.0.10、6.2.4 和 6.4.1 版本的修复程序,可有效防范该漏洞攻击。但正如 Shadowserver 基金会的扫描结果所示,仍有大量企业未对存在漏洞的设备进行补丁修复。
针对尚未安装修复更新的企业,温莎详细列出了防护措施,可通过相关配置防止防火墙故障切换至错误配置的 LDAP 组设置,从而阻断攻击者对该漏洞的利用。
至于这些迟迟未安装补丁的企业,是否会至少采取上述风险缓解措施,以及具体何时实施,目前仍未可知。

勒索软件组织 RansomHub 对苹果核心供应商立讯精密发起勒索攻击,窃取超 1TB 敏感数据,其中包含 2019 至 2025 年间的产品设计原理图与未发布产品规划方案。此次数据泄露暴露了供应链的网络安全漏洞,不仅让苹果的竞争优势面临被竞品和仿冒厂商觊觎的风险,更凸显出全球制造网络亟需强化网络安全防护措施的紧迫性。

揭秘此次数据泄露:立讯精密遭遇网络攻击,苹果创新核心资产岌岌可危

在技术制造领域,保密的重要性堪比核心芯片,而苹果一家关键供应商近期遭遇的网络攻击,已在行业内引发轩然大波。苹果产品的重要中国代工厂立讯精密工业股份有限公司 沦为勒索软件攻击受害者,超 1TB 敏感数据遭泄露。这起于 2025 年 12 月末首次被披露的事件,现已证实由臭名昭著的勒索软件组织 RansomHub 所为,该组织还扬言将公布窃取的文件,其中包括工程设计原理图、3D 计算机辅助设计模型以及机密产品规划方案。
此次泄露直指全球供应链的安全短板,对于苹果这类依靠国际合作伙伴网络维持消费电子领域竞争优势的企业而言,影响尤为重大。从网络安全论坛和行业报告披露的细节来看,攻击者入侵立讯精密系统后,窃取的资料可能涉及苹果 2019 至 2025 年间所有未发布产品信息。这并非一次普通的黑客攻击,这些数据对竞品厂商、仿冒者,甚至试图窥探苹果未来产品布局的国家行为体而言,都堪称价值连城的信息宝库
苹果素来以严苛的安全防护体系自居,但此次事件暴露了这家科技巨头对供应商安全防御能力的高度依赖。立讯精密负责 iPhone、AirPods 等多款苹果设备的零部件组装,是苹果生产生态中的核心节点。近年来该企业业务规模大幅扩张,甚至成为富士康等老牌代工厂的强劲竞争对手,而此次数据泄露则表明,其业务扩张或许是以牺牲完善的网络安全防护为代价。

过往入侵事件的警示与持续升级的网络威胁

业内人士指出,此次攻击是针对苹果供应链的一系列网络攻击的最新一环。早在 2021 年,苹果另一家供应商广达电脑就曾遭遇 REvil 勒索软件组织的类似攻击,导致未发布 MacBook 的设计原理图被泄露。据苹果科技资讯网站 MacRumors 的相关报道,该事件迫使苹果加快对所有合作供应商的安全审计工作。而此次立讯精密的数据泄露事件性质更为严重,黑客宣称已获取产线相关数据,此举或将直接扰乱苹果的产品制造进度。
发起此次攻击的 RansomHub 组织,向来以针对知名企业实施大胆的网络攻击著称。该组织的关联人员在暗网发帖炫耀,称已窃取包含电路设计、产品蓝图在内的立讯精密内部文件。匿名的网络安全专家表示,此次被盗数据可能包含苹果多款未发布设备的原型机信息,甚至包括增强现实硬件和下一代可穿戴设备的技术升级细节。RansomHub 组织扬言,若未收到赎金就将泄露全部数据,这让事件的紧迫性进一步升级 —— 任何信息的公开,都可能严重削弱苹果的行业竞争优势。
苹果对此的回应延续了其一贯的谨慎风格,暂未就此次数据泄露事件直接置评。但知情人士透露,苹果正与立讯精密紧密合作,开展损失评估并强化安全防御体系。这一合作至关重要,苹果 2023 年在官方新闻中心发布的一份研究报告就曾强调,全球数据泄露威胁正持续加剧,而苹果向来依靠端到端加密技术保护用户数据安全。

供应链安全漏洞全面暴露

此次事件的影响远不止于直接的数据丢失。对于行业从业者而言,这起泄露事件引发了人们对科技制造领域主流准时制生产模式抗风险能力的质疑。立讯精密在中国的生产基地承担了苹果大量产品的组装工作,如今其网络安全的潜在漏洞已成为行业关注的焦点。据印度时报新闻网报道,此次攻击可能是利用了系统老旧软件的漏洞,或通过内部人员权限入侵,使得黑客得以在数周内隐匿在立讯精密内部系统中进行操作。
此次事件难免让人联想到近期发生的其他网络安全事故。就在去年,研究人员发现苹果 M 系列芯片存在一个名为 GoFetch 的安全漏洞,攻击者可通过该漏洞从系统缓存中提取加密密钥。网络安全记者金・泽特在 X 平台援引相关论文细节指出,这一漏洞影响了 M1、M2、M3 全系列处理器,凸显出硬件层面的安全风险与立讯精密这类软件层面的数据泄露形成叠加威胁。尽管苹果已通过软件更新修复了该漏洞,但这一事件也印证了没有任何系统能做到绝对安全
此外,立讯精密遭攻击的时间节点,恰逢美中贸易关系引发的地缘政治紧张局势升级。苹果此前已在推进供应链多元化布局,减少对中国制造商的依赖,将部分产能转移至印度和越南。业内人士推测,此次数据泄露事件可能会加速这一进程,促使苹果对所有合作供应商制定更严苛的网络安全标准。一家竞品代工厂的高管表示:“这不仅仅是数据泄露的问题,更是对整个苹果生态系统信任的考验。”

勒索软件的攻击手段与行业连锁反应

深入分析 RansomHub 的攻击手段可以发现,该组织使用的勒索软件技术十分先进,可在对文件进行加密的同时,将数据窃取至外部服务器作为勒索筹码。此次该组织宣称窃取了超 1TB 苹果机密信息,这一数据量远超以往多数数据泄露事件。网络安全资讯网站 Help Net Security 的报告证实,RansomHub 的关联人员已在地下论坛发布了部分被盗数据样本,其中包括看似真实的工程图纸片段。
此次事件给苹果带来的潜在损失是多方面的。一旦数据被公开,苹果未来数年的产品路线图将提前曝光,三星、华为等竞品厂商可据此提前布局,针对性地抗衡苹果的创新成果。例如,未发布 iPhone 机型的设计原理图、智能家居设备的实验性功能细节等,都可能流入黑市,进而引发仿冒产品的泛滥。行业分析师估算,此类知识产权泄露事件曾导致企业蒙受数十亿美元的营收损失。
而立讯精密自身也面临着品牌声誉受损和潜在经济处罚的风险。作为苹果第二大代工厂,立讯精密为扩张产能投入了巨额资金,此次数据泄露事件可能会引发苹果对双方合作合同的重新审核,甚至面临合作终止的后果。苹果科技资讯网站 AppleInsider 等账号在 X 平台发布的信息显示,暗网上已出现兜售此次被盗数据的信息,显然已有买家开始争相接洽。这种地下交易市场正借助此类数据泄露事件不断发展,数据中间商愿意为独家的技术机密支付高价。

苹果的战略应对与未来的安全防护措施

此次数据泄露事件后,苹果大概率会采取多维度的应对策略。在企业内部,技术团队可能正在开展溯源分析,追踪攻击源头,并与专业网络安全公司合作弥补安全漏洞;在外部,苹果将进一步向供应商施压,要求其采用零信任安全架构—— 即系统内任何主体都不会被默认赋予信任权限。这一转变也与行业整体发展趋势相契合,2025 年微软就曾披露过一个编号为 CVE-2025-31199 的 macOS 系统漏洞,攻击者可通过该漏洞窃取私人文件数据,这一事件也推动了行业对安全架构升级的重视。
展望未来,立讯精密数据泄露事件可能会推动相关监管政策的调整。各国政府,尤其是美国政府,正推动出台数据泄露强制上报制度,并强化供应链安全监管。拜登政府推出的网络安全行政令或将迎来新的实施动力,迫使科技巨头对合作供应商开展更严格的安全审计。对苹果而言,这意味着需要在创新速度与安全防护之间找到平衡,这一难题也一直贯穿于苹果与安卓生态的竞争过程中。
业内人士同时强调了人为因素的重要性:立讯精密等供应商必须加强员工网络安全培训,提升全员钓鱼邮件识别意识。网络安全资讯账号 Dark Web Informer 在 X 平台发布的一则消息称,2024 年苹果曾发生内部工具数据泄露事件,这一前车之鉴表明,即便是微小的信息暴露,也可能演变成严重的安全事故。企业通过集成先进的人工智能驱动威胁检测技术,能更精准地预判网络攻击,将被动的安全补救转变为主动的防御。

全球影响与企业竞争优势的重构

此次数据泄露事件造成的全球影响不容小觑。在知识产权已成为国家战略资产的时代,这类事件正不断引发各界对国际网络安全规则的探讨。中国作为全球制造业中心,让此次事件的影响更添复杂性,尽管目前没有任何证据,但仍有部分专家猜测此次攻击可能涉及国家行为,不过现阶段调查焦点仍集中在 RansomHub 这类跨境作案、逍遥法外的犯罪集团上。
对于苹果的竞品厂商而言,此次事件既是机遇,也暗藏风险。部分厂商可能会试图利用泄露的数据分析苹果的研发方向,但与此同时,这些企业自身也可能成为勒索软件组织的攻击目标,这或将推动整个行业联合起来,建立网络安全情报共享机制。美国网络安全和基础设施安全局等机构,早已在倡导搭建协作框架,共同对抗勒索软件威胁。
归根结底,此次事件将考验苹果的抗风险能力。苹果此前曾经历过新冠疫情、贸易战等多重供应链危机,且每次都能浴火重生,发展得更为强劲。尽管此次数据泄露事件性质严重,但也可能推动苹果在安全制造领域实现技术创新,确保未来的新产品在正式发布前,始终保持高度保密的状态。

从此次事件中汲取的行业教训

行业领军企业从此次事件中强调了供应链多元化的重要性:苹果扩大供应商版图的举措虽能降低单一供应商带来的风险,但真正的安全防护需要实现供应链的端到端可视化管理。区块链等用于追踪数据完整性的技术正逐渐得到应用,可为敏感文件打造不可篡改的分布式账本,提升数据安全等级。
此外,黑客发起勒索攻击背后的巨额经济利益,也凸显出企业亟需建立完善的网络安全保险机制和数据恢复预案。立讯精密此次选择支付赎金或是拒绝妥协,都将为其他供应商处理此类网络安全危机树立先例。
随着事件的逐渐平息,立讯精密数据泄露事件也为现代制造业敲响了警钟 —— 数字时代的网络威胁无处不在。对苹果而言,这不仅是强化自身安全防线的号召,更是要筑牢整个供应链的安全屏障,唯有如此,才能守住支撑其市场主导地位的产品神秘感与技术创新优势。

蓝色起源正式发布太赫兹波(TeraWave)卫星网络,该网络规划部署 5408 颗卫星,依托光通信技术实现 6 太比特每秒的传输速率,计划 2027 年末起面向企业与政府客户落地。该项目聚焦高带宽企业级商用场景,直接对标太空探索技术公司的星链网络。尽管面临监管审批与部署落地的多重挑战,这一战略转型仍有望重塑全球数据基础设施格局。

蓝色起源太赫兹波项目引燃高速数据领域太空新竞赛

杰夫・贝索斯旗下的蓝色起源,凭借太赫兹波卫星网络的发布正式入局卫星通信赛道。这一雄心勃勃的网络项目可在全球任意地点实现最高 6 太比特每秒(Tbps)的数据传输速率,于 2026 年 1 月 21 日正式对外公布。这一举措标志着该公司迎来重大战略转型:此前蓝色起源以火箭研发和探月计划为核心业务,如今将在蓬勃发展的天基互联网基础设施领域,与埃隆・马斯克旗下的太空探索技术公司展开正面竞争。根据官方最新公告,太赫兹波网络计划 2027 年末启动卫星部署,核心目标客户为企业、政府机构及数据中心,而非普通消费者。
该网络的核心竞争力在于光通信技术,凭借这一技术可实现前所未有的对称式数据传输速率。这一布局的意义远不止于提升网络速度,更是为海量数据处理需求搭建核心骨干网络,覆盖人工智能驱动的数据分析、政府高安全等级业务运营等多类场景。据雅虎财经相关报道细节,该系统专为极致传输速率设计,性能远超当前民用网络标准,成为各类对高可靠性、高带宽连接有刚性需求的大型项目的关键支撑。
业内人士认为,这是蓝色起源针对太空探索技术公司星链的战略回应。目前星链已完成数千颗卫星的部署,在宽带服务领域占据可观市场份额。与星链聚焦全球民用网络接入不同,太赫兹波网络深耕高价值企业级商用及政府专属场景,有望在数据安全与传输速率为核心需求的领域开辟专属市场。

拆解太赫兹波网络的核心技术

太赫兹波网络的核心,是基于先进激光技术的星间激光链路星地激光链路,其实现的传输速率有望彻底改变全球信息流通方式。太空领域爱好者与分析师在 X 平台的发文均对该技术表示高度关注,有观点指出,该网络的技术潜力可与美国国家航空航天局过往的激光通信里程碑项目比肩,有望实现数分钟内太字节级的数据传输。
蓝色起源在 X 平台发布的项目公告中明确表示,该网络可为数万用户提供关键业务级通信连接服务。这一能力依托公司自研的蓝环(Blue Ring)平台打造,该平台可实现跨轨道的有效载荷调度与星上数据处理,与太赫兹波网络的架构实现无缝融合。
与竞品的对比在所难免。据《个人电脑杂志》报道,尽管星链的传输速率表现亮眼,但太赫兹波网络 6Tbps 的速率指标精准对标企业级需求,在专业场景的原始吞吐量上,有望超越同类竞品。

太赫兹波项目对蓝色起源整体战略的深远意义

此次布局恰逢蓝色起源的战略关键期 —— 此前该公司因发展进度落后于太空探索技术公司而备受诟病。贝索斯入局卫星星座市场,充分发挥了其亚马逊的背景优势:亚马逊网络服务的核心正是数据中心,太赫兹波网络可与该业务形成深度协同。业内人士推测,太赫兹波网络或将与亚马逊云服务整合,为远程数据处理打造超高速传输链路。
从财务角度看,该项目是一笔巨额投资。5000 余颗卫星的部署需要多次发射任务支撑,发射载体大概率为蓝色起源仍在研发中的新格伦火箭(New Glenn)。路透社的报道强调了该项目的规模,指出其聚焦数据中心与企业服务的定位,有望为蓝色起源创造稳定的收入流。
市场对此反应迅速。据 TipRanks 的最新数据,太赫兹波网络发布后,回声星、AST 移动太空等竞品企业的股价出现下跌,反映出投资者对天基通信领域竞争加剧的担忧。

部署落地与监管层面的多重挑战

如此规模的卫星网络部署,面临着诸多现实阻碍。美国联邦通信委员会等机构的监管审批是关键环节,尤其是当前近地轨道的卫星部署已趋于饱和。蓝色起源必须妥善解决频谱分配与轨道碎片防控问题,这类问题也曾成为同类卫星项目的发展瓶颈。
技术层面,实现 6Tbps 的传输速率需要攻克大气干扰难题,并保障激光链路的精准对准。美国国家航空航天局曾在 X 平台发布过 TBIRD 实验的相关数据,该实验实现了 200Gbps 的传输速率,太赫兹波网络计划在此基础上实现跨越式升级,但实际落地过程中或面临进度延迟。
此外,2027 年第四季度启动部署的时间规划,完全依赖于新格伦火箭的研发进度。业内多方分析指出,火箭测试环节的任何延迟,都可能导致整个太赫兹波项目的推进受阻。

与星链及其他竞品的竞争格局

太空探索技术公司的星链已凭借第三代卫星实现单星太比特级的传输能力,树立了行业高标杆。X 平台去年的相关讨论提及,星链通过星舰火箭发射,单次发射有望实现 60Tbps 的总传输能力,直观体现出带宽领域的太空竞赛态势。尽管太赫兹波网络以企业级市场为差异化定位,但与星链的能力重叠仍可能引发激烈竞争。
其他玩家也在加速布局,例如 AST 移动太空公司正推进搭载大型相控阵天线的蓝鸟卫星发射,其最新进展也在 X 平台公布。蓝色起源的入局,让这场赛道竞争愈发激烈,有望推动全行业的技术创新。
从商业合作角度,太赫兹波网络具备强大的合作吸引力。各国政府为国防、灾害应急等场景寻求高安全通信方案,或将成为该网络的重要客户;数据中心也可借助该网络实现全球数据的无缝同步。

光通信技术的创新突破

深入来看,太赫兹波网络采用的光通信链路,相比传统射频通信系统,具备更低的时延更高的传输效率。这一技术方向与美国国家航空航天局的 TBIRD 实验等项目的发展趋势高度契合,该实验曾实现单次传输 3.6 太字节的数据量,相关历史数据仍可在 X 平台的存档内容中查询。
蓝色起源宣称,太赫兹波网络实现了上下行速率对称,即上传与下载速率持平,这一特性对于分布式场景下的实时人工智能训练等应用至关重要。印度数字媒体 Devdiscourse 的文章详细阐述了这一技术将如何开启全球通信的新时代,并强调该网络在应对指数级增长的数据量方面的核心作用。
在业内人士看来,该网络最具吸引力的潜力在于与边缘计算的融合。通过蓝环平台实现星上数据处理,太赫兹波网络可减少对地面计算中心的依赖,进而降低运营成本、提升数据安全性。

市场潜力与经济影响

分析师预测,在偏远地区高速数据需求的推动下,卫星通信行业将迎来指数级增长。太赫兹波网络 6Tbps 的传输能力,让蓝色起源有望在这一市场中占据一席之地,尤其在海事、航空等传统通信服务覆盖不足的领域优势显著。
其带来的经济连锁反应将十分深远。高速数据传输技术将推动远程医疗、自动驾驶等领域的技术突破,这类场景的毫秒级决策依赖于高稳定性的网络支撑。X 平台上关于星链业务拓展的讨论也印证了,这类天基通信系统正深刻重塑各行业的发展格局。
不过,定价策略仍是未知因素。面向企业的专属服务或定位于高端市场,但行业竞争可能推动价格下探,间接惠及终端用户。

环境与伦理层面的考量

太空可持续发展已成为全球关注的焦点。太赫兹波网络的 5408 颗卫星,将进一步增加轨道空间的拥堵程度,引发各界对其轨道碎片防控措施的质疑。尽管蓝色起源已承诺采取负责任的部署策略,但业内仍在密切关注其实际执行情况。
伦理层面,保障通信服务的公平可及性是核心问题。尽管该网络现阶段瞄准企业市场,但若能实现成本下探,其技术成果有望逐步惠及普通用户,助力弥合数字鸿沟。
地缘政治层面,在全球多国均在布局同类天基通信技术的背景下,太赫兹波这一美国本土研发的网络项目,将进一步强化美国在太空领域的技术实力。

蓝色起源的未来发展方向

展望未来,太赫兹波网络的应用场景或超越通信领域。该网络与蓝色起源探月计划的融合,有望将通信覆盖延伸至地月空间,为未来的月球探测任务提供通信支撑。
与科技巨头的合作将加速该网络的商业化落地。试想亚马逊网络服务借助太赫兹波网络实现全球云服务的容灾备份,这一协同效应是贝索斯独有的资源优势,有望充分发挥。
从 X 平台的热议度来看,投资者对该项目的情绪整体乐观,多篇发文强调太赫兹波网络有望大幅提升蓝色起源的企业估值。

规模落地:从项目发布到卫星入轨

从项目发布到卫星正式入轨,需要经过严苛的测试环节。地面站、用户终端、卫星原型机等核心设备均需完成优化调试。尽管蓝色起源在亚轨道飞行领域的技术积累为项目奠定了基础,但从亚轨道技术向轨道卫星星座的规模化拓展,仍是一次巨大的跨越。
与光通信组件供应商的合作尤为关键。业内报道显示,蓝色起源或将与激光技术领域的头部企业合作,以实现 6Tbps 的速率指标。
归根结底,项目的成败取决于执行能力。若蓝色起源能如期落地技术规划,太赫兹波网络将重新定义高速数据传输的行业标准,挑战现有市场格局并推动全新的技术创新。

全行业的发展变革

太赫兹波网络的发布,折射出太空正成为全球数据传输大动脉的行业趋势。在人工智能领域对带宽需求持续攀升的背景下,太赫兹波这类高速天基通信网络的出现恰逢其时。
本月早些时候彭博社的评论文章探讨了星链的发展历程,对比来看,高估值背景下的技术创新压力,正同时作用于蓝色起源与太空探索技术公司两家企业。
在业内人士眼中,太赫兹波项目标志着蓝色起源的成熟转型 —— 从单纯的火箭研发企业,成长为覆盖全领域的太空科技玩家。

战略投资与潜在风险

支撑此类大型项目需要雄厚的资金实力。贝索斯的个人财富为蓝色起源提供了资金保障,但要实现规模化发展,仍需引入外部投资者。
项目面临的风险包括技术研发失败市场饱和。若星链持续占据市场主导地位,太赫兹波网络必须凭借更优质的企业级服务实现差异化竞争。
但与此同时,项目的发展潜力也极为巨大。即便仅占据全球数据通信市场的一小部分份额,也有望为蓝色起源带来数十亿美元的营收。

展望数据驱动的未来

本质上,太赫兹波网络是太空探索与数字基础设施深度融合的产物。在数据量呈爆炸式增长的当下,这类技术解决方案已成为时代刚需。
对于各国政府而言,该网络为危机场景下提供了高韧性的通信保障;对于企业而言,其突破了传统光纤网络的地域限制,为全球化业务运营提供了核心工具。
随着蓝色起源的持续推进,太空数据领域的竞赛愈发激烈,一个以太比特级速率实现全球互联的时代,正逐步成为现实。

一波新的网络攻击正瞄准那些寻找免费软件的用户,把他们的电脑变成不情愿的带宽共享参与者。安恒实验室安全情报中心(ASEC)发布警告称,威胁组织 Larva-25012 正在通过分发伪装成热门文本编辑器 Notepad++ 的恶意软件来实施攻击。
这是一种典型的 “代理劫持(Proxyjacking)” 攻击:攻击者在受害者电脑上悄悄安装软件,盗用其网络带宽来牟利。
该活动主要针对搜索破解版或盗版软件的用户。攻击者将受害者诱骗到 “伪装成提供破解 / 盗版软件下载的虚假网站”。这些网站通常声称自己 “界面友好、资源全面”,提供各种工具的恶意安装包,例如 AutoClicker、SteamCleaner,以及最引人注目的 Notepad++
当用户下载并运行名为 Setup.zip 的文件时,他们得到的远不止一个文本编辑器。“通过 Setup.zip 分发的版本同时包含 ** 正版 Notepad++ 安装程序(Setup.exe)** 和一个名为 TextShaping.dll 的恶意加载器 DLL。”
恶意软件使用 DLL 侧加载(DLL side‑loading) 技术来躲避检测。当受害者启动正版的 Notepad++ 安装程序时,它会无意中从同一文件夹加载恶意的 TextShaping.dll
随后,该 DLL 会在内存中解密一个有效载荷,最终安装 DPLoader(一种下载器木马)。“一旦在 Windows 任务计划程序中注册,DPLoader 就会持久化执行,并从其 C&C 服务器获取指令。”
为了保持隐蔽,恶意软件还会主动篡改系统防御。“脚本会修改 Windows Defender 策略,包括添加排除路径、禁用安全通知,并阻止恶意软件样本提交。”
该活动的最终目的不是勒索或窃取数据,而是牟利。攻击者会安装 代理软件(Proxyware),让受害者的网络连接被 “共享” 出去。
“代理劫持指的是在未经同意的情况下,在受害者机器上安装 Proxyware,从而让攻击者通过盗用受害者的网络带宽来赚钱。”
恶意软件会安装已知的代理软件,例如 InfaticaDigitalPulse。为了伪装得更逼真,Infatica 代理会被注册为名为 “Microsoft Anti‑Malware Tool” 的计划任务,让普通用户误以为它是一个合法的系统进程。
Larva-25012 还在不断升级攻击手段。ASEC 研究人员指出,攻击者 “正在积极更改技术以躲避检测 —— 例如将 Proxyware 注入 Windows 资源管理器进程,或使用基于 Python 的加载器”。

对用户来说,这是一个明确的提醒:

从不明来源下载软件往往伴随着隐藏的代价 —— 这次,是你的网络带宽。

一款新型剪贴板劫持程序正利用 Discord 社区的用户信任,暗中盗取游戏玩家与直播博主的加密货币资产。
此次攻击活动的核心是一款伪装成直播辅助工具或安全工具的恶意 Windows 程序,一经安装便会在后台静默监控用户剪贴板,伺机捕获用户复制的加密货币钱包地址
当受害者将钱包地址粘贴至加密货币交易所、钱包应用或支付输入框时,该恶意软件会将其替换为攻击者控制的地址,在无明显痕迹的情况下完成资金转移。
被安全研究人员标记为RedLineCyber的攻击团伙,将目标锁定在与游戏、博彩及加密货币直播相关的 Discord 服务器。
该团伙会主动与服务器成员建立信任关系,伪装成工具开发者,通过私下渠道发送名为Pro.exepeeek.exe的恶意文件。
他们向受害者谎称,这款工具能在直播过程中协助管理或保护钱包地址,让程序看似具备实用价值,从而降低用户的警惕性。
在这番看似友好的推销背后,实则是一场针对性极强的盗窃行动 —— 受害者只需一次粘贴操作的疏忽,账户内的交易资金就可能被悄悄转空。
CloudSEK 的安全分析师在监控网络犯罪分子活跃的地下社区与 Discord 频道时,发现了这一攻击活动。

在此次人工情报排查工作中,研究人员识别出该团伙伪造的RedLine Solutions虚假身份,并追溯到这款恶意软件的本源:一款由PyInstaller打包的 Python 基可执行程序。

研究人员的分析证实,该程序并非传统的信息窃取类恶意软件,其攻击行为高度聚焦于单一目标:篡改与主流加密货币相关的剪贴板数据

此次攻击的危害性极大,原因在于其精准瞄准了用户注意力最薄弱的操作环节。许多直播博主与高频交易用户在复制粘贴冗长的钱包地址时,并不会逐一核对每一个字符。
该恶意软件运行时无命令与控制通信流量,且仅占用极少的系统资源,因此能在设备中长期潜伏,伺机等待高价值的资金转账操作。
从攻击者预置钱包地址关联的区块链交易记录来看,比特币、以太坊、索拉纳、狗狗币、莱特币及波场等主流加密货币,均已出现资产被盗的相关记录。

感染机制与剪贴板劫持逻辑

受害者运行Pro.exe后,恶意软件会在 Windows 系统的 **% APPDATA%** 目录下创建名为CryptoClipboardGuard的文件夹,并将自身添加至当前用户注册表的开机启动项中。
这一操作能确保恶意软件随系统开机自动运行,在后台持续潜伏且无任何可视窗口
该可执行程序内置了独立的 Python 运行环境与经过混淆处理的字节码,即便目标设备未安装 Python 环境,程序仍能正常运行。
程序启动后会进入高频检测循环,每秒约三次扫描用户的剪贴板内容。
每当剪贴板内容发生变化,恶意软件会通过Base64 编码的正则表达式,对内容进行扫描,匹配各大主流加密货币的钱包地址格式。
一旦检测到有效钱包地址,程序会立即将剪贴板内容替换为该加密货币对应的攻击者预置钱包地址,并将此次替换操作记录在 **% APPDATA%\CryptoClipboardGuard** 目录下的activity.log日志文件中。
由于地址替换发生在复制与粘贴的间隙,大多数受害者直到发现资金转入错误的钱包,才会察觉地址被篡改 —— 而此时,资金转账操作已无法撤销。

互联网系统协会(ISC)已针对 BIND 9 发布高严重性安全公告。BIND 9 是支撑互联网大量 DNS(域名系统)基础设施的核心软件。新发现的漏洞 CVE-2025-13878 允许远程攻击者通过发送单个恶意数据包即可导致 BIND 服务器崩溃,可能引发大规模 ** 拒绝服务(DoS)** 中断。
该漏洞的 CVSS 评分为 7.5,并被标记为 “可远程利用”,意味着攻击者无需本地访问或身份验证,即可从互联网任意位置触发崩溃。
漏洞存在于 BIND 的核心守护进程 named 处理特定类型 DNS 记录的方式中。根据公告,问题由与 BRIDHHIT 记录相关的无效数据结构触发。
公告指出:“畸形的 BRID/HHIT 记录可导致 named 意外终止。”
虽然这些记录类型不像标准 A 或 AAAA 记录那样常见,但解析器无法正确处理其损坏版本,从而在软件中形成一个脆弱点。
该漏洞的影响直接且具有破坏性。攻击者只需发送一个特制查询,即可迫使 DNS 服务器关闭。
公告警告:“攻击者可以通过发送导致记录损坏或恶意的请求,使 named 崩溃。”
此风险适用于所有 BIND 部署场景。ISC 确认:“权威服务器和递归解析器均受此漏洞影响”,没有任何配置能完全避免崩溃风险。
该漏洞由 Marlink Cyber 的 Vlatko Kosturjak 报告。
网络管理员被敦促立即检查其 BIND 版本。受影响的分支如下:
  • BIND 9.18:版本 9.18.40 至 9.18.43
  • BIND 9.20:版本 9.20.13 至 9.20.17
  • BIND 9.21:版本 9.21.12 至 9.21.16
支持的预览版也受到影响。
幸运的是,目前 “尚未发现任何野外活跃利用”。然而,鉴于 BIND 的广泛使用,各组织不应等待,应立即修补。
ISC 建议用户 “升级到与你当前 BIND 9 版本最接近的已修复版本”,具体为:
  • 9.18.44
  • 9.20.18
  • 9.21.17

思科已向全球网络管理员发出紧急警告:其核心通信软件中存在一个严重远程代码执行(RCE)漏洞,目前正被黑客积极利用。该漏洞编号为 CVE-2026-20045,允许未授权攻击者接管受影响设备,并可能将权限提升至 root
该漏洞直击企业通信的核心,影响包括 Cisco Unified Communications Manager(Unified CM)Cisco Unity Connection 在内的重要平台。
虽然该漏洞的 CVSS 基础评分为 8.2(通常归类为 “高”),但思科已将威胁等级提升为 严重(Critical)。厂商解释称,这一调整反映了该漏洞的破坏性潜力。
根据公告:“思科已将此安全公告的安全影响等级(SIR)定为严重,而非评分所示的高。” 原因是:“利用此漏洞可能导致攻击者将权限提升至 root。”
漏洞存在于受影响设备的 Web 管理界面 中,源于对传入流量的输入验证不当。“此漏洞是由于在 HTTP 请求中对用户提供的输入验证不充分造成的。”
攻击者无需登录即可触发漏洞。通过 “向受影响设备的 Web 管理界面发送一系列特制的 HTTP 请求”,对手可以绕过安全控制。
一旦成功进入系统,后果可能是彻底的。“成功利用此漏洞可能允许攻击者获得底层操作系统的用户级访问权限,然后将权限提升至 root。”
该漏洞影响范围广泛,以下产品无论配置如何均受影响:
  • Unified CM(CallManager)
  • Unified CM Session Management Edition(SME)
  • Unified CM IM & Presence Service
  • Unity Connection
  • Webex Calling Dedicated Instance
由于已确认存在野外利用,修补并非可选。思科已为 14 版和 15 版发布软件更新,同时指出 12.5 版用户必须 “迁移到已修复的版本”。
鉴于当前活跃的威胁环境,“思科强烈建议客户立即升级到已修复的软件版本以缓解此漏洞。”

威胁行为者正将 Visual Studio Code 变为攻击平台,借助其完善的扩展生态系统,向开发者工作站植入多阶段恶意软件
此次最新攻击活动被命名为伊夫林窃取程序,该恶意程序隐匿于一款恶意扩展中,通过数个精心设计的攻击阶段,向目标端投放一款具备隐秘性的信息窃取工具。
攻击者的目标并非普通终端用户,而是开发者群体—— 这类人群往往掌握着源代码、云控制台及加密货币资产的核心访问权限。
攻击从受害者安装一款伪装成实用或无害的植毒 Visual Studio Code 扩展开始,该扩展会在后台释放伪造的 Lightshot.dll 组件,随后这一组件会被正版截图工具 Lightshot.exe 加载运行。
此后恶意软件攻击链逐步展开,不仅会远程获取新的攻击载荷、执行隐藏的 PowerShell 命令,还会为最终实现大规模数据窃取的伊夫林窃取程序可执行文件搭建运行环境。
趋势科技分析师指出,攻击者将用户对Visual Studio Code 应用市场的信任当作可利用的武器,以恶意扩展为载体构建完整攻击链,实现从初始加载器启动到最终数据窃取的全流程攻击。
攻击者通过滥用 Lightshot 这类开发者常用工具,并采用仿签名的导出方式,让攻击第一阶段融入开发者的正常操作流程,同时在后台悄然为后续的入侵环节做准备。

伊夫林窃取程序完全执行后,会从受感染设备中窃取浏览器密码、Cookie、加密货币钱包、即时通讯会话记录、VPN 配置文件、Wi-Fi 密钥及各类敏感文件

同时该程序还会捕获设备截图和详细的系统信息,将所有数据压缩为单个压缩包后,上传至攻击者控制的 FTP 服务器。

对企业而言,仅一台开发者笔记本电脑被感染,就可能导致源代码、云访问令牌及生产环境凭证泄露,让一次工具链的使用疏漏,演变为波及范围广泛的安全入侵事件。

多阶段感染链的技术细节

攻击的第一阶段隐藏在恶意 Visual Studio Code 扩展内,伪装为 Lightshot.dll 文件,每当用户进行截图操作时,该文件就会被 Lightshot.exe 调用执行。
该下载器被触发后,会执行一条隐藏的 PowerShell 命令,从远程域名拉取名为 iknowyou.model 的第二阶段攻击文件,将其另存为 runtime.exe 并运行。
伊夫林窃取程序的攻击载荷会在设备中创建AppData\Evelyn 文件夹,向 Edge 和 Chrome 浏览器注入 abe_decrypt.dll 文件,最终将窃取的数据打包为 ZIP 压缩包,通过 FTP 协议完成上传。