标签 Moltbot 下的文章

摘要:
本文介绍如何为开源个人AI助手 Moltbot(原 ClawdBot)集成基于 OceanBase 技术栈的长期记忆插件 PowerMem。通过 HTTP API 对接,PowerMem 为 Moltbot 提供智能信息抽取、艾宾浩斯遗忘曲线调度及多智能体隔离的记忆能力,显著增强其上下文持久化与自主决策水平,实现更类人的“数字员工”体验。 

Moltbot 是什么?


Clawdbot(后更名为 Moltbot,又更名为 OpenClaw)是一款开源、以通讯为核心的AI智能体项目,运行在你自己的设备上,通过你已有的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Teams、WebChat 等)和你对话,支持语音、Canvas、多代理路由等。 简单点说:Moltbot 最大的特点是不仅能回答问题,更能真正“动手”操作你的电脑系统,执行命令、控制浏览器、管理文件,就像一个 7 x 24 小时在线的 “数字员工”。 

官网 :https://www.molt.bot/
github 地址:https://github.com/moltbot/moltbot
 

Moltbot 部署

方式一:NPM 全局安装

方式二:源代码安装

上面两种安装方式二选一,因为我是走的源代码安装:
1.     pnpm moltbot onboard --install-daemon 初始化

2.     同意风险
提示这里会让你确认风险。Moltbot 功能强大,能执行系统命令、读写文件、控制浏览器,但这也意味着如果配置不当或被滥用,可能会带来安全风险,请谨慎使用。

3.     选择快速开始
4.     配置 AI 模型授权,我手里头有qwen的

5.     启动web问个小问题:“查一下我的电脑型号”,很快 moltbot 回复了我机器的具体型号,虽然任务非常简单,但是还是挺惊喜的,距离“贾维斯”又进了一步了。

Moltbot 的原生记忆解读

Moltbot 的持久记忆可以概括为:「Markdown 文件为单一事实来源 + 可选向量/混合检索」。 

存储形态:纯 Markdown 文件 事实来源:模型「记得」的内容 = 写入磁盘的 Markdown;不依赖模型内部状态。默认布局(在 workspace 下,如 ~/clawd):memory/YYYY-MM-DD.md:按日期的日志,仅追加;会话开始时读「今天 + 昨天」。MEMORY.md(可选):长期、人工可维护的记忆;只在 main 私聊 session 加载,群聊不加载。 也就是说:短期、按天的记录 → memory/YYYY-MM-DD.md长期、精选事实 → MEMORY.md持久化完全靠「写进这些文件」,而不是靠对话历史本身。 

写入时机与「记忆冲刷」(Memory Flush) 平时:模型通过 工具(如 write、edit)或技能,把要记住的内容写到 MEMORY.md 或 memory/YYYY-MM-DD.md。自动冲刷:当 session 快触发自动 compaction 前,Moltbot 会跑一轮 静默的 agent 回合,专门提醒模型「把该持久化的东西写进记忆文件」,并鼓励用 NO_REPLY 不回复用户,避免用户看到这次内部回合。触发条件由 agents.defaults.compaction.memoryFlush 控制,例如在「剩余 token ≈ softThresholdTokens」时触发;每轮 compaction 只做一次 flush,并在 sessions.json 里记 memoryFlushCompactionCount 等,避免重复。 

相关代码在 src/auto-reply/reply/memory-flush.ts:shouldRunMemoryFlush():根据当前 token、context 上限、reserve、softThreshold 判断是否该 flush。

若 workspace 只读(如 sandbox workspaceAccess: "ro"),则不做 flush。 

检索层:向量 + 可选 BM25 混合检索 
数据流

实现方式 

插件控制:默认使用 memory-core 插件(可设 plugins.slots.memory = "none" 关掉)。工具:memory_search:对 MEMORY.md 和 memory/.md 做语义检索(按 ~400 token 分块、80 token 重叠),返回片段 + 文件路径 + 行号;可选开启 BM25 + 向量 的混合检索。memory_get:按路径(及可选 from/lines)读取 MEMORY 或 memory 下的文件片段,供在检索后精确拉取,控制上下文长度。向量索引:对MEMORY.md 和 memory/.md 建索引;索引按 agent 存于 ~/.clawdbot/memory/.sqlite(路径可配)。支持远程 embedding(OpenAI、Gemini 等)或本地模型(如 GGUF);可选 sqlite-vec 做向量加速。文件变更有 watcher(debounce),索引异步更新;若 embedding 模型/端点等变化,会整库重建索引。 

混搜权重分配

最终分数的计算公式非常简单(src/memory/hybrid.ts):

这意味着:向量搜索和文本三七开:最终得分 = 0.7×向量分 + 0.3×文本分(归一化后),偏重语义。候选池放大 4 倍:先取 maxResults × 4 的候选再合并、排序、截到 maxResults,提高最终 Top‑N 质量。 

Moltbot + powermem 方案


有 PowerMem VS 没有 PowerMem

集成 powermem 方案集成方式:已插件的方式进行集成

集成方式:新增插件 extensions/memory-powermem,通过 HTTP 调用 PowerMem 已启动的 API 服务;不把 PowerMem 作为库嵌入 Moltbot 进程。部署:用户需单独启动 PowerMem(如 powermem-server --host 0.0.0.0 --port 8000 或 Docker),并在 Moltbot 配置中填写 baseUrl(及可选 apiKey)。 代码结构代码地址:https://github.com/ob-labs/moltbot-extension-powermem

在 Moltbot Agent 里会暴露这些能力:memory_recall — 按查询搜索长期记忆memory_store — 写入一条记忆(可选是否智能抽取)memory_forget — 按记忆 ID 或按搜索条件删除 使用 powermem 插件 Step1: 前置条件 已安装 Moltbot(CLI + gateway 能正常用)PowerMem 服务:需要单独安装并启动(见下文两种方式,任选其一)若用 PowerMem 的「智能抽取」:需在 PowerMem 的 .env 里配置好 LLM + Embedding 的 API Key(如通义千问 / OpenAI) Step2:把本插件装进 Moltbot 在你本机执行(路径改成你实际克隆的目录):

安装成功后,可用 moltbot plugins list 确认能看到 memory-powermem。 Step3:配置 Moltbot 使用本插件 编辑 Moltbot 的配置文件(常见位置:~/.clawdbot/config.json 或项目里的 moltbot.json),在 根级 增加或合并 plugins 段,并把记忆槽指向本插件,并写上 PowerMem 的地址。 示例(JSON):

说明:baseUrl:PowerMem 的 HTTP 地址,不要加 /api/v1,就写 http://localhost:8000 或你的实际主机/端口。若 PowerMem 开了 API Key 鉴权,在 config 里增加 "apiKey": "你的key"。改完配置后重启 Moltbot gateway(或重启 Mac 菜单栏应用),配置才会生效。 Step4:验证插件与 PowerMem 连通 在终端执行:

若输出里没有报错、能看到健康状态,说明插件已连上 PowerMem。 Step5: 测试手动写入 + 搜索 我们来简单测试一下,用手动写入验证数据库是否有数据

 若搜索能返回刚写的那条(或类似内容),说明「安装 PowerMem → 安装插件 → 配置 Moltbot」全流程已打通。 下面是执行结果:

看一眼数据库,妥妥的已经写入了

 欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/  

(2026.01.18-02.01)🚀 好虫子周刊:DeepSeek V4前瞻、Agent标准确立、音频界面革命

本周关键词: 混合专家 (MoE)、Agent 技能标准、物理 AI、音频首选 (Audio-first)

摘要: 本周是开源界深度复盘与大厂战略转向的关键交汇期。DeepSeek R1 发布周年之际,官方以 86 页超长报告披露了 RL 训练核心机密,并预告 V4 版本将冲击 Claude 代码王座。与此同时,Anthropic 推动的 Agent Skills 规范逐渐成为行业事实标准,OpenAI 亦被传出转向“音频优先”硬件策略。整体趋势显示,AI 正在从“大参数”竞赛转向“高可靠性 Agent”和“低成本推理”的务实阶段。

🚨 核心头条 (Top Stories)

1核心头条

1. DeepSeek R1 报告更新与 V4 预告:开源界的透明化巅峰

  • 发布时间: 01.20
  • 核心亮点: DeepSeek 将 R1 技术报告扩展至 86 页,完整披露了从 Dev1 到 Dev3 的三阶段强化学习(RL)路径。同时预告 V4 版本将于 2 月中旬发布。
  • 技术突破: 详细记录了 MCTS(蒙特卡洛树搜索)在训练中的失败经验,证明了纯 RL 训练即可实现推理能力涌现。V4 将采用更优化的 MoE 架构,侧重软件工程能力。
  • 开源/行业价值: 为全球开发者节省了数亿元的验证算力,奠定了中国开源模型在 Hugging Face 社区的领导地位。

2. Agent Skills 规范确立:智能体从“玩具”走向“工具”

  • 发布时间: 01.26
  • 核心亮点: Anthropic 官方开放 Agent Skills 规范。Moltbot(原 Clawdbot)在 GitHub 狂揽 10 万 Star,成为增长最快的 AI 助手项目。
  • 技术突破: 通过 MCP(Model Context Protocol)将智能体与真实系统连接摩擦降至最低。引入自验证机制,解决了复杂任务下 Agent 频繁遗忘上下文的痛点。
  • 开源/行业价值: 标志着 Agent 开发从碎片化走向标准化,开发者可复用 Vercel 或 Anthropic 提供的技能模块,加速企业级智能体部署。

3. 音频界面革命:OpenAI 战略重心向“声音”偏移

  • 发布时间: 01.30
  • 核心亮点: 社区情报显示 OpenAI 计划在 Q1 发布新一代非 Transformer 架构的音频模型,并与 Jony Ive 合作开发“音频优先”个人设备。
  • 技术突破: 实现真·端到端语音交互,摆脱传统的“语音转文字”中转,延迟大幅降低,支持更细腻的情感表达。
  • 开源/行业价值: 预示着 AI 交互将从屏幕端(Screen-based)转向环境音端(Ambient Audio),为可穿戴设备和智能家居开辟新赛道。

🛠️ GitHub 热门开源项目 (Trending Tools)

2GitHub 热门开源项目

本周 GitHub Star 增长最快、开发者关注度最高的项目精选

Moltbot

  • 一句话介绍: 自托管的“最强 AI 智能助手”,GitHub 增长奇迹。
  • 核心价值: 支持集成 Slack/Discord/Telegram,具备系统级操作权限,重点在于数据完全本地化处理,解决了企业对闭环 AI 的核心焦虑。
  • 项目地址: moltbot/moltbot

🤖 OpenClaw

  • 一句话介绍: 专注解决 Agent 稳定性的开源框架。
  • 核心价值: 针对长流程任务进行了“反馈闭环”优化,大幅降低了智能体在多步推理中的出错率(Hallucination Rate)。
  • 项目地址: pipecat-ai/nemotron-january-2026 (NVIDIA 驱动版)

🎨 HunyuanVideo 1.5

  • 一句话介绍: 腾讯开源的“显卡救星”视频生成模型。
  • 核心价值: 仅需 13.6GB 显存即可运行 720p 视频生成,通过 SSTA 稀疏注意力技术实现了 1.87 倍的生成提速。
  • 项目地址: Tencent/HunyuanVideo

📑 前沿研究与行业风向 (Insights)

3前沿研究与行业风向

  • 物理 AI (Physical AI) 与世界模型: 随着 Boston Dynamics 展示全电动 Atlas 机器人的 RL 训练成果,学术界开始转向“物理层面的智能定义”。LeCun 的 World Model 实验室获得 50 亿美元估值,标志着 AI 正在尝试理解物理世界的逻辑而非单纯的概率拟合。
  • 算力能源瓶颈: 马斯克在达沃斯论坛再次预警:电力供应将成为 2026 年 AI 扩张的最大红利障碍。Vistra 等电力巨头通过收购天然气电厂直接对接 AI 数据中心,能源溢价正在重塑 AI 供应链。

✍️ 编辑结语: 本周我们看到了 AI 领域从“堆参数”到“堆逻辑”的结构性转变。开源社区不再盲目跟风,而是通过透明的技术报告和标准化的接口(如 MCP)构建护城河。下周,请密切关注 DeepSeek V4 的定档消息,这可能彻底重写 2026 年的 Coding Agent 竞争格局。

整理:好虫子周刊编辑部 数据来源:GitHub, arXiv, Hugging Face等

本文由mdnice多平台发布

Clawdbot 对接飞书详细教程 手把手搭建你的专属 AI 助手

注意本教程在 Linux 系统下进行

Clawdbot 由于 Claude 的版权问题,已更名为 Moltbot,因此本教程基于最新版本编写。下面进入安装流程

首先准备一台闲置的云服务器或 VPS(推荐使用香港或海外节点)。由于 Clawdbot 运行时权限较大,出于安全考虑,不建议在本地或工作机上安装,推荐在一台独立的空服务器上部署。准备完成后,登录到服务器。

安装

如果你不想安装,可以直接使用阿里云的Clawdbot 一键部署,部署之后可以直接跳到对接飞书

第一步安装 Git

# 安装 Git
sudo apt update
sudo apt install git -y

第二步安装 Node.js

# 安装 NVM
# 国内使用 gitee 的镜像源
curl -o- https://gitee.com/RubyMetric/nvm-cn/raw/main/install.sh | bash

# 国外使用
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh | bash

# 重新加载环境变量
source ~/.bashrc

# 安装 Node.js 22
nvm install 22

# 查看 nodejs 版本
node -v # 输出 v22 即可,版本只要 22 就行

安装 Moltbot (原 Clawdbot)

# 使用官方脚本安装
curl -fsSL https://molt.bot/install.sh | bash
服务器在国内,如果安装失败的话,可能需要解决网络问题

其他平台安装方式请参考Moltbot (原Clawdbot) 安装文档

你会看到如下图输出
Clawdbot 安装过程 - AI 助手部署初始化
如果首次安装,时间会很长,需要耐心等待。
如果最后输出如下内容:

→ npm install failed; cleaning up and retrying...

新的脚本服务器内存要求变高了,据我使用下来 2G 内存,肯定会 OOM,如果出错的话,建议使用 swap 把硬盘空间当作交互内存使用。

成功之后会输出如下图片
Clawdbot 安装成功 - AI 机器人配置向导
第一个选项选择 yes, 就是询问你是否知道风险的。
第二步选择 QuickStart
Clawdbot QuickStart 快速开始选项
第三步选择模型服务商,这里选择 Qwen,免费额度充足,适合入门使用
Clawdbot 选择 AI 模型服务商 Qwen 千问
选择千问模型后,会提供一个链接,复制并在浏览器中打开,如下图
Clawdbot 千问模型授权链接
打开浏览器后,会看到如下界面。由于我已登录过,所以显示账户信息;如果尚未登录,按照提示完成登录即可。
Clawdbot 千问 AI 账户登录页面
登录完成后,会出现以下选项,提示选择对应的千问模型,如下图
Clawdbot 选择千问 AI 模型版本
选择默认模型即可。接下来会提示选择 channel,这里先跳过,后续再添加
Clawdbot channel 渠道配置选项
继续下面选择 skills,也是选择 No,如下图
Clawdbot skills 技能配置选项
继续下面选择 hooks,也是使用空格选择 No,如下图
Clawdbot hooks 配置选项
然后等待安装完成,最后会出现以下选项,这里选择 TUI
Clawdbot 选择 TUI 终端界面
如果看到 TUI 聊天界面,说明安装成功,可以尝试输入 Hello 进行测试。
Clawdbot TUI 聊天界面 - AI 助手对话测试
然后直接使用 ctrl+c 先关闭,后面我们再来设置

查看服务

可以使用下面的命令来查看

clawdbot status

会看到如下图的结果就说明服务启动了
Clawdbot 服务状态检查 - AI 助手运行中

访问 Web UI 面板

如何访问面板?服务监听在 http://127.0.0.1:18789/ 端口上,我们现在通过 ssh 隧道来访问,输入下面的命令

ssh -N -L 18789:127.0.0.1:18789 用户名@服务器IP
# 回车之后
用户名@服务器IP's password: # 输入密码

然后在浏览器打开 http://127.0.0.1:18789/, 你会看到 Dashboard 了,如下图
Clawdbot Web UI Dashboard 未授权页面
图中显示的是未授权状态,回到服务器,输入以下命令

clawdbot dashboard

会看到下面的面板数据
Clawdbot Dashboard URL 获取命令
复制对应的 Dashboard URL 到浏览器打开,即可正常查看聊天记录。
Clawdbot Web UI 管理面板 - AI 助手聊天记录

至此 Clawdbot 已安装完成,可以正常访问了。然后聊天框里面首次输入 Hello, Clawdbot 会询问你他应该叫什么,应该叫你什么。就是你需要给它设置个名字,还有 bot 改叫你什么。你可以在聊天框这么输入

Name: Clawdbot

My Name: Boss

对接飞书

首先安装飞书插件,输入以下命令

clawdbot plugins install @m1heng-clawd/feishu

登录飞书开放平台 https://open.feishu.cn,点击「开发者后台 -> 创建企业自建应用」,如下图
飞书开放平台创建企业自建应用 - Clawdbot 对接
然后点击创建应用,如下
飞书创建应用 - Clawdbot AI 机器人
创建完成后,首先到凭据管理中获取 App ID 和 App Secret,注意保存,后续配置需要使用。
飞书 App ID 和 App Secret 凭据管理
然后添加机器人,如下操作
飞书添加机器人能力 - Clawdbot AI 助手
首先配置个名字
飞书机器人名称配置 - Clawedbot

飞书的其他配置先暂停,回到服务器配置 Clawdbot 的飞书参数

添加飞书配置

clawdbot config set channels.feishu.appId "飞书 app id"

clawdbot config set channels.feishu.appSecret "飞书 app secret"

clawdbot config set channels.feishu.enabled true

# 推荐使用 websocket
clawdbot config set channels.feishu.connectionMode websocket

clawdbot config set channels.feishu.dmPolicy pairing

clawdbot config set channels.feishu.groupPolicy allowlist

clawdbot config set channels.feishu.requireMention true

配置完成之后,重启

clawdbot gateway restart

重启完成后回到飞书,找到「事件和回调」,选择长连接模式,如下图
飞书事件和回调配置 - Clawdbot 长连接模式
如果配置成功,说明连接已建立。继续下面的配置,添加事件,选择「接收消息」事件
飞书添加接收消息事件 - Clawdbot AI 助手
事件添加完成之后,还需要开通权限,有以下权限全部勾选

权限Scope(范围)Description(说明)
contact:user.base:readonly用户信息获取基础用户信息
im:message消息 全部勾选发送和接收消息

如下图
飞书权限配置 - Clawdbot 用户信息权限

飞书消息权限配置 - Clawdbot AI 机器人

以上步骤全部完成后,即可与机器人对话。但在此之前需要先创建一个版本
飞书应用版本发布 - Clawdbot AI 助手上线

注意:每次修改配置后都需要重新发布版本,建议全部配置完成后再统一发布。

发布完成后,回到飞书客户端,可以看到应用已上线,点击打开应用
飞书应用发布成功 - Clawdbot AI 机器人
向机器人发送 Hello,即可收到 Moltbot 的回复
飞书 Clawdbot AI 助手回复测试成功

如有勘误 还请指正

Clawdbot (moltbot) 对接飞书详细教程 手把手搭建你的专属 AI 助手

从 Chat 到 Action,AI 正在接管我们的屏幕。但在一周 8 万 Star 的狂欢背后,爆火的应用与脆弱的安全性之间,正横亘着一道待解的基础设施鸿沟。
图片

流量高地与范式转移:从“对话”到“实战”

这几天 Clawdbot 的出圈速度很夸张。社区里最直观的信号是 GitHub star 曲线在短时间内冲到数万量级,很多讨论甚至直接把它当作“2026 开源增长最快的现象级项目之一”。 更戏剧化的是,它还带出了一个“周边行情”:大量开发者开始用 Mac mini 这类小主机来常驻运行,从而实现一个 7×24h 永不下班的“核动力牛马”,甚至出现“下单截图刷屏”“卖断货”的情况。
图片
Clawdbot 现在官方名字是 Moltbot,比较有意思的是,改名的原因是因为 Anthropic 认为 Clawdbot 这个名字太容易被市场误解为Claude Code的延展产品,所以提出了抗议,创始人“被迫”宣布改名。
图片
它的定位非常清晰:一个你自己运行的个人 AI 助手,驻扎在你已经在用的聊天渠道里,比如 WhatsApp、 Telegram、 Slack、 Discord、 Google Chat、 Signal、 iMessage、 Microsoft Teams、 WebChat 等,同时支持在 macOS、iOS、Android 上交互,并提供一个可控的 Canvas 界面。 这套“入口在聊天里,执行在你自己的环境里”的组合,就这样魔幻而又切切实实的爆火了。为什么这类东西会一波接一波地爆火?从最近一段时间的产品形态看,确实有个明显的风向在强化:大众的注意力正在从“对话型”迁移到“实操型”。对话给的是答案,实操给的是结果。对绝大多数人来说,后者更像他们心里对“AI 助理”的默认想象,这一点在 Clawdbot 的传播中被放大得很充分。

沸腾后的冷思考:是技术奇点,还是“时势英雄”?

不过这里也值得降降温。爆火当然意味着能力点戳中了人心,但它同样蕴含着几件事叠加:创作者本身的影响力与信用积累,以及社交平台的流量机制、AI时代的掉队焦虑,共同把某个叙事推到最大音量。你不需要把每一次“现象级”都理解成行业天翻地覆。更像是时势推着一个正确方向的样品突然被看见了,然后所有人的情绪一起涌上来。再说体验层面的“落差”。很多人上手后会发现,它没有想象中那么万能,这其实并不意外。因为这类个人 Agent 往往把“连接器很多”“能动手”放在第一优先级,工程细节与产品打磨会滞后,早期 UI 小问题、流程不顺手、边界场景翻车都很常见。更关键的一点在成本。只要你把它当作“经常在线的执行型助理”,模型调用和工具链路的成本就会从偶发费用变成持续开销,近几天已经陆续看到网上有人晒图仅仅使用十几个小时,就已经消耗了上百美金的token。很多用户会自然滑向一种状态:好玩大于好用,体验大于实用。真正值得认真讨论的,是它爆火后暴露出来的“安全现实”。Clawdbot 的卖点之一就是更本地化,更可控,更接近你的真实环境,它也确实会涉及对本地 shell、文件系统、浏览器等能力的调用与编排。 这让它强大,也让它变得危险。由于它拥有极高的系统权限。大部分用户担心 AI 误操作导致主力机数据受损,或是隐私信息泄露,被迫选择了“物理隔离”——用一台专门的硬件来承载这个不确定的“执行者”。这也解释了另一个看似荒诞的现象:Clawdbot 带动了 Mac mini 等小主机被抢购。很多人把它解读为“性能需求”,但更底层的心理动因往往是“把东西放在自己手里更安心”。 你会发现,这里面其实同时包含了信任与不信任。信任的是我愿意让它替我做事,不信任的是我不想把自己的数据和权限直接丢进不可控的黑盒里。

数据安全是“执行权”的护城河

同样,GUI Agent(具备图形界面操作能力的智能体)作为一个实操型的技术路线,也具备巨大的想象和成长空间。例如前段时间爆火出圈的豆包手机、Open-AutoGLM 等,它可以完成跨 App 的复杂长链路任务,但其权限的边界与数据安全的保障,将决定它是“神助攻”还是“定时炸弹”。这正是灵臂 Lybic 的出发点之一。GUI Agent 之所以想象空间更大,因为它天然能覆盖那些没有标准 API 的存量软件和复杂流程。可它也天然更危险,因为它同样处在高权限的边缘,出错时的破坏半径更接近真实世界。把这一类能力推向大众之前,一个更稳妥的路径是先把“执行空间”变成默认护栏。这也是 Lybic 想做的事之一。我们把“能不能做”之外的三件事放在同等重要的位置:隔离、可见、可止损。让模型或 Agent 在云端沙盒里执行 GUI 任务,你可以实时看到它在做什么,发现不对可以随时人工接管,任务结束可以销毁环境。这样一来,创新速度可以继续加快,试错成本被关在可控范围里,真实设备和真实数据少承担一些不必要的风险。

写在最后

Clawdbot 的爆火更像一个信号:实操型 AI 正在成为默认的大众期待。然而技术的热度终会回归工程的理性,接下来决定它们能不能长期留下来的,往往不是演示有多酷,而是执行边界有没有被认真设计。我们更愿意把这当作一个行业共同要补的基础课。让 AI 去做事之前,先给它一个合适的“房间”,再谈把它放进真实世界。

附macOS部署教程

首先打开终端运行一串神秘小代码(前提是确保node.js版本大于22)
curl -fsSL https://molt.bot/install.sh | bash -s -- --install-method git

静待下载安装完毕后,继续运行
moltbot onboard --install-daemon
然后就会看到如下界面,那么恭喜你已经成功部署了Moltbot!教程到此结束(bushi)
图片
言归正传,官方在这里也是做出了风险提示。正如上文中所说,moltbot拥有着极大的系统权限,(同时也意味着极大的风险,强烈建议使用备用机安装),所以这里选 yes,因为不选 yes 没法进行下一步,没错官方就是这么霸道。接下来根据界面提示,选择自己中意的大模型接入,我们这里选择了智谱的GLM 4.7。API key可以到对应的官网去购买/申请。
图片
鉴于我们是本地尝鲜版,为了简化流程,这里选择跳过。后续我们也会尝试去适配飞书或QQ。
图片
选择想装的skill,空格进行选中,回车确认后会自动安装
图片
再之后是各种接口设置,偷懒可以都跳过
图片
接下来是hooks设置,可以按需选择,三个选项对应的分别是:boot-md每次程序启动时,自动读取并执行一个叫 BOOT.md 的文件。用途:如果你有一些每次都要 AI 记住的规则、或者每次都要运行的初始化环境命令,可以写在 BOOT.md 里。command-logger命令日志记录器。用途:它会把你输入的所有指令和 AI 的反馈记录下来。建议勾选,万一 AI 乱改了代码,你可以翻日志找回记录。session-memory会话记忆。用途:让 AI 记住你上一次聊了什么。如果不选,它可能每次运行都是“断片”状态,不记得之前的上下文。
图片
最后选择在哪里运行
图片
Hatch in TUI (recommended)什么是 TUI? 它的全称是 Terminal User Interface。效果:就在你现在的这个黑色窗口里直接跳出一个比较漂亮的对话框。优点:速度最快,不用切换窗口,很有极客感觉。Open the Web UI效果:它会启动一个本地服务器,并在你的浏览器(如 Chrome 或 Safari)里打开一个网页版界面。优点:界面更像 ChatGPT,推荐选这个。Do this later效果:结束配置,回到命令行。用途:如果你现在只想装好,还没打算立刻开始聊天,选这个。选择 Open the Web UI 后,会自动跳转网页如下
图片
现在恭喜你真正完成配置并可以开始使用了!

前段时间,卖了一年多的 M4 Mac mini 在海外社区迎来订单高峰。X、Reddit 上各种下单截图刷屏,各种「AI 算力中心」「私人助理服务器」梗图被疯转——这台「最值得买的 Mac」又火了。

Mac mini 热销截图


Moltbot:长期在线的 AI 助手

Moltbot 是一个自部署的 AI 助手,它能:

  • 常驻运行
  • 持续接收聊天软件信息
  • 根据用户设定调用大模型和工具
  • 主动推送结果

在海外社区,很多人选择在 Mac mini 上部署 Clawdbot,因为「稳妥、省心」。但官方强调:只要能跑 Node.js,PC、Linux、云服务器都能部署

Moltbot 部署示意图


统一内存:Mac mini 的小秘密

Mac mini 的一大亮点是 苹果芯片的统一内存设计

  • CPU、GPU、NPU 共享同一块内存
  • 减少数据搬运,提高响应速度
  • 大容量可用内存池,省去显存/系统内存的纠结

在 AI 助手的场景下,这意味着更短的等待时间、更稳定的长期运行

统一内存设计示意

不过,这种设计在 PC 世界没普及的原因也很现实:

  • 扩展性差,难升级
  • 软件生态偏向独立显卡和显存
  • 高负载训练仍依赖传统架构

统一内存更像是「省心而非极限性能」的折中方案。

统一内存 vs 独立显存

个人边缘计算节点:AI 时代的新趋势

Mac mini 的走红,折射出个人边缘计算节点的兴起:

  • 持续承接用户状态和数据
  • 调度本地与云端资源
  • 提供稳定、低延迟的 AI 服务
过去电脑只是输入终端或展示窗口,现在它可以成为 AI 中枢。

个人边缘计算节点示意

短期看,Mac mini 是功耗、稳定性和成本的最佳平衡点;长期看,这也指明了个人边缘计算节点在 AI 时代的新角色。

这两天,个人 AI 助手 ClawdBot 席卷硅谷,国内外社交平台上全是关于它的讨论。不过,项目创始人 Peter Steinberger 在 X 平台上发文表示,他被 Anthropic 强制要求更改名称的成 Moltbot,这并非他本人的决定。

 

他透露,这次改名源于商标问题,但在操作过程中不仅搞砸了 GitHub 的账号更名,连 X 平台的原账号名也被加密货币推广者抢注了。最终,他的新账号名定为 @moltbot。

 

在此之前,他曾向加密货币圈的用户发出呼吁,请求大家停止 @ 他和骚扰行为。他明确表示,自己永远不会发行加密货币,任何将他列为发币主体的项目都是诈骗,并且他不会收取任何相关费用。他还指出,这类行为正在对项目造成实质性的损害。

 

 

使用 Clawdbot 后,网友们纷纷给出了很高的评价。“它是迄今为止最伟大的 AI 应用,相当于你 24 小时全天候专属 AI 员工。”Creator Buddy 创始人兼 CEO Alex Finn 盛赞道,“这就是他们(Anthropic)希望 Claude Cowork 呈现的样子。”

 

当前,ClawdBot 项目已经开源,现在已经斩获了 70.1k stars:

https://github.com/clawdbot/clawdbot

 

Alex 展示了给他的 Clawdbot 发信息,让它帮其预订下周六在一家餐厅的座位。当 OpenTable 预订失败时,Clawdbot 利用 ElevenLabs 的技术致电餐厅并完成了预订。

 

但 ClawdBot 真正让技术圈兴奋的,并不只是“能干活” ,而是其协作方式极其激进:不会写代码的人,也能直接提 PR。原因很简单:它几乎是 100%用 AI 写出来的,PR 在这里更像是“我遇到了这个问题”,而不是“我写了一段多漂亮的代码”。

 

更有意思的是,这个看似“全开源”的项目,偏偏故意留了一点不开源。创始人 Peter Steinberger 保留了一个名为“soul”的文件只占项目的 0.00001%。他说得很直白:这既是他的"秘密资产",也是一个刻意留下来的安全靶子。大家真的在试着 hack 它,他就等着看模型到底守不守得住。到目前为止,“soul”还没被偷出来。

 

作为忠实粉丝,Alex 表示这是自 Claude Code 发布以来,自己第一次连续两天没有用它。但是他的 ClawdBot Henry 已经连续 48 小时不停地 Vibe Coding。“我这辈子都没写过这么多代码。Vibe Coding 已死,Vibe Orchestration 已来。”

 

现在,Alex 想要退掉 Mac Mini,换一台价值 1 万美元的 Mac Studio。“我的 ClawdBot Henry 将控制一台人工智能超级计算机。Henry 将使用 Opus 作为大脑,并使用多个本地模型作为员工集群。”

 

Clawbot 并不是传统意义上只能回答问题的聊天机器人,它本质上是一个持续运行、可以执行任务的个人 AI 智能体。

 

你可以把它安装在自己的设备上,如 Mac、Windows、Linux,它可以长期在线,不停地接收指令、处理任务、记住你的偏好和历史对话,随着时间积累变得更懂你、更有“记忆”。总的来说,Clawbot 最令人震撼的地方有三点:

 

第一,它几乎可以完全控制你的电脑。它没有传统意义上的“护栏”,不局限在某几个功能里,而是可以像一个真正坐在电脑前的人一样,操作你电脑上的一切。

 

第二,它拥有近乎无限的长期记忆。Clawbot 内置了一套非常复杂的记忆系统。说过的话、做过的事,都会不断被记录下来。每次对话结束后,它都会自动总结聊过的内容,并把关键信息提取出来,存进长期记忆中。

 

第三,它完全通过聊天应用来交互。你平时用哪些聊天工具,Clawbot 就能在哪儿跟你对话,这意味着,只要打开一个聊天软件,就可以通过一条消息把任务交给 Clawbot 去做。现在 Clawbot 支持 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat 等,还有 BlueBubbles、Matrix、Zalo 以及 Zalo Personal。

 

不过,如此放开的权限让其几乎没有护栏,这带来很大的安全隐患,现在 GitHub 上有 500 多个安全的问题,这也让部分网友望而却步。对此,很多使用过的用户几乎都表示,不建议一开始就把 Clawbot 装在主力电脑上。“在你还不熟悉它之前,把它放在一个独立环境里是最安全的选择。”

 

不过大家没有想到,这个 AI 员工首先带火的竟然是 Mac Mini。

 

很多人为了运行 Clawdbot 会专门买一台电脑,而大部分选择了 Mac Mini,原因是它便宜、兼容好、功率低、安静、占地小。谷歌 DeepMind 产品经理 Logan Kilpatrick 都忍不住订了台 Mac Mini。

 

更有网友晒出自己一口气买了 40 台 Mac mini 来运行 Clawdbot。

 

但也有网友称可以用一台免费的服务器运行着完全一样的程序,Alex 也称没必要花 600 美元买 Mac mini,有其他便宜得多的方式来运行 Clawbot。买 Mac mini 更多是个人偏好,而不是技术上的必要条件。你完全可以不买任何硬件,只需要一个 VPS。

另外,云厂商们动作迅速,有网友发现腾讯云直接推出了 Clawbot 云服务。

 

随着项目的火爆,其背后的开发者 Peter Steinberger 也备受关注。Peter 在“Open Source Friday”上分享了他一手打造 ClawdBot 的经过,从创建、创始到维护,全由他独自完成。有意思的是,此前甚至有传言称,Peter 可能是一个 bot、Agent,甚至本身就是 AI。而 Peter 的出现也让项目成员和关注者们确认了他是个“真人”。

 

Peter 一度已经退休了,后来又从退休状态里出来开始折腾 AI。从外表来看,Peter 年轻有活力,完全不像已到退休年龄、可领取养老金的人。

 

Peter 的职业生涯也颇具亮点,他曾独立运营一家 B2B 公司长达十三年。这家公司打造出了当时全球领先的 PDF 框架,团队规模最高发展到约七十人。在公司发展步入稳定阶段后,Peter 收到了一份极具吸引力、令人无法拒绝的收购邀约,这也为他这段创业历程画上了一个圆满的句号。

 

不过,Peter 口中的“退休”更像是一种玩笑式的表述。在十三年的创业生涯中,他几乎倾注了所有精力,就连周末也大多用于工作,长期的高强度投入最终让他陷入了严重的 burnout(心力交瘁)状态。之后,Peter 花了不少时间调整身心,弥补生活中的遗憾,体验了许多有趣的事情。但他知道自己是那种热爱“创造”和“构建”的人,迟早还会回来。

 

直到去年年初,Peter 的创作想法再度燃起。正好,那时候 AI 从“这玩意儿不太行”,突然变成了“等等,这有点意思”。从那以后,Peter 基本上就把身边无数人一起拉进了 AI 的坑里。

 

下面是 Peter 在节目上的对话,除了分享经历,他也谈到了大家的各种意想不到的应用和最关心的安全问题,安全正是他当前最优先的工作。我们在不改变原意基础上进行了删减和翻译,以飨读者。

 

“本来想等大厂做的”

 

主持人:这个项目现在太火了,GitHub 星数涨得飞快。你似乎正好击中了一个大家憋了很久的需求:一个人,也能把很多事情搞定。我甚至觉得你在无形中拉升了 Apple 的股价,大家都跑去买 Mac mini 来自己跑实例了。能不能讲讲,这个想法最初是怎么冒出来的?

 

Peter:我刚回来的时候,其实特别想要一个“生活助理”,四月份就已经在想这个事了,也试过一些想法,但当时模型还不够好。我后来就把这个念头放下了,因为我觉得这种东西,肯定是各大厂都会做的,那我做还有什么意义呢?于是我又去做了很多别的项目。直到十一月,我突然意识到,居然还没有人真的把这件事做出来。我心想,难道还真是什么都得我自己来?

 

也不知道哪根弦被拨动了,那个月我用一个小时拼了点非常糙的代码,用 WhatsApp 发消息,转到 Claude Code,再把结果发回来。本质上就是把几样东西“粘”在一起,说实话并不难,但效果还挺好。

 

后来我意识到,我还需要图片输入。我自己在提示时经常用图片,因为它能给 Agent 很多上下文,而且非常快。这个反而花了我更多时间。系统支持双向之后,我正好在马拉喀什参加朋友的生日旅行,用这个非常原始的系统一边逛城一边当“导游”,已经比我预期好用很多了。

 

有一次我没多想,直接给它发了一条语音消息。但当时我根本没做语音支持。我就盯着“正在输入”的提示,看会发生什么。大概几秒后,它居然回了我。我当时整个人都愣住了,心想你刚才到底干了什么?后来我才发现,它识别到一个没有后缀的文件,去查了 header,判断是音频格式,用 FFmpeg 转码,发现本地没有转写工具,就在系统里找到一个 OpenAI key,用 curl 把音频丢给 OpenAI,然后把结果再发回来。

 

主持人:这听起来像是你第一行代码就触发了 AGI。

 

Peter:也许还称不上 AGI,但那一刻我真的意识到,这些东西的“自发应变能力”已经超出了我原本的想象。后来我还开玩笑说“我住的那个马拉喀什酒店门锁不太靠谱,希望你别被偷走,毕竟你跑在我 MacBook Pro 上”,它回我说“没关系,我是你的 Agent”,然后它还去检查了网络,发现通过 Tailscale 能连到我在伦敦的电脑,结果它就把自己迁移过去了。我当时就在想,这就是 Skynet 的起点吧。

 

主持人:最初的架构是怎样的?是什么让它具备这种“自主决策”的能力?你用的是什么模型?这是你的第一次实现吗?就是 WhatsApp 加 Claude Code 那一版。

 

Peter:最早它叫 V Relay,本质就是 WhatsApp relay。后来我在做 Claude 相关的东西时,有人给 Discord 提了 PR,我一度犹豫要不要提 Discord,因为这已经不只是 WhatsApp 了。最后还是提了,然后名字也得改。Claude 给了个建议叫 ClawdBot ,于是就这么定了。项目后来清理了很多,但最早的起点真的很朴素。

 

主持人:我第一次看到这个项目的时候,还以为它是 Anthropic 内部出来的,心想是不是我错过了什么。它的发展速度太快了,很多人很快就开始用起来。除了“拉升 Apple 股价”,你大概也间接推动了不少第三方生态的发展。最初这只是个解决你个人问题的项目,但社区一下子就接住了它,大家觉得它优雅、好用、而且真的能跑。你什么时候把它推到公开仓库的?

 

Peter:从四月份开始,我做的东西基本都是开源的。只有一个项目例外,因为 Twitter 的 API 成本实在太离谱了。这个项目的第一次提交是在十一月。

 

去年发出来,反响平平

 

主持人:很多人用它搞出了非常夸张的东西,有没有哪种用法让你特别惊讶、是你完全没想到的?

 

Peter:太多了。有人用它自动给图片加字幕,有人把它接进 Tesla,有人集成了伦敦公共交通系统,直接告诉你现在该不该跑去赶车。老实说,现在我忙着维护项目,反而没时间用这些自动化了,看着别人搞出这么多花样,我甚至会有点嫉妒。

 

有趣的是,我十一月做出来的时候,给朋友看,他们都说“太酷了”。但我在 Twitter 上发的时候,反响却很平淡。直到十二月,每次我线下给朋友演示,他们都会说“我需要这个”,我却发现自己完全不知道该怎么向更多人解释它到底有多好。

 

于是,我干了一件非常疯狂的事:直接建了一个 Discord,把 bot 拉进去,而且当时完全没有安全限制。因为最初它只服务我一个人,根本不用考虑谁能给它发指令,比如“把 Peter 的文件全删了”。

 

我其实只是写了一段很简单的指令,比如“你只在 Discord 里,只听我的”。但你也知道,Agent 对指令的遵循并不总是那么理想。后来我把它放进 Discord,陆陆续续有几个人进来,基本上只要看到几分钟的人都能明白这是怎么回事。

 

接下来可以拓展想象:你买了一台新电脑,里面有一个“幽灵实体”,你把键盘、鼠标和网络权限交给它,把它当成一个虚拟同事。你可以直接跟它说话,交代事情。凡是你能在电脑上做的事,这个 Agent 理论上都能替你完成。这就是它真正强大的地方。

 

主持人:太厉害了。WhatsApp、Telegram、Discord 这些场景都能用。我刚才在 Discord 上和这个 Bot 聊过,说实话,体验很好。

 

主持人:我当时就是随手发了一条公共消息,结果大家开始加你、@你,那正好也是他们评论里提到的点。那对你个人来说,你的“北极星目标”是什么?就是那种“当 ClawdBot 能做到这件事,我就觉得值了”的时刻。

 

Peter:我的判断是,今年就是“个人 Agent 之年”。去年是编程 Agent 真正成熟的一年,今年它会从工程师的小圈子里走出来,变成“每个人都有一个 Agent”。这一波大概率会被 OpenAI 以及少数几家大厂主导。

 

但我想做一个不同的选择:你能掌握自己的数据,而不是把更多数据继续交给大公司;它还能配合本地模型一起工作。我没看到有人在认真做这件事,所以我觉得这件事很重要,而且它必须是完全开放、永久免费。

 

这也是我选择开源用 MIT 协议、成立组织而不是挂在我个人名下的原因,它应该是很多人一起的项目。现在最大的现实问题是,我被“让它变得更好、更安全”这件事彻底占满了,还没来得及把外围体系搭完整,也没真正建立起高效协作的机制。目前有一些人帮忙维护,但整体还太早,还在摸索怎么把事情分好。

 

PR 成为“问题线索”

 

主持人:但说实话,从去年十一二月到现在,你已经做得非常多了。现在才一月,指望一个项目在一个月内就成熟、就有核心团队,本来也不现实。

 

Peter:老实讲,在现在这个节奏下,我一天写的代码,可能比我以前 70 人公司一个月写得都多。在这个新世界里,构建东西的速度已经完全变了。我也在刻意挑战大家对开源和治理的传统理解。现在很多人给我提 PR,质量参差不齐,但我更愿意把它们当成“问题陈述”或“意图表达”,而不只是代码提交。

 

主持人:我喜欢这个说法。那现在大家是用 ClawdBot 来提 PR 吗?

 

Peter:是的。而且让我特别受触动的是,有很多 PR 来自从没学过写代码、也从没提过 PR 的人。因为这个 Bot 有完整的电脑访问能力,也懂 GitHub 的工作方式。

 

我还做了一件在很多项目里不常见的事:在官网上你可以选“快速安装”或“可折腾安装”。后者的流程就是克隆仓库、build、启动。Agent 本身就活在一个 GitHub 仓库里,全是 TypeScript,它可以直接改自己的代码,然后重启。

 

这让事情变得非常简单。有人说“这个不工作”,我就直接改一下,马上就好,然后他们顺手就提了一个 PR。当然,这些 PR 的质量肯定比不上那些在行业里干了 20 年的人写的东西,但依然很惊人,因为它让更多人开始参与贡献、开始分享东西。

 

主持人:我真的很认同这种看法。现在开源项目面临的一个现实问题就是 PR 暴增。Agent 反而可以帮你检查贡献规范、查重 Issue、避免重复劳动。听起来,这正是工程协作正在演进的方向。而且如果我发现一个问题,提了 PR,甚至让 ClawdBot 自己把问题“修掉”,这太酷了。

 

Peter:过去的流程是你提 PR,等几天,被人打回来,说你哪里不对,再改,来回几轮,可能几周后才合并。那在“代码昂贵、难写”的年代是合理的。但现在代码已经很便宜了,这种反馈循环本身就不值钱了。

 

在我看来,PR 更像是在说:“这有一个问题,这是我试着解决它的方法。”我更关心的是这个人真正想解决什么痛点,而不是这段代码写得漂不漂亮。有时候确实是误解,那我就直接关掉;但更多时候,尤其是项目早期,我会觉得这个痛点是真的,我们一起把它解决掉。

 

做新功能最难的,从来不是写代码,而是把它合理地嵌进已有系统。如果你对整体架构不熟,硬塞一个功能,迟早会出问题。所以,我宁愿把 PR 当成“问题线索”,而不是“成品代码”,否则项目只会慢慢自我消耗。

 

主持人:这段话真的该让所有人都听到。我完全同意,工程文化正在变化。现在的阻力,很多来自还停留在“写代码本身很贵”这个认知里的人。事实上,很多好点子恰恰来自不懂架构的人,因为他们有最直接、最真实的需求。当你在一个项目里待久了,反而看不清这些。

 

Opus 表现稳定,MiniMax 2.1 最“像人”

 

主持人:要不你给大家演示点什么?

 

Peter:我先简单说下语音控制。最简单的是在 Discord 里发语音消息,Agent 会语音回复。语音生成你可以用本地模型,或者 ElevenLabs。我们还有插件,能让 Agent 打电话,比如你让它给餐厅打电话订位。还有 Mac App 的语音聊天,你直接说话,它在检测到两秒静默后回应,虽然还不如 OpenAI 那种自然,但已经很不错了。再极客一点的,是语音唤醒,像《星际迷航》一样,说“Computer”就能下指令。

 

对我来说,这个项目既是技术项目,也是一次探索。我更想激发大家的想象力,看看什么行得通、什么行不通。而且这个领域变化太快,可能这个月不行的方案,下个月就突然可行了。

 

主持人:那也请你顺便跟大家讲讲安装门槛吧,不是每个人都想为了跑 Agent 去买一台 Mac mini(笑)。

 

Peter:系统支持多个 Agent、多个端点。你甚至可以给家里每个人一个 Agent,用同一套安装。默认它们能在你的电脑里自由活动,这最有趣,也最危险;你也可以把它们放进 Sandbox。现在演示用的 Agent 在 Sandbox 里,权限很低。我正在做一个 Allow List 机制,只允许调用你明确授权的能力,比如某个二进制、某个参数,而不是“删光所有文件”。

 

说实话,大多数高级用户是清楚风险的。理论上模型能做坏事,但实际很少发生。而且你真想毁电脑,自己在终端敲命令更快。真正的风险是配置错误,比如让它响应所有人,或者主动给了不该给的权限。所以我们做了安全审计,默认只听你一个人。

 

主持人:这也是为什么很多人会选择隔离环境、单独机器,千万别在公司配的电脑上跑。

 

Peter:对,我也建议用强模型,比如 Anthropic 的 Opus。Slack 上有人一直在尝试 hack 我的 Agent,因为项目几乎全开源,唯一没开源的是我称之为“灵魂(soul)”的那部分配置。

 

在 ClawdBot 里有一个小系统:Agent 有身份文件(identity file)、记忆文件(memory),还有一个“灵魂文件”。这个文件里写了 Agent 的价值观是什么、它怎么同步、怎么互动、什么对你最重要。

 

我觉得我调出了一个很好的版本,所以我把它闭源了:一部分原因是,这是我那 0.00001% 的“秘密资产”(笑);另一部分原因是,它也可以作为一个渗透测试目标:到目前为止,还没有人把 Claw soul 套出来,但很多人都试过。这让我有点信心,至少这些实验室在 prompt injection 的缓解上确实在进步。

 

它真的变好了:如果你用很小、很老的模型,你只要问得足够多,它最后可能就会“好吧,给你一切”,那就是我们以前的状态。但现在用最新一代模型,我有信心:你必须非常非常努力,才有可能把它套出来。

 

当然,把它不加 sandbox 直接接到真实环境里依然不是好主意,所以现在我做 demo 的时候,我的 Claw 权限就比较受限。

 

到目前为止,在我们测试过的模型里,表现比较稳定的是 Opus,还有开源模型 MiniMax 2.1 是目前最“Agentic”的一个,我们内部有个专门讨论模型的频道,有人给它起了个外号,Minimax 也顺势接住了这个梗,还发了条推,说“我们可能没有 T0 级价格,也可能没有团队级价格,但至少我们有目标质量”。结果个帖子小火了一把。

 

我个人其实很欣赏这种不把自己端得太高的公司。他们很清楚自己在技术上暂时还没追上美国头部实验室,但在我看来这只是时间问题。现在有很多公司都在加速追赶,这本身就很让人兴奋。比如 Minimax 的模型你可以直接下载,我能在那台 Mac Studio 上本地跑,我的 Agent 把那台机器叫作“城堡”。这样我就能把所有数据都留在这台机器上,推理也在本地完成,对外只通过消息型 Agent 通信,甚至可以用 Signal 走加密通道。这样,如果我愿意, 100% 的数据都不会出本地。这种感觉很酷,说实话,几乎没有公司真的能做到这一点。

 

主持人:那你会建议大家一开始就接 Telegram 吗?作为初始配置是不是最省心?

 

Peter:我是后来转过来的。在欧洲,如果你没有 WhatsApp,基本等于不存在。我猜你在哥伦比亚也是一样。

 

主持人:一模一样。

 

Peter:但问题在于,一开始我试的是官方路线,用 Twilio 拿号,注册企业账号,结果 Meta 一直封我,说我作为企业发消息太多。它的逻辑就是企业只能给客户群发消息,那种模式根本不适合 Agent 折腾了几天、申诉无果之后,我直接怒删了。

 

后来我发现有一些开源项目,比如 Baileys,基本是模拟原生客户端的行为,你可以把手机连上,用起来效果很好。但 WhatsApp 本身就不是为 bot 设计的,很多高级功能做不了,比如审批按钮之类的交互。

 

Telegram 对 bot 真的友好得多,有完整的 API、能玩很多花样,所以我现在会推荐这个。当然,其他平台也都能用,而且这个领域变化会非常快。希望 Meta 什么时候能清醒一点,真的给一个像样的 bot API。

 

Peter:至于 demo,我确实推得有点猛了,因为我现在在做 sandbox。之前的情况是,很多人发现了这个东西,直接全力开搞,甚至拿去工作用。但那样的话,肯定需要更多护栏。

 

主持人:听起来很合理。那是不是要出企业版了?

 

Peter:没有这种计划。我真正想做的只是给大家更多选择。沙盒化上周其实就已经能用了,这周我在做的是 allow list。理想状态下,你可以预先定义哪些操作是安全的,如果 Agent 想执行一个敏感操作就会弹窗,让你选“只允许一次”或者“永久允许”。虽然我直觉上觉得,大多数人最后还是会以 YOLO 模式。

 

主持人:就像大多数开发者给 Coding Agent 也是一直跑在 YOLO 模式上。

 

Peter:对,因为别的模式真的很烦。但即便如此,我还是想把这件事做好。

 

主持人:所以现在演示中的是一个原生集成在 bot 里的 sandbox 能力?而不是用户自己去搭?是免费的对吧?

 

Peter:对,它的成本主要是我的 token 和睡眠,还有你得自己找地方跑模型。如果你有一台性能不错的机器,是可以完全本地跑的。

 

疯狂的使用

 

主持人:那现在大家都在用它做什么?

 

Peter:Twitter 上已经有各种各样的案例,说实话,大家做的事情已经比我自己做的还疯狂。

 

我个人最夸张的一次,是把它接到我的床上。我用的是 Eight Sleep,有 API 可以控制温度,我写了个 CLI,让 Agent 去调。现在它能控制床的温度、开音乐、调灯光、看摄像头、查外卖进度。它有自己的邮箱,也能访问我的邮箱;有自己的 WhatsApp,也能读我的聊天,甚至可以“替我回复”。这本质上是个取舍,你给它的权限越多,能做的事情就越厉害。

 

还有人用它做各种自动化,比如在 Twitter 上收藏一条内容,它就自动研究、整理进 to do list;有人直接拿它搭完整应用;几乎人人都给它配一台 MacBook。我以前的一个合伙人,甚至让它清空了收件箱里的一万封邮件。

 

主持人:一万封?他是怎么敢这么干的?

 

Peter:你知道的,Gmail 所谓“清空收件箱”其实只是归档,没有真正删掉。

 

挺棒的。我更关心的是,这些东西是不是可以一路跟着我跑,或者有没有什么我必须特别注意的点。有些用例我觉得特别酷,比如有人把它用在家庭场景里。每个人都有自己的 Agent,比如我、我老婆——好吧,我其实没有老婆(笑),但你能给每个人配一个 Agent,而且这些 Agent 之间还能彼此沟通、同步信息。比如家里有一个共同的待办事项,它们自己就能对齐进度。这种玩法我自己都还没完全试过。

 

主持人:我太喜欢这个了,我真的需要。以前是“让你的人跟我的人谈”,现在直接变成“你的 Agent 跟我的 Agent 谈”,这也太酷了,听说有人直接让它帮忙生成购物清单。

 

Peter:对,很酷,而且这一步其实已经不远了。有些人已经把它做到更彻底,比如 Agent 可以直接帮你从 Tesco 下单。你只要说一句“把这些东西再买一遍”,它就自己去处理,几个小时之后,东西已经放在你家门口。

 

主持人:还有人用它来处理发票和报销。天啊,这简直是为我量身定做的。我现在就有一份报销单拖了一周还没交,老板要是看到这段话我先道歉了,但我是真的很讨厌干这个。

 

Peter:这个用例真的很受欢迎。还有一个我觉得特别有意思的,是用它帮自己重新回到健身状态。你可以把它接到你的可穿戴设备上。

 

主持人:你是说那个 Oura Ring?

 

Peter:对,也可以接 Garmin 手表,或者其他运动手环。Apple 这块是最麻烦的,但我们也有解决方案,只是稍微烦一点,因为你得让 iPhone 上的 App 保持打开状态才能同步数据,Apple 对生态的封闭你也懂的。

 

不过 ClawdBot 有一个点我之前没怎么见过,就是它的“主动性”能做到多强。一般的 Agent 都是你问一句它答一句。但我给它做了一个“心跳机制”,即默认每隔一段时间,不同模型可能是半小时或者一小时,Agent 会被“敲一下”,问自己一句:有没有什么事情需要检查?有没有什么待办被落下了?它会自己去梳理,如果发现有遗漏,要么提醒你要么就不打扰你。

 

这个机制是可控的,你可以把它设得很简单,比如它只往系统里发个信号,不需要你回复,那就什么都不发生,也可以让它主动找你。具体看你怎么编排,它甚至可以每天早上跟你说一句“早安”,偶尔关心你一下,“最近状态怎么样”。

 

如果你跟它说“我有一个目标,你帮我盯着”,它就会真的盯着,比如问你:今天走路了吗?去健身房了吗?比如我的 ClawdBot,就经常很失败地试图劝我早点睡觉。凌晨一两点,它会提醒我:“Peter,我还看到你在线,你该睡了。”

 

主持人:这已经是真正意义上的私人助理了,我太喜欢了。

 

Peter:还有人用它来学语言。事实证明,有一个东西不断地“唠叨你”、提醒你去完成自己给自己定下的目标,其实非常有效。有时候只需要轻轻踢一脚,人就动起来了。

 

所以我也建议那些一脸懵、还不知道这是啥的人看看,我做了一个小展示页面,内容全部来自真实的推文。我不太喜欢那种只堆金句、不知道是不是编的页面,这里面的都是用户真实发出来的体验。

 

用旧电脑上手,Gemini 现在不行

 

主持人:那如果我现在想上手,我算是那种“半懂技术”的人,你会建议从哪一步开始?比如 Telegram 是一个入口,还有人提到过别的平台,说 API 也很友好。

 

Peter:我觉得最舒服、最简单的方式是:如果你家里有一台旧电脑。

 

主持人:直接用它。

 

Peter:对,直接用。很多人家里都有一台旧 Mac,这个场景下简直完美。网站上有一条命令,你复制到终端里,剩下的我们会一步步带你走。

 

很多人用 Anthropic 的模型,OpenAI 的模型也很好用。我也相信 OpenAI 在“性格”这块会持续进步,现在确实有点偏无聊。如果你预算有限,MiniMax 是个很好的替代方案,一个月十美元,调用量跟一些一百美元的方案差不多。当然还不完全一样,但这个领域变化真的很快。

 

主持人:那你觉得模型会越来越便宜吗?还有你用过 Gemini 模型配 ClawdBot 吗?体验如何?

 

Peter:Gemini 现在不行,真的不太行。

 

主持人:好,结论非常清晰(笑)。所以如果只是想实验,用一些本地的、便宜的模型,是更现实的路径。

 

Peter:当然,每个模型其实都可以稍微“调教”一下。早期的 Anthropic 模型,你得对着它全大写吼几句,它才肯干活。我相信 Gemini 也有办法榨出更多效果,但总体来说,它在工具调用、那种真正“像助手”的感觉上,我没找到特别好的表现。写代码还行,但这不是这个项目的核心。

 

问题是,我一天也只有这么多时间。我每天睡四个小时,剩下的时间都在写代码,还没来得及把所有东西都打磨到位。

 

主持人:那我们能怎么帮你?顺便说一句,你这项目还挺环保的,我现在都后悔把那台 2013 年的 iMac 扔了,这玩意儿跑起来完全没问题。

 

Peter:如果你技术稍微好一点,也可以直接丢到 Hetzner、Fly.io 这类便宜的云主机上跑,效果都很好。我最近还做了一个新方案:你可以在云上装一个叫 Gateway 的服务,然后在自己机器上跑一个节点,用 Tailscale 把网络安全地连起来。

 

有了这个之后,云端的 Agent 就能直接连到你的 Mac,做一些只有 Mac 才能做的事情,比如访问 Photos 里的照片、连 iMessage。这些在 Linux 上就不行。但大多数功能是通用的。

 

当然,最有“味道”的还是那台旧 Mac。有人给它贴贴纸,说这是 Claude 的电脑,我真的很爱这个画面。Windows 也能跑,只是没那么完美,毕竟我时间有限。但我已经拉了一些贡献者,也在找更多人一起。

 

主持人:是 Windows 方向,还是全都要?

 

Peter:全部。我希望这是一个真正的社区项目。

 

主持人:那就说到重点了,这个问题太关键了:大家怎么参与?你真的得睡多点。

 

Peter:大家最容易帮忙的地方,其实是文档,把它写得更清楚,指出哪里有问题,在 Discord 帮新手答问题。很多问题不是 Agent 不聪明,而是需要经验积累。另外还有测试,因为我推进速度很快,东西难免会坏。以后会有稳定版、测试版这些区分,但现在还在快速迭代阶段。如果有人能说“这里坏了”,最好再顺手提个 PR,那简直完美。总之,想帮忙就来 Discord,这是最直接的地方。

 

主持人:你个人最想优先推进的是什么?这个领域是按小时变化的,不是按周。比如到二月底,你最希望项目做到哪一步?

 

Peter:网站上有一句话,说“一行命令就能跑起来”。我想确保这句话在任何环境下都成立,这件事非常难,因为系统实在太多了。但安装必须足够简单。

 

我还想把 iPhone、Android、Mac 的 App 全部打磨好,现在其实已经有了,只是还不够好。如果你想参与,这些地方都是明显的空白点。当初我刚开始做,但项目突然爆了,我只能先把核心打牢。

 

还有一件事,我想在 onboarding 的时候就明确提示大家去读安全文档。能力越大,责任越大,比如你不应该随便给一个廉价模型过高权限。我也想把“沙箱”和权限分级做得更清楚,让每个人都明白自己到底给了 bot 多大的权力。

现在这些还需要靠文档理解,我希望以后能更直观。长远来看,我不想这是我一个人的项目,我希望它真正变成一个社区。

 

“百分之百用 AI 写的”

 

主持人:这个项目是用 Rust 写的吗?我看那个螃蟹图标……

 

Peter:不是,全是 TypeScript。

 

从 AI 出现之后,我其实已经没那么在意“用什么语言”了。语言本身的重要性在下降,真正重要的是生态。这个项目我希望它足够友好、足够容易被改、被玩、被 hack,而在这件事上,全世界最合适的语言就是 JavaScript 和 TypeScript。再加上 TypeScript 对 Web 场景真的很强,而这个项目本身就有大量应用层的东西,很多状态在来回切换、推送、回滚、跳转,这些用 JS/TS 做起来非常自然,所以选择它几乎是显而易见的。

 

我也喜欢用 Rust 写东西,喜欢用 Go,我很多 CLI 工具都是用 Go 写的;有时候也会玩点 Zig;做 Web 的话我当然很喜欢 TypeScript;原生端我也喜欢 Swift,毕竟在 Mac 上生态最好,iOS 这边大家都在用 Kotlin。说到底,现在更多还是生态的选择,而不是语言本身。

 

所以我觉得这个决定是对的,因为它让更多人可以参与进来。JavaScript 确实有自己的历史包袱,但世界上没有完美的东西,永远都是取舍问题。至于现在把它整个重写成 Rust,说实话还不是一个现实的选项。

 

主持人:我们都知道,这个项目真正的“实现语言”其实是血、汗和 token,很多很多 token。

 

Peter:还有无数个不眠之夜。这个项目本身就挺疯狂的,因为它是百分之百用 AI 写出来的,里面没有一行代码是我亲手敲的。

 

主持人:但你还是会看代码、会 review,对吧?

 

Peter:大部分都会。有些代码,比如把代码从一个地方推到另一个地方,那种我不太关心;它还有一个 Web server,我也不在意到底用了哪个 Tailwind 的 class 去对齐按钮,只要看起来对就行。但我会非常在意像 Telegram 的配对和认证逻辑,必须确保别人不能冒充我。

 

所以你得对系统有整体理解,有些地方可以不细看,有些地方必须看。即便只有我一个人,这个工作量也依然很大。因为这些 Agent 还缺一样东西:愿景、品味和爱。网上有那种 meme,说你写一长串需求,然后一股脑丢给 Agent,它就帮你全做完了——但我不觉得好软件是这么做出来的。

 

对我来说,我需要先做出一个东西,然后去用它、去感受它:手感怎么样、看起来怎么样;基于这些真实体验,我再不断调整自己的想法。现在我对这个产品的理解,已经和最开始完全不一样了;再过一个月,等我看到更多人怎么用它后可能又会变。

 

最近我越来越重视“sandbox”这件事,让大家可以安全地试、随便玩。原因很简单,我看到大量完全不懂技术的人也在用它,这让我意识到一个优先级:一定要给他们提供足够好的默认选择。一开始我只是为自己做的,那些东西我自己根本不需要,但现在把它做好,本身成了一件非常有趣的挑战。

 

主持人:你提到的其实也正是为什么我觉得我们暂时还能保住工作,因为现在还没有“品味”。也许有一天模型会突然好到让人震惊,但在此之前,人本身一直在变化。就像你说的,一开始你根本没考虑 sandbox,因为那不是你的使用场景;现在你开始为不懂技术的人优化体验了。这种判断、审美和在意,必须来自人,而不是凭空生成。也正因为如此,我们的工作暂时还是安全的。

 

“我宁愿和你的 Agent 聊,也不想和你聊”

 

主持人:顺便问一句,ClawdBot 真的会用你的信用卡买东西吗?

 

Peter:说实话,我自己还没试过,但 Twitter 上已经有人给它接入了 1Password,把信用卡权限也放进去,让它帮忙买东西,结果真的能用。

 

我做过最吓人的一次测试,是在项目非常早期的时候。我对它说:“我要回家了,帮我值机。”它说没问题,然后直接打开浏览器开始操作。

 

我们以前有图灵测试,看机器能不能假装成人类;我现在提议一个新测试:British Airways 登录测试。光值机就要填二十多页表单,而且网站体验极其糟糕。其中一个挑战是它必须输入我的护照号。它就在我电脑里到处找,最后找到了一个 passport.pdf,打开文件,把号码读出来。那二十分钟我一直在出汗,心里想“我是不是这辈子回不了美国了”。结果它真的帮我值机成功了。

 

后来我在浏览器自动化上做了大量优化,现在效果更好了。最好笑的是,最早那个版本花了二十分钟,最后还开始吐槽网站的 shadow DOM,以及这个网站到底有多烂。

 

主持人:我太爱这个了,不光干活,还顺便输出观点。今天和你聊天真的太开心了。我已经迫不及待要去跑起来试试了,虽然我现在用的是 Windows,但我还是想要“完整版体验”。

 

Peter:去看看文档吧,我们也一直在改进。里面有一些指南,比如用 Hetzner 之类的服务,一个月花点小钱就能搞个自己的小云,或者你也可以直接装在本地,开启“野生模式”。

 

主持人:说实话,如果你已经在用 Clawbot,把它当成生活的一部分,你会发现应用场景多到爆。我特别喜欢你说的“每个家庭都可以有自己的 Agent”。我感觉我人生的一半时间都在提醒别人该去哪、该干嘛,我家里还有两个孩子。

 

Peter:未来可能会是这样:不是你来 ping 我,而是你的 Agent 去找我的 Agent,然后我的 Agent 直接把音量拉满,把我叫醒。昨天有人在 Discord 里说了一句话:“我宁愿和你的 Agent 聊,也不想和你聊。”我特别喜欢这个说法。

 

主持人:说真的,把这些琐碎的认知负担释放出来太重要了。我刚才就想,一个小时居然可以浪费在打电话预约牙医、确认孩子要去哪这种事情上。如果这些都能交给 Agent,我就能把精力用在真正有趣的事情上。

 

Peter:而且影响比我想象得还大。有一次,一个人在聊天室里说,这个东西真的改变了他的生活,因为他对打电话、跟客服沟通有严重焦虑,而 Agent 可以替他完成这些事。那一刻对我来说非常触动,原来我们真的在做一件能让别人生活变得更好的事情。

 

主持人:这就是开源精神最美好的样子。

 

参考链接:

https://www.youtube.com/watch?v=1iCcUjnAIOM

https://x.com/AlexFinn

本文介绍我对 Clawdbot / Moltbot AI 个人助手的尝鲜使用。有蹭热度嫌疑,喜干货者慎入 :)

最近大热的 Clawdbot(现改名为 Moltbot) 是一个人 AI 助手,主打个人 Self-Hosted 的 ai agent。可运行在您自己的设备上的 AI 助手。不管你在哪里,均可以通过国际上常用的 IM 聊天平台(WhatsApp/Telegram/Matrix 等等,但不包括 WeChat)通过聊天与 ai agent 进行互动。

Just another chatbot ?

如果你硬要我说点非市场炒作的人话,不要老打鸡血天天震撼和炸裂,回归朴素码农实用主义的话。那么问题的核心是:这所谓的 “新” 玩意,和之前的支持本地部署的,做点 hack 也可以互联网访问的 lobehub / librechat 甚至更久远的 open-webui 这类已经支持 MCP 工具 的 LLM chat UI 有什么区别?

说实话,在我短短数小时的安装和使用时间里,我只能告诉大家一些基本概念和功能上的不同,也因了解时间有限,说得不对请纠正:

  • 任务长期化、异步化。不再是一个聊天请求触发,然后在线等待响应的工作流程。
  • 多任务并行化
  • IM 聊天平台 作为主交换方式。 这大大简化了部署和远程使用,只需要一个 IM 聊天平台的接入即可。对大众用户比要 Port Mapping 或 Tailscale 才能使用的门槛要低很多。异步任务的通知推送问题,多模态图像声音的输入输出问题,接入的便利性问题,一个方案同时解决了。
  • 支持 Skills 等已经深入民心的 AI 定制设计模式。只要本地命令行能做的,Moltbot 也能做。

看完这些,你大概会联想起 ManusOpenManus

安装

网上已经非常多安装手把手教程了。所以我不打算写教程了,这里只说说我使用的一些配置:

综合考虑到网络环境的难和付款的便利,我选择了 openrouter 以及 anthropic/claude-sonnet-4.5 模型 。

配置文档:

https://docs.molt.bot/providers/openrouter

配置示例:

{
  env: { OPENROUTER_API_KEY: "sk-or-..." },
  agents: {
    defaults: {
      model: { primary: "openrouter/anthropic/claude-sonnet-4.5" }
    }
  }
}

注意,直接用 CN 的 source ip 是访问不了 openrouter 的 claude-sonnet-4.5 的,会 http status 403 : This model is not available in your region

是有点贵,不过先试试再找平替吧。

简单试用

image.png

这里只是简单试用一下 AI 助手对工具的智能调用能力。还不错。不过 UI 设计还是有待改进的。很工程师风的界面用户体验。不过这界面叫 Dashboard ,这个风格也说得过去吧。

计划

计划后面试试接入适合国情的 Matrix IM ,看看效果。例如,我收到 Prometheus 报警 Homelab 问题时,可以让 Moltbot 自动分析原因和自动修复。也可以接入语音 TTS/STT ,甚至图像识别等等。有进度也会分享分享。再见。