Codex Computer Use 教 AI 看屏幕,HAR 流教 AI 发指令——谁才是真正的打工替身?
2026年4月,AI界的地震级更新接踵而至。OpenAI 刚刚发布了Codex的史诗级更新,赋予了AI全新的 “Computer Use” 能力:它拥有了自己的虚拟鼠标,能在Mac后台“看、点、输”,替你操作几乎任何桌面应用。 全世界的开发者都在为此狂欢:“AI终于能自己干活了!” 但在聚光灯之外,真正的生产力爆破,却藏在一个你可能每天都在用、却从未想过能用来造机器人的功能里——浏览器的HAR录制。 先别急着说“就这?”。如果你认为让AI“看屏幕”是唯一的自动化捷径,那你可能会白白浪费时间、金钱和算力。 今天这篇文章,就是要为你扒开 “HAR录制自动化” 的神秘面纱,并把它和顶流的 “OpenAI Computer Use” 放在天平上称一称。 看完你就知道,为什么高手都在悄悄用前者,而新手还在为后者的“幻觉误触”买单。 我们先来直视 Codex Computer Use 的真相: 听起来是不是无敌了?这简直就是钢铁侠的贾维斯! 冷静。我们来做一道残忍的算术题: 如果你只是想“每天在GitHub上自动创建几个Issue”或者“从公司后台导出昨天的报表”,让AI用视觉(Computer Use)来做这件事意味着: 不可否认,Computer Use是操作系统级的全能王——它生来就是为了搞定那些极度非标、完全无法预测、零API的长尾死局(比如修复一个Xcode里的游戏Bug)。 但对于你每天重复千遍的“标准机械动作” 呢?用Computer Use,就是 “用巡航导弹打蚊子”——猛是真猛,贵也是真贵,而且极大概率会误炸。 HAR (HTTP Archive) 是什么? 它不是录屏,它是浏览器 “数据底层的监控录像” 。 录制HAR,就是把这些“信件”的格式、内容、收件人地址,一个字母不差地拷贝下来。 这就是 HAR录制自动化 的降维打击逻辑: 过程极其暴力: 核心差异在这一刻体现得淋漓尽致: 光说不练假把式。我们把这两种技术拉到真实的“战场”上遛一遛。 每天你都要做同一件事:把“用户反馈群”里的聊天精华,手动敲到飞书多维表格里作为Bug追踪。 AI执行过程: 结果: 风险:一旦飞书改版UI,这条自动化链直接报废。 操作: 结果: 哪个才是面向生产力的解法?答案不言而喻。 上面的技术你可能觉得:“嗯,很牛,但我还是得打开终端敲命令运行脚本?” 格局小了。 HAR录制生成的 Skill,真正的最终归宿不是你的本地文件夹,而是一个叫 Openclaw 的地方。 Openclaw 是什么?你可以把它理解为 AI 的“手”和“脚”——一个专门用来运行这些 整个过程会变成这样一段魔幻现实主义体验: Openclaw + HAR Skill 的视角: 耗时 0.8 秒。费用 $0.000。成功率 100%。 因为 Openclaw + Skill 的组合,把 AI 的执行逻辑从 “模拟人类观察” 降维到了 “机器直接执行”。 这就是为什么我说: 好了,如果你已经被我说服,这里有一份 “HAR流”独家的极简生存指南。 HAR流做法:直接把 HAR 扔给 AI。 无论哪种技术,AI都需要明确的指令。 HAR流说明书:只需要用大白话告诉AI工作流: 别再盯着那炫酷的、会自己动鼠标的“桌面幽灵”羡慕不已了。 真正的生产力解放,从来不是看 AI 表演怎么费力地点点点,而是让 AI 在你看不见的地方 ,把事情办得妥妥的。 今晚就去吃小龙虾吧。 明天开始,你负责思考,它负责发送。 如果这篇文章对你有帮助,欢迎分享给同样被重复操作困扰的朋友。 也欢迎在评论区聊聊:你最想自动化哪个网站的操作?或者是——你打算让 Openclaw 帮你往哪个群里发小龙虾邀约?不用看API文档,不用申请密钥。
不需要AI“看屏幕”碰运气——录一段HAR,AI精确搞定一切。
写完往 Openclaw 一丢,你负责吃小龙虾,它负责把消息发到群里。💥 暴击开场:为什么说“让AI看屏幕”是杀鸡用牛刀?
OpenAI 官宣:Codex 现在可以通过 “看、点、输” 的方式,像真人一样操作你的Mac电脑和应用。它能自己移动光标,能处理“没有API的软件”,甚至能在后台并行工作。
🚀 降维打击:HAR录制的“精确制导”逻辑
当你在浏览器里登录、点按钮、填表单时,背后其实是你的电脑向服务器发送了一堆加密的“信件”(网络请求)。不研究视觉,不依赖API文档——直接复刻你自己的“数据对话”。
维度 💻 Computer Use (视觉流) 🎯 HAR 录制自动化 (数据流) 核心逻辑 看图识字,模拟人类鼠标键盘 直接发包,模拟人类网络请求 对UI变化的容忍度 零容忍 (改个样式就瞎) 绝对免疫 (只要后端API没变) 执行速度 30秒起步 (加载渲染、坐标定位) 毫秒级 (直连服务器) Token / 算力消耗 极高 (每一帧都在烧钱) 近乎为零 (一次性分析,永久复刻) 编程门槛 无门槛 (理论上用嘴就行) 零门槛 (你只需录HAR,AI写代码) 最适合场景 一次性、跨软件、无API的罕见任务 高频、重复、固定的业务流程 🧪 极限实战:15分钟 VS 30秒,用HAR再造一个飞书任务助手
场景假设:你是一个项目经理
这件事每天花掉你30分钟,烦不胜烦,且毫无价值。🅰️ 方案 A:使用 Codex Computer Use
🅱️ 方案 B:使用 HAR 录制 + Skill 脚本
/open-apis/bitable/... 没变,脚本100%照常工作。🔫 终极形态:当 Skill 遇见 Openclaw——你的嘴就是鼠标
SKILL.md 和 Python 脚本的智能体环境。“Hey Openclaw,帮我在【摸鱼小分队】群里发一条消息,就说:今晚小龙虾局,老地方,我请了AI代班写代码,必到。”
⚡️ 下一秒发生了什么(Codex Computer Use 做不到的事)
它睁开眼睛,开始移动鼠标,寻找飞书图标,双击,等待加载,寻找搜索框,输入“摸鱼小分队”,点击进入,寻找输入框,打字,寻找发送按钮,点击发送。
耗时 45 秒,费用 $0.3,且有 15% 概率点进了隔壁的“工作汇报群”酿成惨剧。
它读取了你的技能说明书,发现触发词是“发消息”和“小龙虾”。Openclaw 内部只干了一件事:向飞书的服务器发送了一个极简的数据包。
数据包里写着:接收群ID是“摸鱼小分队”,内容就是那段小龙虾邀约的文字。🦞 为什么只有 HAR 流能让你“吃着小龙虾就把活干了”?
Codex Computer Use 是让 AI 替你“看电脑”,你依然得守在旁边看着它别犯错。
Openclaw + HAR Skill 是让 AI 替你“发指令”,你完全可以关机去吃小龙虾,事情照样办妥。🎯 完整对比表:三足鼎立,谁才是真·效率之王?
维度 🖱️ Codex Computer Use 📡 HAR 录制 🤖 HAR + Openclaw (完全体) 操作入口 对 AI 描述屏幕内容 对着终端敲代码 对着手机说人话 执行速度 分钟级 (受UI加载限制) 毫秒级 (纯后端) 即时响应 (边聊边干) 执行体验 像在看一位老爷爷用电脑 像在看黑客跑脚本 像在吩咐一位隐形的贴身秘书 安全性 有概率点错、误删 只发指定请求 只执行预设的意图 场景代入 你喊 AI 去发小龙虾邀约 你写了脚本定时发邀约 你随口一说,Openclaw 就把小龙虾局组好了 费用 💸💸💸💸💸 💸 💸 (几乎为0) 🛠️ 从零到一:实操路线图(保姆级对比版)
第一关:获得AI的“肉身”——处理认证
Cookie 字符串复制粘贴到脚本的环境变量里。这串字符就是你浏览器的临时身份证,AI拿着它就能畅通无阻。第二关:传授“武功秘籍”——提取关键操作
你可以这样对 AI 说:
“在这个HAR文件中,找出向 https://api.xxx.com/task/create 发送请求的那一条记录。把里面的数据格式提取出来,把标题和描述替换成参数,生成一段可运行的脚本。”第三关:组装“战斗指令”——编写 Skill.md
第四关:终极部署——丢进 Openclaw
💎 写在最后:AI 时代的打工哲学
打开浏览器,录下那个你最讨厌的“发日报”操作,丢给 AI 生成一个 Skill,然后塞进 Openclaw。
这,才是对重复劳动最优雅的复仇。