本项目的前端构建使用 Gemini 3 Flash,在 Lim Code - 强大的集交错思考与多模态工具于一体的 AI Coding 插件,旨在解决其他 ai 插件或 ide 的缺点和拓展功能需求,支持 xml 工具 - 开发调优 - LINUX DO 上快速迭代美化 + 图片生成
以号被封 7 天的代价决定开源 computer use
前情提要
基于 Gemini 3 系列强大的多模态能力和 Gemini 3 Flash 的高速高质,全面托管电脑成为可能。
使用原生工具调用并回传思考签名的情况下,多数请求可以做到又快又好地响应。
模式解释
一共提供三种模式的电脑控制
- 浏览器模式,使用无头 / 有头 Playwright,在浏览器环境下操作,支持切换标签页登多种便携工具
- 桌面模式,使用 PyAutoGUI 模拟真实鼠标点击和输入,完全接管电脑。在这一模式下会强制征用桌面焦点,期间不能干其他事
- 后台模式,使用 pywin32 API 通过窗口句柄操作,能做到真正的后台操作(部分应用),一些应用可能会强制焦点。
使用方法
clone 代码,点击 bat 运行。
可以选择在后端文件中配置 env 或使用前端设置
推荐使用:Gemini 3 Flash(轻度任务 minimal 思考最佳)
注意事项
- 本项目基于闭源模型 Gemini,在不确定上游安全的情况下谨慎用于处理敏感信息
- 后台运行模式时 Chrome 依然有概率将窗口设置焦点,浏览器相关活动建议直接使用 Playwright 模式
- 其他待补充


评论区(暂无评论)