标签 AI代码生成 下的文章

GitHub: GitHub - fengshao1227/ccg-workflow: 多模型协作开发工具集 - 基于 Claude Code CLI,整合 Codex/Gemini 后端能力,提供智能路由、代码审查、Git 工具等 17+ 个命令
觉得好用请留下你的 Star

CCG v1.7.48:约束集 + 零决策,复杂功能不翻车1 CCG v1.7.48:约束集 + 零决策,复杂功能不翻车2


这次更新了啥

集成了 OpenSpec,一个规范驱动的开发框架。

说人话就是:把需求变成约束,让 AI 没法自由发挥

之前用 /ccg:workflow 做复杂功能,经常遇到这些问题:

  • 需求说得不清楚,AI 自己脑补,结果跟想的不一样
  • 上下文太长,一个会话塞不下
  • 做到一半忘了前面说的啥

OpenSpec 的思路是:先把需求拆成一条条约束,AI 照着约束执行就行,不用猜。


新增 5 个命令

命令干嘛的
/ccg:spec-init装 OpenSpec CLI,初始化项目
/ccg:spec-research分析需求,输出约束集
/ccg:spec-planCodex + Gemini 并行分析,生成执行计划
/ccg:spec-impl按计划一步步实现,完了自动归档
/ccg:spec-review双模型审查,随时可以用

流程图

需求 ──→ spec-research ──→ spec-plan ──→ spec-impl
              │                │              │
           约束集          零决策计划      机械执行
              │                │              │
         "JWT TTL=15min" "用 bcrypt"    照着写就行
         "锁定30min" "cost=12"      不用想

每个阶段之间可以 /clear,不怕上下文爆。


约束集长啥样

传统方式,AI 研究完给你一堆信息:

JWT 是一种 token 格式,可以用来做认证...
刷新令牌可以用来获取新的访问令牌...
密码加密可以用 bcrypt 或者 argon2...

看完还是不知道该怎么做。

OpenSpec 方式,输出的是约束:

硬约束:
- JWT TTL = 15min,刷新令牌 TTL = 7d - bcrypt cost = 12 - 5 次失败后锁定 30min

软约束:
- 刷新令牌用完即失效 - 支持多设备登录

依赖:
- 需要 redis 存黑名单

风险:
- 用户表要加 failed_attempts 字段 

后面 plan 和 impl 阶段照着这个来,不用再想。


怎么用

# 先更新
npx ccg-workflow@latest

# 初始化 OpenSpec
/ccg:spec-init

# 开始
/ccg:spec-research 实现用户认证,支持 JWT 和刷新令牌
# → 输出约束集

/ccg:spec-plan
# → Codex 和 Gemini 并行分析,输出 tasks.md

/ccg:spec-impl
# → 按 tasks.md 执行,完了自动归档 # 想审查一下
/ccg:spec-review


spec-review 审查啥

Codex 和 Gemini 同时跑,各看各的:

Codex 看Gemini 看
规范约束有没有满足命名规范、代码风格
安全SQL 注入、权限XSS、CSRF
质量逻辑对不对好不好维护

结果分三级:

  • Critical - 必须改
  • Warning - 建议改
  • Info - 随便


和原来的命令啥关系

OpenSpec 这套适合复杂功能,需要追溯的那种。

简单任务还是用原来的:

  • /ccg:workflow - 一把梭
  • /ccg:frontend / /ccg:backend - 单一领域
  • /ccg:feat - 快速开发


常见问题

Q: OpenSpec CLI 装不上?

npm install -g @fission-ai/openspec@latest

Q: 上下文快满了?

每个阶段结束会提示 token 用量,快满了就 /clear,然后继续下一个命令。状态都存在 openspec/ 目录里,不会丢。

Q: 可以跳过 research 直接 plan 吗?

可以,但约束不完整的话 plan 阶段还是要做决策,效果打折。


鸣谢


版本: v1.7.48 | 更新


📌 转载信息
原作者:
feng_li
转载时间:
2026/1/24 06:33:26

公司的 im 有水印,就不发图了,简单总结一下

  1. 大数据/医疗部门因使用 ai 生成代码导致生产环境服务器负载拉爆且历史数据被大范围覆盖
  2. it 部门排查开发电脑的 ai 相关软件,禁止 ai 自动代码生成
  3. 所有研发部门安排时间重新 review 近半年所有代码
  4. 对应研发部门的开发和测试绩效当月为 D(意味着 2026 年没有年终奖了,但是 2025 还是可以有的)


哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈(先笑一下🤣
他们怎么敢的啊,又不是自己的项目,我用 ai 都只拿当搜索引擎,代码都是我自己的测试确认后才写到项目里面去


我一直强调,ai 真的不能帮你背 D 绩效啊喂!

团队里越来越多的人开始 vibe coding ,但我还是比较反感的,主要原因如下:

  1. 会生成大量无意义代码。打个比方,它生成的代码就像一个初级开发,不知道从哪里 copy 来的高级代码。有时乍一看,真高端,仔细阅读,完全没起到作用,这啥玩意嘛。
  2. 难以理解。vibe coding 生成的代码量要远远大于常规开发,AI 阅读代码的速度是真的快,但一旦交给人去理解,往往要浪费很多时间。
  3. 最重要的一点,传播性强,像病毒。在一个没有 CodeReview 的项目中,原本屎山代码就算了,好歹代码简单,现在还塞了一堆你不认识的元素进去。项目一旦有人大量使用了,后来的人如果不用,维护起来十分困难。

团队里越来越多的人开始 vibe coding ,但我还是比较反感的,主要原因如下:

  1. 会生成大量无意义代码。打个比方,它生成的代码就像一个初级开发,不知道从哪里 copy 来的高级代码。有时乍一看,真高端,仔细阅读,完全没起到作用,这啥玩意嘛。
  2. 难以理解。vibe coding 生成的代码量要远远大于常规开发,AI 阅读代码的速度是真的快,但一旦交给人去理解,往往要浪费很多时间。
  3. 最重要的一点,传播性强,像病毒。在一个没有 CodeReview 的项目中,原本屎山代码就算了,好歹代码简单,现在还塞了一堆你不认识的元素进去。项目一旦有人大量使用了,后来的人如果不用,维护起来十分困难。

SWE-rebench 于近日公布了 2026 年 1 月最新榜单,该榜单基于去年 12 月 GitHub 上真实的开发任务(包含代码问题修复与拉取请求)进行动态评测。结果显示,Anthropic 旗下的 Claude Opus 4.5 以 63.3% 的任务解决率位列第一,OpenAI 的 gpt-5.2-2025-12-11-xhigh 以 61.5% 紧随其后,谷歌的 Gemini 3 Flash Preview 则以 60.0% 的成绩位居第三。

本次评测重点观察了模型在处理真实世界软件工程问题时的逻辑能力与成本效益。其中,排名第三的 Gemini 3 Flash Preview 凭借每题约 0.29 美元的低廉调用成本展现出极高的实用价值。在开源模型领域,智谱 AI 推出的 GLM-4.7 表现亮眼,其解决率从上一版本的 40% 大幅提升至 51.3%,成为目前性能最强的开源模型。此外,DeepSeek-V3.2 以 48.5% 的解决率紧随其后,且单题运行成本仅为 0.25 美元,进一步压缩了 AI 辅助开发的经济门槛。

此次更新反映了主流 AI 模型在自动化软件维护领域的持续演进。除上述头部模型外,Kimi K2 Thinking、Qwen3-Coder 等新型模型也已悉数入榜,显示出全球大模型在垂直代码领域的技术路线正向着高解决率与低功耗方向协同发展。


原文:

𝕏 x.com

🆕 We have updated SWE-rebench with the December tasks!

SWE-rebench is a live benchmark with fresh SWE tasks (issue+PR) from GitHub every month.

Some insights:

> top-3 models right now are:
1. Claude Opus 4.5
2. gpt-5.2-2025-12-11-xhigh
3. Gemini 3 Flash Preview

> Gemini 3

Flash>Pro?SWE-rebench 发布 12 月榜单:Claude Opus 4.5 位居榜首2
1:32 PM - 16 Jan 2026 290🔁 18

📌 转载信息
原作者:
HCPTangHY
转载时间:
2026/1/18 08:46:20

从 GLM 4.7 看国产模型在编程方向的发展

前几天看到公益站的 token 消耗量超过了三百亿,再加上自己也用 GLM vibe coding 了好几个小玩具,感慨良多,于是想向各位佬友分享一下我个人对 vibe coding 的感受和对国产模型的看法。

1. 我的 AI 接触史

我个人可以算是较早体验 AI 的一批人之一了,最开始我是从 AI 绘图开始了解相关方面的内容的。NovelAI 于 2022 年 10 月份泄露了自己的模型权重文件,随后各式各样的 AI 绘画站点如雨后春笋版涌现了出来。当时给我的体验惊为天人,只需要简单的输入就可以生成一张看着不错的图片,虽然这些照片以现在的眼光看还不够格,比如手部崩坏,边缘模糊,充满了 AI 的油腻(扩散式模型的底层问题),但在当时的环境看这无疑于开创性的技术,让一位对绘画一窍不通的用户,仅需要简单描述即可生成一张对应的精美图片,甚至我的博客封面就是用当时的 AI 画的:

(那个画架子是我自己拿 PS 描的,然后简单勾了一下手和身体的轮廓)

随后 OpenAI 于 2022 年 11 月 30 日发布了 GPT3.5 模型,我加入的各大 AI 交流群都在讨论相关内容,我是在 23 年 1 月初加入的,间隔了一个来月左右,也是因为这事学会了科学上网:

ChatGPT 的出现也引发了轰动,大家最开始根本不敢相信对话的背后居然是一个机器,它颠覆了人们对于机器聊天 “死板,机械回复,套回复模板” 的印象,而我当时正在编写一个 python 小工具,但苦于我根本不会 python 编程,而且网上的相关资料都是泛泛而谈,针对实现的技术细节都是一带而过,导致我就是无法实现想要的结果。后来我实在走投无路的情况下,将我的问题和代码发给了 GPT,一下子给我生成了一套可以运行的代码,给小小的我带来了巨大的震撼。

而当时的 ChatGPT 还没有降智等一系列恶心人的操作,而国内基于 ChatGPT 的镜像站雨后春笋一般冒了出来,当时 GPT 就是我心中的白月光,万能神一般的存在。

2. 国产 AI 发展记

ChatGPT 虽好,但是它限制国人使用,我也不是每时每刻都开着梯子,而且我用的免费梯子稳定性其实也不是那么理想,于是就开始寻求国产替代,我希望直连也能使用。但是在 2023 年上半年几乎没有可用的国内模型,不是 GPT 套壳就是答非所问,远远比不上我想要的结果。始皇的 Pandora next 我也体验过,但是速度还是不是太理想,而且希望能有一个可以一直使用不需要频繁换号的平台,而且最重要的是,它需要简单易用,最好点开就能问,不需要研究各种各样的问题就能使用。

阿里的通义千问是在 23 年上 4-5 月份开始内测,下半年正式发布。而它的出现也为 ai 使用体验带来了一个转机。然而,早期的通义千问体验非常糟糕,提示词遵循也不是很理想,而且最重要的是输入框一次只能输入一万个字,如果有长代码粘贴过去根本输不进去,导致几乎无法用它来写项目(其实现在通义千问体验也不咋地,比如传图之后没法追问,图片提问的回答没法继承进聊天记录,当内容长度超过上下文限制选择粗暴地截断而非内容压缩,但是国产模型没几个能打的)。

不过千问刚出来那会,api 是免费调用的,相对于 ChatGPT 又是需要中转又是需要花钱而言,千问为我提供了一条新的选择路线,当时用千问糊了一个聊天小玩具(虽然最后因为自己能力原因没整完),但后来想想,当时的很多想法都是非常具有前瞻性的,比如我想过通过提示词工程让 ai 输出 json 格式的内容从而让后续的程序识别(格式化输出),让 ai 总结并记住对话中的关键信息(记忆),甚至让 ai 通过输出 json 来控制其他 api 返回结果(mcp 服务器)等,但是受限于模型的指令遵循实在不咋地,这些都没能实现。

后来更多国产模型也发布了出来,比如智谱,比如百度,比如零一万物等,但是我还是觉得国产也就千问算是可用水平,其他的模型什么文心大模型跟个智障一样根本不能用,还敢收一笔不少的 vip 费用。

然而,通义不知道是不是网页调用因为一直在滚动发版,智力时高时低。甚至有一段时间,代码里面莫名其妙的加入了.jpg 等输出,以及意义不明的括号,导致根本无法使用。和群友交流时猜测,这可能是通义千问用了聊天记录作为训练数据,而聊天过程中喜欢用反括号,以及吐槽表情包.jpg 等,导致污染模型。比如震惊.jpg, 感觉不像xxx(这种表述。所以通义千问一直只是作为一个备选方案使用。

3.AI Coding 的接触

后来,随着我的工作量和复杂度增加,很多时候需要一些一次性的代码处理一些重复的工作。比如我需要完成批量处理某项工作,而相对于手动处理既费时又费力,写一个 python 脚本批量处理就显得非常有价值。然而,假如我处理这个工作需要半个小时,耗费 20 分钟查资料写一个代码就显得得不偿失。而这时候就需要借助 ai 的力量。

然而,国产 AI 在代码方面表现的不是特别理想,经常自造函数,格式错乱,虚拟实现(比如注释写 #这里实现 xxx 的逻辑,但是我就是要你实现相对的逻辑呀),而且更为致命的是,我使用的是网页 AI,经常喜欢偷懒(比如让全部输出,然而只输出修改的一部分,比如这样:

用户:输出完整代码
AI:好的,我将为您输出完整代码...
一堆导入
...(这里是xx的实现)
修改的代码
...(这里是剩下的代码)

AI 就会给我输出这里是剩下的代码而非具体代码,这对我这种 CV 工程师非常不友好。再加上 OpenAI 学会了降智,降智后的 AI 根本用不了,有种一拳打在棉花上的感觉。

随后 OpenAI 封号潮、降智潮,始皇转投 Claude,我也转去了 Claude。确实 Claude 的代码水平相对于 ChatGPT 有显著的提升,或者说 Claude 的设计感觉就是为了代码等服务的–artifact 设计可以让他只修改不必重复输出(千问的那个代码模式真的就是每次都在重复输出),指令遵循都相对于其他模型显著提升(比如同期的 GPT 真的很喜欢给我写假设您的后端地址为 XXX,这里需要实现 xxx)。但是好景不长,克劳德开始全方位降智,封号,我第一个注册的 GPT 账号都没封号,克劳德账号被封掉了。

克劳德是一个好模型,但 Anthropic 不是一个好公司。封号,降智,暗改模型用量这些不管是国内还是国外都在骂。还有贵的离谱的 API 价格和订阅价格,实在对我这种开发者不是特别友好。而使用的镜像站一直在封号、达到使用限度,可用性非常差,经常问两个问题就达到了使用限制必须换车。我用的镜像站还不错,客服回复速度也很给力,然而一直封号也不是镜像站能改变的。随着九月份 Anthropic 公开称中国为敌对国家,我也放弃继续使用克劳德的想法。

DeepSeek 的出现为国产模型带来了一个新的转机。它准确率高、便宜大碗,可以用克劳德几分之一的价格实现克劳德一半的准确率。但 DeepSeek 唯一的缺点可能就是太废话了,一个简单的问题需要思考几分钟,不停地左脑攻击右脑,循环否定之前的想法和设计,对于一个编程问题而言需要消耗的时间太长了。至于其他佬友说的准确问题,在它低廉的价格面前都不值一提–穷是最大的问题,克劳德 200 美刀的 Max 会员对我而言实在是遥不可及,对于一个爱好编程的个人开发者而言,一个月掏出来一千五多就为了一个 AI 确实有点拿不出来。至于镜像站,可用性一直不算特别稳定,DeepSeek 都不嫌我穷,我怎么能嫌弃他傻呢。

4. 智谱 Coding Plan 的出现

随着九月份那会智谱在 Anthropic 封号潮那会推出了 Coding Plan,宣称 “平替 Claude Code”,以 Claude 七分之一的价格提供了远超 Claude 同等套餐几倍的用量。当时我接触后惊为天人,速度快、便宜量大,我的第一个套餐是开通的 lite 套餐,只到达过一次限额,以我的使用量根本到不了限额。但是 GLM 4.5 并没有对 Claude Code 等工具进行优化,它的工具调用仍然处于 “推一步走一步” 的等级,仍然透着一股子傻傻的气息。而且最重要的是不支持思考,是否思考对于 GLM 的体验区别确实天上地下。

我当时正在学着写鸿蒙 ArkTs,鸿蒙作为一门新兴的语言,本身训练资料就不多,再加上随着 AI 的出现,网上大量 AI 生成的错误资源污染,导致 AI 根本无从学起。然而,我让 AI “每次运行完之后调用 hvigorw 编译”,有的时候 AI 修改–编译出错–修改–编译出错,这么循环十几遍甚至几十遍最后确实能编译成功。当时我吐槽 GLM “傻但是劲儿大”。

好景不长,随着一系列活动的推出,再加上智谱应该是在训练新模型,GLM 也出现了肉眼可见的降智。虽然智谱官方一直说不可能降智,但是确实体验程度差了太多。我严重怀疑是路由到了 flash 模型上,和原来聪明的 GLM4.5 有天壤之别。由于方便我一直开着 skip-dangerously-permission 权限,但 GLM 就像是傻子一样,瞎改我的代码,发现代码出错之后 “好的,现在我要简化代码” 随后删除了几十个我实现的功能。甚至在改了几十遍没改好之后决定回退 git 版本 —— 但是我的 git 版本是好几十个版本之前,导致了我写的所有功能全部遗失。这让我一度对 GLM 失去信心,当时发现改了好长时间的代码被回退,我都想哭了。

当时的 GLM 智力时高时低,高的时候真的不错,低的时候乱改代码都是基本操作,比如清理项目把我的前端代码删个精光:

但出于对国产模型的信任,我还是升级到了季度的 Max 会员,无它,太便宜了,高用量让我可以随便改,大不了多用 git 提交下呗,穷是我的问题呗。

GLM4.6 的出现相对 4.5 有了很大的改善。但是还是同样的降智问题,而且完全没有任何规律可言:有的时候凌晨三点我用还是会出现明显的降智,有的时候下午最高峰使用效果也不错,整体是抽卡一样的准确率,而且完全没什么规律。最常见的操作是我想让他调用 mcp 搜索,已经在提示词中指定了 “请使用 mcp 搜索”,但是它不是调用 Web Search 工具(cc 内置,用不了一点)或者调用 Search(搜索本地代码的工具),智力忽高忽低。

尽管如此,它还是为数不多的国内畅用的模型。kimi、通义也推出了相对的 Coding plan,但 kimi 用量太低了,通义的 qoder 有种奇怪的感觉,有种差了点意思但又说不上来的感觉。

我也基于这个计划开了一个公益站,三个月以来用了三百多亿的 token,后面只接了一个 key,只能说性价比确实无敌。

(那个 mimo 的 key,费用是错的,数据库里面没有对应的价格值导致计费错误)

直到 GLM 4.7 的出现,体验效果得到了大幅度改善。最重点的是终于支持交叉思考了,思考或者不思考的模型体验真的是一个天上一个地下。虽然我一直觉得大模型的思考链就是一个伪需求,AI 完全不知道什么是思考,只是提示词带来的结果而已,但是它确实让结果变好,那就当他有用吧。

4.7 第二个改善是内置了搜索和网页阅读工具,这使得我不需要专门安装对应的 MCP 也可以使用。对于一台新的机器,只需要安装 Claude code 然后设置 Base url 和 api key 即可使用,ai 在回答的过程中也可以调用搜索工具去搜索官方的文档,从而大幅度提升准确率和可用性。

同时,4.7 的审美也大幅度提升,在之前 GLM,以及几乎所有的 AI 模型都喜欢用 emoji 做图标,虽然方便但是总有一种非常不专业的感觉。但是 4.7 会新建 SVG 文件作为图标,虽然不如开源图标库,比如华为自带的 HarmonyOS Design 或者 Font Awesome,但是方便,快捷,相对于 emoji 来说提升很大,比如这个是完全由 4.7 设计的 UI:

可以看到,下方的图标还是有点小问题,但是整体看不出太大的毛病,作为完全由 AI 生成的 UI 来说够格了。

我也借助 AI 糊了几个小玩具出来。比如学校使用的教务系统,整体就是一个 WebView 套壳,不仅稳定性不佳,而且课程查看非常不直观,透着一股子上个世纪的风格。我完全借助 AI,使用 Kotlin 完成了安卓端课程表的开发,并将其转成了 Swift(ios)和 Arkts(鸿蒙)三端原生适配,虽然软件还是有一大堆的 bug,但是不耽误日常使用,代码能跑起来就行了要啥自行车

至于它的优势,我觉得可能是便宜量大。用 Claude 一直在提心吊胆地看着 cost 耗费,几个问题下去都能感受到白花花的银子消耗声,经常没问几个问题下去就耗费了几十块 RMB,而问题还没显得解决。而用智谱可以随便问,甚至懒得跑了可以让 AI 帮着我运行,直接一个你给我运行此代码就让 AI 代劳,还不用担心耗费,可以随心所欲地使用。

至于能力、准确率,我认为目前最高的模型仍然是 Opus 4.5,它的准确率可以到达 98,但是价格是 10;GLM 4.7 单次对话准确率可以到达 85 到 90,但是价格可能只有 2-3 不到,一切问题在它的价格面前都不值一提。opus 一次能解决的问题,glm4.7 问个几遍也可以解决。可能有些佬工资足够到掏 200 美刀不眨一下眼睛或者公司报销 AI 使用费,但对于初学者而言,20 块钱的 GLM 更有性价比,而且还不用折腾什么家宽,什么环境,开箱即用,更适合上手。

5. 结语

整体而言,我对国产 AI 模型的发展持乐观态度。国外模型虽好,但对国内实行全方位的禁用,门槛太高,学习成本太大。而相对比,国产模型可以以更低廉的成本、更低的学习成本实现相似的能力,让更多非 IT 从业者,非计算机科班的人也可以使用编程完成一些重复但简单的工作。很多时候,我们需要的仅仅是一个 “一次性代码”,解决完某个问题后代码便完成了使命,不需要完整、可移植,只要完成某个特定的任务即可。这样通过 AI,哪怕是完全对计算机一窍不通的人,也可以使用 AI 工具完成一个小的网页、一个小的工具等,方便日常生活的同时把编程推向大众化、简单化。


📌 转载信息
原作者:
foxhank
转载时间:
2026/1/10 19:16:52