从 GLM 4.7 看国产模型在编程方向的发展

前几天看到公益站的 token 消耗量超过了三百亿,再加上自己也用 GLM vibe coding 了好几个小玩具,感慨良多,于是想向各位佬友分享一下我个人对 vibe coding 的感受和对国产模型的看法。

1. 我的 AI 接触史

我个人可以算是较早体验 AI 的一批人之一了,最开始我是从 AI 绘图开始了解相关方面的内容的。NovelAI 于 2022 年 10 月份泄露了自己的模型权重文件,随后各式各样的 AI 绘画站点如雨后春笋版涌现了出来。当时给我的体验惊为天人,只需要简单的输入就可以生成一张看着不错的图片,虽然这些照片以现在的眼光看还不够格,比如手部崩坏,边缘模糊,充满了 AI 的油腻(扩散式模型的底层问题),但在当时的环境看这无疑于开创性的技术,让一位对绘画一窍不通的用户,仅需要简单描述即可生成一张对应的精美图片,甚至我的博客封面就是用当时的 AI 画的:

(那个画架子是我自己拿 PS 描的,然后简单勾了一下手和身体的轮廓)

随后 OpenAI 于 2022 年 11 月 30 日发布了 GPT3.5 模型,我加入的各大 AI 交流群都在讨论相关内容,我是在 23 年 1 月初加入的,间隔了一个来月左右,也是因为这事学会了科学上网:

ChatGPT 的出现也引发了轰动,大家最开始根本不敢相信对话的背后居然是一个机器,它颠覆了人们对于机器聊天 “死板,机械回复,套回复模板” 的印象,而我当时正在编写一个 python 小工具,但苦于我根本不会 python 编程,而且网上的相关资料都是泛泛而谈,针对实现的技术细节都是一带而过,导致我就是无法实现想要的结果。后来我实在走投无路的情况下,将我的问题和代码发给了 GPT,一下子给我生成了一套可以运行的代码,给小小的我带来了巨大的震撼。

而当时的 ChatGPT 还没有降智等一系列恶心人的操作,而国内基于 ChatGPT 的镜像站雨后春笋一般冒了出来,当时 GPT 就是我心中的白月光,万能神一般的存在。

2. 国产 AI 发展记

ChatGPT 虽好,但是它限制国人使用,我也不是每时每刻都开着梯子,而且我用的免费梯子稳定性其实也不是那么理想,于是就开始寻求国产替代,我希望直连也能使用。但是在 2023 年上半年几乎没有可用的国内模型,不是 GPT 套壳就是答非所问,远远比不上我想要的结果。始皇的 Pandora next 我也体验过,但是速度还是不是太理想,而且希望能有一个可以一直使用不需要频繁换号的平台,而且最重要的是,它需要简单易用,最好点开就能问,不需要研究各种各样的问题就能使用。

阿里的通义千问是在 23 年上 4-5 月份开始内测,下半年正式发布。而它的出现也为 ai 使用体验带来了一个转机。然而,早期的通义千问体验非常糟糕,提示词遵循也不是很理想,而且最重要的是输入框一次只能输入一万个字,如果有长代码粘贴过去根本输不进去,导致几乎无法用它来写项目(其实现在通义千问体验也不咋地,比如传图之后没法追问,图片提问的回答没法继承进聊天记录,当内容长度超过上下文限制选择粗暴地截断而非内容压缩,但是国产模型没几个能打的)。

不过千问刚出来那会,api 是免费调用的,相对于 ChatGPT 又是需要中转又是需要花钱而言,千问为我提供了一条新的选择路线,当时用千问糊了一个聊天小玩具(虽然最后因为自己能力原因没整完),但后来想想,当时的很多想法都是非常具有前瞻性的,比如我想过通过提示词工程让 ai 输出 json 格式的内容从而让后续的程序识别(格式化输出),让 ai 总结并记住对话中的关键信息(记忆),甚至让 ai 通过输出 json 来控制其他 api 返回结果(mcp 服务器)等,但是受限于模型的指令遵循实在不咋地,这些都没能实现。

后来更多国产模型也发布了出来,比如智谱,比如百度,比如零一万物等,但是我还是觉得国产也就千问算是可用水平,其他的模型什么文心大模型跟个智障一样根本不能用,还敢收一笔不少的 vip 费用。

然而,通义不知道是不是网页调用因为一直在滚动发版,智力时高时低。甚至有一段时间,代码里面莫名其妙的加入了.jpg 等输出,以及意义不明的括号,导致根本无法使用。和群友交流时猜测,这可能是通义千问用了聊天记录作为训练数据,而聊天过程中喜欢用反括号,以及吐槽表情包.jpg 等,导致污染模型。比如震惊.jpg, 感觉不像xxx(这种表述。所以通义千问一直只是作为一个备选方案使用。

3.AI Coding 的接触

后来,随着我的工作量和复杂度增加,很多时候需要一些一次性的代码处理一些重复的工作。比如我需要完成批量处理某项工作,而相对于手动处理既费时又费力,写一个 python 脚本批量处理就显得非常有价值。然而,假如我处理这个工作需要半个小时,耗费 20 分钟查资料写一个代码就显得得不偿失。而这时候就需要借助 ai 的力量。

然而,国产 AI 在代码方面表现的不是特别理想,经常自造函数,格式错乱,虚拟实现(比如注释写 #这里实现 xxx 的逻辑,但是我就是要你实现相对的逻辑呀),而且更为致命的是,我使用的是网页 AI,经常喜欢偷懒(比如让全部输出,然而只输出修改的一部分,比如这样:

用户:输出完整代码
AI:好的,我将为您输出完整代码...
一堆导入
...(这里是xx的实现)
修改的代码
...(这里是剩下的代码)

AI 就会给我输出这里是剩下的代码而非具体代码,这对我这种 CV 工程师非常不友好。再加上 OpenAI 学会了降智,降智后的 AI 根本用不了,有种一拳打在棉花上的感觉。

随后 OpenAI 封号潮、降智潮,始皇转投 Claude,我也转去了 Claude。确实 Claude 的代码水平相对于 ChatGPT 有显著的提升,或者说 Claude 的设计感觉就是为了代码等服务的–artifact 设计可以让他只修改不必重复输出(千问的那个代码模式真的就是每次都在重复输出),指令遵循都相对于其他模型显著提升(比如同期的 GPT 真的很喜欢给我写假设您的后端地址为 XXX,这里需要实现 xxx)。但是好景不长,克劳德开始全方位降智,封号,我第一个注册的 GPT 账号都没封号,克劳德账号被封掉了。

克劳德是一个好模型,但 Anthropic 不是一个好公司。封号,降智,暗改模型用量这些不管是国内还是国外都在骂。还有贵的离谱的 API 价格和订阅价格,实在对我这种开发者不是特别友好。而使用的镜像站一直在封号、达到使用限度,可用性非常差,经常问两个问题就达到了使用限制必须换车。我用的镜像站还不错,客服回复速度也很给力,然而一直封号也不是镜像站能改变的。随着九月份 Anthropic 公开称中国为敌对国家,我也放弃继续使用克劳德的想法。

DeepSeek 的出现为国产模型带来了一个新的转机。它准确率高、便宜大碗,可以用克劳德几分之一的价格实现克劳德一半的准确率。但 DeepSeek 唯一的缺点可能就是太废话了,一个简单的问题需要思考几分钟,不停地左脑攻击右脑,循环否定之前的想法和设计,对于一个编程问题而言需要消耗的时间太长了。至于其他佬友说的准确问题,在它低廉的价格面前都不值一提–穷是最大的问题,克劳德 200 美刀的 Max 会员对我而言实在是遥不可及,对于一个爱好编程的个人开发者而言,一个月掏出来一千五多就为了一个 AI 确实有点拿不出来。至于镜像站,可用性一直不算特别稳定,DeepSeek 都不嫌我穷,我怎么能嫌弃他傻呢。

4. 智谱 Coding Plan 的出现

随着九月份那会智谱在 Anthropic 封号潮那会推出了 Coding Plan,宣称 “平替 Claude Code”,以 Claude 七分之一的价格提供了远超 Claude 同等套餐几倍的用量。当时我接触后惊为天人,速度快、便宜量大,我的第一个套餐是开通的 lite 套餐,只到达过一次限额,以我的使用量根本到不了限额。但是 GLM 4.5 并没有对 Claude Code 等工具进行优化,它的工具调用仍然处于 “推一步走一步” 的等级,仍然透着一股子傻傻的气息。而且最重要的是不支持思考,是否思考对于 GLM 的体验区别确实天上地下。

我当时正在学着写鸿蒙 ArkTs,鸿蒙作为一门新兴的语言,本身训练资料就不多,再加上随着 AI 的出现,网上大量 AI 生成的错误资源污染,导致 AI 根本无从学起。然而,我让 AI “每次运行完之后调用 hvigorw 编译”,有的时候 AI 修改–编译出错–修改–编译出错,这么循环十几遍甚至几十遍最后确实能编译成功。当时我吐槽 GLM “傻但是劲儿大”。

好景不长,随着一系列活动的推出,再加上智谱应该是在训练新模型,GLM 也出现了肉眼可见的降智。虽然智谱官方一直说不可能降智,但是确实体验程度差了太多。我严重怀疑是路由到了 flash 模型上,和原来聪明的 GLM4.5 有天壤之别。由于方便我一直开着 skip-dangerously-permission 权限,但 GLM 就像是傻子一样,瞎改我的代码,发现代码出错之后 “好的,现在我要简化代码” 随后删除了几十个我实现的功能。甚至在改了几十遍没改好之后决定回退 git 版本 —— 但是我的 git 版本是好几十个版本之前,导致了我写的所有功能全部遗失。这让我一度对 GLM 失去信心,当时发现改了好长时间的代码被回退,我都想哭了。

当时的 GLM 智力时高时低,高的时候真的不错,低的时候乱改代码都是基本操作,比如清理项目把我的前端代码删个精光:

但出于对国产模型的信任,我还是升级到了季度的 Max 会员,无它,太便宜了,高用量让我可以随便改,大不了多用 git 提交下呗,穷是我的问题呗。

GLM4.6 的出现相对 4.5 有了很大的改善。但是还是同样的降智问题,而且完全没有任何规律可言:有的时候凌晨三点我用还是会出现明显的降智,有的时候下午最高峰使用效果也不错,整体是抽卡一样的准确率,而且完全没什么规律。最常见的操作是我想让他调用 mcp 搜索,已经在提示词中指定了 “请使用 mcp 搜索”,但是它不是调用 Web Search 工具(cc 内置,用不了一点)或者调用 Search(搜索本地代码的工具),智力忽高忽低。

尽管如此,它还是为数不多的国内畅用的模型。kimi、通义也推出了相对的 Coding plan,但 kimi 用量太低了,通义的 qoder 有种奇怪的感觉,有种差了点意思但又说不上来的感觉。

我也基于这个计划开了一个公益站,三个月以来用了三百多亿的 token,后面只接了一个 key,只能说性价比确实无敌。

(那个 mimo 的 key,费用是错的,数据库里面没有对应的价格值导致计费错误)

直到 GLM 4.7 的出现,体验效果得到了大幅度改善。最重点的是终于支持交叉思考了,思考或者不思考的模型体验真的是一个天上一个地下。虽然我一直觉得大模型的思考链就是一个伪需求,AI 完全不知道什么是思考,只是提示词带来的结果而已,但是它确实让结果变好,那就当他有用吧。

4.7 第二个改善是内置了搜索和网页阅读工具,这使得我不需要专门安装对应的 MCP 也可以使用。对于一台新的机器,只需要安装 Claude code 然后设置 Base url 和 api key 即可使用,ai 在回答的过程中也可以调用搜索工具去搜索官方的文档,从而大幅度提升准确率和可用性。

同时,4.7 的审美也大幅度提升,在之前 GLM,以及几乎所有的 AI 模型都喜欢用 emoji 做图标,虽然方便但是总有一种非常不专业的感觉。但是 4.7 会新建 SVG 文件作为图标,虽然不如开源图标库,比如华为自带的 HarmonyOS Design 或者 Font Awesome,但是方便,快捷,相对于 emoji 来说提升很大,比如这个是完全由 4.7 设计的 UI:

可以看到,下方的图标还是有点小问题,但是整体看不出太大的毛病,作为完全由 AI 生成的 UI 来说够格了。

我也借助 AI 糊了几个小玩具出来。比如学校使用的教务系统,整体就是一个 WebView 套壳,不仅稳定性不佳,而且课程查看非常不直观,透着一股子上个世纪的风格。我完全借助 AI,使用 Kotlin 完成了安卓端课程表的开发,并将其转成了 Swift(ios)和 Arkts(鸿蒙)三端原生适配,虽然软件还是有一大堆的 bug,但是不耽误日常使用,代码能跑起来就行了要啥自行车

至于它的优势,我觉得可能是便宜量大。用 Claude 一直在提心吊胆地看着 cost 耗费,几个问题下去都能感受到白花花的银子消耗声,经常没问几个问题下去就耗费了几十块 RMB,而问题还没显得解决。而用智谱可以随便问,甚至懒得跑了可以让 AI 帮着我运行,直接一个你给我运行此代码就让 AI 代劳,还不用担心耗费,可以随心所欲地使用。

至于能力、准确率,我认为目前最高的模型仍然是 Opus 4.5,它的准确率可以到达 98,但是价格是 10;GLM 4.7 单次对话准确率可以到达 85 到 90,但是价格可能只有 2-3 不到,一切问题在它的价格面前都不值一提。opus 一次能解决的问题,glm4.7 问个几遍也可以解决。可能有些佬工资足够到掏 200 美刀不眨一下眼睛或者公司报销 AI 使用费,但对于初学者而言,20 块钱的 GLM 更有性价比,而且还不用折腾什么家宽,什么环境,开箱即用,更适合上手。

5. 结语

整体而言,我对国产 AI 模型的发展持乐观态度。国外模型虽好,但对国内实行全方位的禁用,门槛太高,学习成本太大。而相对比,国产模型可以以更低廉的成本、更低的学习成本实现相似的能力,让更多非 IT 从业者,非计算机科班的人也可以使用编程完成一些重复但简单的工作。很多时候,我们需要的仅仅是一个 “一次性代码”,解决完某个问题后代码便完成了使命,不需要完整、可移植,只要完成某个特定的任务即可。这样通过 AI,哪怕是完全对计算机一窍不通的人,也可以使用 AI 工具完成一个小的网页、一个小的工具等,方便日常生活的同时把编程推向大众化、简单化。


📌 转载信息
原作者:
foxhank
转载时间:
2026/1/10 19:16:52

标签: 编程辅助, Vibe Coding, GLM 4.7, 国产AI模型, AI代码生成

添加新评论