标签 编程辅助 下的文章

我和同事们目前正在利用 OpenCode(Claude Code 的一个替代方案)进行一项小研究。目前我们刚开始测试 gpt-5-mini,看看它在编程辅助方面的性能能否与 Claude Sonnet 媲美。

也非常欢迎大家亲自尝试研究并分享心得,比如哪种 LLM 模型成功率最高,以及使用了什么样的 Prompt(提示词)。

注:我是来自印尼的用户,正在使用 Google Gemini 协助翻译论坛里的讨论。如果翻译有不准确的地方,还请大家多多包涵,手下留情。


📌 转载信息
原作者: galpt
转载时间: 2026/1/25 08:06:35

最近的达沃斯论坛上,科技领袖们纷纷出来发表观点。当 Google 的 Demis Hassabis 和 Anthropic 的 Dario Amodei 在讨论更宏观的 AGI 话题时,微软 CEO Satya Nadella 与英国前首相 Rishi Sunak 的对话,更聚焦在了 AI 应用的话题。

 

Satya 以自己参加达沃斯的准备工作变化为例,来说明在企业内部,AI 正在打破传统层级架构,让信息流实现扁平化。

 

“自从我 1992 年参加以来,直到几年前,流程都没什么变化:我的现场团队会准备笔记,然后送到总部进一步提炼。但现在我直接找 Copilot 说,“我要见 xxx,给我一个简介”。它会给我一个全方位的视角。”“我做的是立即把这个简介分享给所有部门的同事。”

 

他指出,企业 AI 应用呈现出明显的 “杠杆效应”:初创公司能从零开始构建适配 AI 的组织,落地速度更快;大型企业虽手握数据、资源优势,但传统工作流程与组织惯性带来的变革管理挑战更大。而无论大小企业,都需经历 “思维转变 — 技能培养 — 数据整合” 的艰苦过程。

 

人才方面,他认为全球 AI 技术人才与初创公司的质量已无显著差异:“雅加达、伊斯坦布尔的人才技术水平并不逊色于西雅图、旧金山。”真正的差距在于大规模应用的推进力度。

 

Satya 表示,判断 AI 是否存在泡沫,关键也在于落地应用:若仅停留在科技公司的技术讨论,泡沫风险确实存在;但当 AI 加速药物临床试验、提升农业生产效率、优化公共服务时,技术就已转化为实实在在的经济价值。

 

今天,Satya 参加 All-In Podcast 的采访也发布了,这次谈话与 Rishi 那次比,有部分话题重合,但也更微观一些。他谈到,科技行业每十年换一批竞争对手是好事,能倒逼企业保持竞争力,科技产业蛋糕会持续变大,绝非零和博弈。而微软与 OpenAI 合作的核心逻辑:不押注单一模型,而是打造算力+应用服务器层的平台,兼容多模型生态。

 

他还提到,公司内部全球网络团队已用 AI Agent(数字员工)自动化处理光纤挖断、设备故障等 DevOps 重复工作,完全是自下而上的落地实践。此外还将 LinkedIn 等团队各角色合并为“全栈构建者”,重构 AI 产品工作流。现在,微软正在尝试新学徒制模式:由资深 IC 工程师带一组应届生,借助 AI 加速新人生产力爬坡,以适配 AI 时代的人才培养方式,新人仍需持续进入职场。

 

国际竞争方面,他认为,美国技术栈的核心优势是生态效应(平台之上生态收入远超自身收入),而非单纯市场份额,技术“扩散”是做大全球蛋糕,而非抢蛋糕。

 

我们翻译并整理了这次访谈内容,并在不改变原意基础上进行了删减,以飨读者。

 

移民政策下的一段“奇妙经历”

 

Jason:今天非常高兴,能请到重量级嘉宾 Satya Nadella,Microsoft 的第三任 CEO,和我们的 AI 与加密领域负责人 David Sacks 来一场即兴炉边对话。Satya 出生在印度,大学毕业后来到美国,这一路经历本身就很传奇。你在书里写过,为了把太太接来美国,还专门“折返”了一趟。能不能简单和大家讲讲当时是怎么回事?

 

Satya:这件事其实是美国移民政策下的一段“奇妙经历”。我和太太在印度读的是同一所大学,后来我来美国读研究生,我们结了婚。我拿到了绿卡,但问题是由于我们是结婚后才申请,她反而不能直接过来。结果就是,我不得不放弃已经拿到的绿卡。

 

最有意思的是,我去新德里的美国使馆,问工作人员:“请问放弃绿卡要排哪一队?”他们直接说:“没有这种队伍。”在九十年代,主动放弃绿卡绝对算是件“疯狂”的事。但为了让她能以 H1 签证过来,只能这么操作。好在最后一切都解决了,现在想起来更像是一段久远但有点荒诞的回忆。

 

Jason:我想聊聊 Copilot。你们最早在 GitHub 上推出 Copilot,后来做到桌面端,再到直接把它放进 Windows,这对 Microsoft 来说是个非常大胆的决定。我每天都在用。但老实说,在它还不能真正理解文件系统、也没法和应用深度交互之前,市场反应不温不火。不过现在你们明显在持续加码。

 

在我看来,面向知识工作者,AI 正在走向三种形态:一类是 Elon 在 xAI 做的那种“人类模拟器”,据说直接把“虚拟员工”塞进聊天和邮箱系统;一类是 Claude 刚发布的协作型 Agent,强得离谱,很多人已经被震住了,我自己连续玩了四十多个小时。

 

那 Microsoft 的愿景是什么?知识工作者究竟该怎么真正把这些东西用起来?现在大家更多还是在“玩 ChatGPT”,这和真正创造商业价值之间好像还有一道鸿沟。

 

Satya:要理解这些不同形态,最好的切入口其实是编程,代码工作几乎是最典型的知识工作。

 

回头看这条演进路线:最早是“Next Edit Suggestions”,也就是智能补全。老实说,我对这一代 AI 技术真正建立信心,就是从早期 Codex 那一代模型开始的。那还是 GPT-3.5 之前,但补全已经相当准确了。后来我们有了 chat 交互,再往后是可执行的 actions,现在则是全自主 Agent。这些 Agent 既可以在前台,也可以在后台;可以在云端,也可以在本地运行。

 

有意思的是,这些形态今天在编程中都有,而且你会全部用到,而非只选其中一种。比如我在 CLI 里,可以有前台 Agent、后台 Agent,同时直接在 VS Code 里改代码,这些全部并行进行。这说明了不同形态是可以组合的。

 

把这套放到知识工作上也是一样。我们是从 chat 开始,带推理的 chat 不只是一问一答,你能看到它完整的思考过程;现在到了 actions 阶段,通过模拟电脑操作、Skill 和 Agent 调用调用来执行任务,这就是 Copilot 如今的状况。

 

接下来,其实需要一个新的“隐喻”来理解 AI 时代的计算机。Jobs 当年形容 PC 是“思维的自行车”;Bill Gates 说过一句我很喜欢的话:“信息触手可及”。但在 AI 时代,我们需要新的说法。我很喜欢 Notion CEO 的一个比喻:“无限思维的管理者”。这个说法非常形象。

 

Jason:确实是个很棒的产品。不过你们还没收购它。

 

Satya:还没有(笑)。但这个比喻点中了关键:你同时在和大量 Agent 协作。我自己还常用两个词:宏观委派和微观引导,即你把一整块工作交出去,同时在执行过程中不断给细节指令。写代码其实已经是这样了。这正是今天 Copilot 的真实状态。

 

还有一种我特别期待的形态,很快你们就会看到:开发者并不是只待在自己的 repo 里。我们要开会、写设计文档、实现别人写好的规格说明,还要保证代码和这些内容一致。这就意味着,Copilot 需要能通过 MCP Server 之类的方式,把我的工作流、待办事项、上下文全部拉进来。这才是真正的知识工作“组合”。

 

安全领域也是一样。一个安全工程师面对的是海量日志:把日志放进文件系统、用代码分析、生成仪表盘,这些都是 AI 能大幅放大的知识工作场景。

 

数字员工如何进入企业

 

Jason:那“数字员工”“数字同事”这种概念呢?是不是也在你们的规划里?

 

Satya:核心问题其实是“身份”。我们推出了 Agent 365,就是把今天给人用的身份体系、终端防护体系,扩展到 Agent 身上。

 

Jason:也就是说,你可以“克隆”一个我,让他在 HR 或市场部里工作?

 

Satya:没错。在 Office 体系里完全可以做到。这里有两种模式:一种是,每个知识工作者都拥有“无限个大脑”;另一种是,创造完全独立于你个人身份的 Agent。而身份这件事非常关键,权限、决策、责任追溯等全都依赖它。

 

Jason:说到底,就是搞清楚“谁对谁做了什么”。

 

Satya:正是如此。对任何组织来说,最重要的问题之一就是:工作是谁完成的、怎么完成的、来源是什么、能不能追溯,所以要么是“人 + 一堆 Agent”,由人来做宏委派、微观引导,要么就是一个完全独立的身份在运作。

 

Jason:过去几年,Microsoft 的员工数量基本没变,但收入多了 900 亿美元,利润还翻了一倍。你们也像 Alphabet、Meta 一样,削掉了不少中间管理层。这是因为自动化?还是以前人确实有点多?

 

Satya:你抓住了一个非常关键的问题。我认为,这是自 PC 普及以来,知识工作最大的结构性变化。想想 PC 之前,一家跨国公司怎么做预测?传真、内部备忘录满天飞,最后凑出一份结果。后来 PC 成了标配,Excel + Email,让流程和产出物全变了,今天正在发生同样级别的变化。

 

举个例子,在 LinkedIn,我们以前有产品经理、设计师、前端工程师、后端工程师,后来我们把前面这些角色合并、扩大职责范围,统一成“全栈构建者”。这是结构性的调整,它改变了工作本身,也改变了工作流。

 

Jason:沟通成本一下就下来了,速度自然更快,一个人就能“vibe coding”。

 

Satya:没错,而且 AI 产品本身也有一套全新的工作流:从评测、到科学建模,再到基础设施。评测和产品由新的“全栈型 PM / Builder”完成,系统工程师负责支撑后端科学和基础设施,这是一个全新的闭环,必须从组织结构上去适配。

 

当然,对 Microsoft 来说,我们不可能只活在未来。现在,我们要一边把 Windows 的热补丁做好、质量做到位;一边还要持续提升 Copilot 的评测体系和质量,这两件事都必须是第一优先级的。

 

“每十年换一批竞争对手”

 

Jason:这大概是你职业生涯里最具挑战性的阶段吧?过去 Microsoft 在很多领域是双寡头甚至垄断,但现在面对的竞争完全不一样。

 

Satya:确实非常激烈。但我一直觉得,每十年换一批竞争对手,其实是好事,它能让你保持“体能”。我 1992 年加入 Microsoft,那时最大的对手是 Novell;现在是 2026 年,环境完全不同。竞争很残酷,但从 GDP 占比来看,五年后科技产业一定更大,这不是一个零和游戏。

 

Jason:蛋糕在变大。

 

Satya:而且会大得多。整个技术栈对社会的影响会极其深远。最终的问题是 Microsoft 的品牌定位是什么?客户期待我们提供什么?有时候我们会误以为,所有客户对所有厂商的期待都是一样的,但真正重要的是弄清楚客户“希望从你这里得到什么”。这其实是 Peter Thiel 那个观点的另一种表达:不是逃避竞争,而是通过理解客户,找到你真正不可替代的位置。

 

David:这次在达沃斯,既有不少国家领导人,也有大量《财富》世界五百强公司的 CEO。昨晚晚宴上,有人问你一个问题:他们该如何看待 AI,怎样才能真正把 AI 用好。我记得你当时提到了“扩散(diffusion)”这个词,这一点和我最近参与的一些政策研究高度契合。能不能展开讲讲你的想法?

 

Satya:当然可以。事实上,你们一直在做一件非常重要的事,就是确保以美国为代表的技术栈,能在全球范围内被广泛采用、并且被信任。

 

回过头来看,技术本身只是起点,真正的价值来自于被大规模、深入地使用。我一直很喜欢一项研究,是 Diego Comin 做的,研究的是工业革命时期各国是如何实现领先的。结论其实很简单:那些把最新技术引入本国,并在此基础上做价值叠加的国家,最终跑得最快。说白了,不要重复造轮子,而是先用最先进的,再在上面持续创新。

 

这正是“扩散”的意义所在。像 AI 这样的通用型技术,关键在于能不能真正铺开。就拿美国来说,技术我们已经有了,但问题是:它有没有进入医疗?有没有进入金融?有没有进入所有行业?不只是大企业,也包括中小企业和公共部门。如果看不到这种广泛而密集的应用,就谈不上真正的成功。

 

现在我们正处在这样一个阶段:AI 正在更快地“扩散”。你们做的那些政策层面的工作其实非常关键。好消息是,技术已经成熟了,云计算和移动互联网这些“基础设施轨道”早就铺好了,这让 AI 的传播成为可能。现在真正的问题不在算力能不能拿到,而在于具体的应用场景是什么,以及组织如何管理随之而来的变化。

 

在达沃斯,还有一个常被提起的问题:发达国家之外,全球南方怎么办?我反而觉得这里蕴含着巨大的机会。在很多全球南方国家,公共部门在 GDP 中的占比非常高。想象一下,如果 AI 能显著提升政府把纳税人资金转化为公共服务的效率,哪怕只提升一点点,那可能就是几个百分点的 GDP 增长。

 

所以我非常乐观,我认为会形成一种强烈的拉动力,而美国也应该把我们已有的技术栈,推动在欧洲、亚洲、南美、非洲等地广泛落地。

 

David:我经常被问到一个问题:这场 AI 竞赛,怎么判断谁在赢?或者美国是不是领先全球?我给出的答案很直接:看市场份额。如果几年后我们放眼全球,看到美国公司的技术占据了绝大多数市场,那说明我们做对了;如果看到全球到处用的都是中国的芯片和模型,那可能就意味着我们输了。说到底,使用情况才是最真实的检验标准。

 

Satya:我同意。但你也在 Microsoft 工作过几年,应该记得 Bill Gates 对“平台”的理解。对我来说,除了市场份额,更重要的是生态效应。美国一直以来的优势,不只是本国公司的收入规模,而是围绕平台形成的完整生态。

 

我在 Microsoft 学到的一点是,每次去一个国家访问,最先看的不是我们卖了多少软件,而是围绕 Microsoft 平台,在当地创造了多少就业岗位。比如有多少渠道伙伴、多少 ISV、多少相关的 IT 从业者。我们有一整套指标,衡量一个国家的生态是如何围绕平台建立起来的。

 

这正是美国技术栈过去在全球,包括在中国,能够被广泛采用的原因:当地公司能在上面构建自己的产品和业务。这种事情还会再次发生。所以你们推动“扩散”的工作,本质上不是在抢蛋糕,而是在把蛋糕做大,增强对平台的信任,从而带来真正的经济机会。

 

David:你这么一说,我确实想起了一些往事。那还是十多年前,Yammer 被 Microsoft 收购,我们并入了 SharePoint 团队。当时产品经理们非常自豪的一点是:围绕 SharePoint 的生态收入,即非 Microsoft 的咨询公司、实施伙伴创造的收入,其规模是 Microsoft 自身软件收入的好几倍。Bill 也说过一句话:只有当平台之上的收入,显著超过平台自身的收入时,你才算真正拥有一个生态。所以,当我们谈“扩散”,希望美国保持领先地位,并不意味着这对世界其他地方是坏事。恰恰相反,其他国家和公司可以在这个平台之上创造出更大的价值。

 

Satya:完全同意。这一点非常关键。这不是“美国技术、美国收入”的问题,而是在用一个新平台在全球范围内创造机会。

 

我 90 年代做数据库产品时,和 SAP 有过深度合作。SQL Server 和 R/3 的结合,对双方都是巨大的成功。大家常提 Intel 和 Microsoft,但对我个人成长影响很深的一件事其实是和一家欧洲软件巨头的合作。放到今天也是一样,谁知道下一个伟大的 AI 应用会出现在哪里?我始终相信,即便基于美国的技术栈,世界各地都可能诞生顶级的科技公司。

 

与 OpenAI 合作背后:所有公司、应用会同时用多种模型

 

Jason:你不仅是技术领袖,也是一位非常出色的并购操盘手,这一点其实被外界低估了。你和 Sam Altman、OpenAI 的合作,被认为既高明又充满争议。有人说,这笔交易可能让 Microsoft 获得巨额回报,但也有人质疑:你是不是亲手培养了一个未来最强的竞争对手?尤其是考虑到 Microsoft 过去错过了移动互联网浪潮,你们为什么不自己做一个 Gemini、xAI 或 Claude?

 

Satya:我理解这种疑问。很多人问我:你们自己的基础模型在哪里?从知识产权角度说,我们确实拥有相关能力,但更重要的是,Microsoft 现在的战略有几个层面。

 

首先,我们要把“算力工厂”做好。Azure 是我们最大的业务之一,而随着 AI 的发展,它的市场空间会变得极其庞大,这要求我们在异构基础设施管理、软件调度和资源利用率上做到极致。

 

其次,是应用服务器层。未来,每个人都在构建 Agent,有强化学习环境、有评测体系,就像每一代平台都会有自己的应用服务器一样。我们现在在做的 Foundry,就是这个定位。

 

在这一层里,有一点已经非常清楚:任何应用、任何公司,最终都会同时使用多种模型。为什么不用呢,甚至在一个具体任务里,编排多个模型协同工作,效果往往比单一的前沿模型更好。我们在医疗领域做过一个“决策编排”的实践,仅仅通过给模型分配不同角色再进行协同,就能显著提升结果质量。

 

Jason:那是不是可以理解为,你其实看好开源模型,认为大模型本身会逐渐商品化,真正的价值不在这里?

 

Satya:我更愿意把它类比成数据库市场。最早大家觉得数据库就是 SQL,后来才发现并不是。关系型、文档型、NoSQL,各种数据库层出不穷,甚至出现了大量开源项目和围绕它们建立的公司。模型也会是类似的演进路径,会有闭源的前沿模型,也会有达到前沿水平的开源模型。

 

接下来一个非常重要的方向是:企业能否把自身的隐性知识,真正嵌入到自己掌控的模型权重中。有人问我未来会有多少模型,我的回答是:可能和世界上有多少家公司一样多。这听起来极端,但在我看来,这正是“知识经济”向“AI 经济”转变的方式。

 

Jason:那你有没有在 Windows 桌面上,悄悄推进一个本地运行的大模型?

 

Satya:其实已经在发生了,现在已经有完全驻留在本地、基于 NPU 和 GPU 的模型。高性能工作站正在回归,这本身就是一件非常有意思的事。

 

Jason: 明白了。所以 Microsoft 当然会重视 PC,这毕竟是你们的主场,有完整的桌面生态。

 

Satya:是的,本质上这是个商业问题。我们一直认为“形态”非常重要。我常开玩笑说,我的职业生涯是从命令行开始的,说不定最后也会回到命令行。但不管怎样,形态一直在演进。

 

Jason: 你当年起步时用的是 Sun 那种最早的工作站,价格五千到一万美元。你能想象有一天,你会向客户推荐一台一万到两万美元的桌面机,里面内置 LLM 和强悍硬件吗?

 

Satya:完全有可能。你可以插一张 DGX 卡,做出一台非常强的机器。其实在模型架构上,我们可能只差一次关键调整就能实现某种分布式模型架构,比如真正能自我调度的 MoE 架构。这类突破会彻底改变“混合 AI”该是什么样子。

 

但不管怎样,我们非常明确:PC 必须成为本地模型的最佳载体。本地模型可以承担大量 prompt 处理,再按需调用云端能力。这里面还有大量工作空间,这也是我们正在坚定推进的方向。

 

David: 云与本地的协同已经证明了,能直接访问本地文件系统,本身就非常有价值。这让我想到 Yammer。很多人可能不知道 Yammer 当年最大的特点,是用消费级增长打法去攻企业软件。站在今天去看企业 AI 的采用,你觉得未来一年会怎么“扩散”?现在好像正处在一个关键点:会是自上而下,由 CEO 拍板、搞战略转型、走 RFP;还是自下而上,由一批 AI 原生员工先用起来,把工具带进工作中,做出惊人的成果?

 

Satya:说实话,我觉得两种都会发生。自上而下的原因很简单:在客服、供应链、HR 自助这些场景里,AI 的 ROI 非常清晰,IT 和 CXO 很容易拍板,这也是目前最先落地的一波真实 AI 应用。

 

但最终真正改变组织的,一定是自下而上的力量。回看 PC 的历史也是这样:最早是律师把 Word 带进公司、财务把 Excel 带进来,后来有了邮件,最后才变成标配。现在正在重演这个过程。比如说 Agent,现在几乎所有人都在做 Agent,本质是在重构工作流,把大量重复、枯燥的事情自动化掉,这正是自下而上转型的起点。

 

说实话,我最兴奋的也是这种变化。以 Microsoft 为例,我们在全球管理着五百多个光纤运营点,尤其在亚洲。我自己以前都没意识到,这些所谓的 DevOps,其实很大一部分是物理资产:光纤会被挖断、设备会出故障。所谓 DevOps,很多时候就是在不停地发邮件问“这张光纤卡怎么了”“怎么修”。

 

现在负责全球网络的同事,已经构建了一批“数字员工”,本质就是 Agent 在自动处理这些 DevOps 工作。这完全是自下而上的:工具已经在那里了,我就用它来做自动化,减少重复劳动,提高效率和质量。

 

而这些能力最终能不能规模化,关键不在“学会没有”,而在“用不用”。所谓技能提升并不神秘,就是在实际使用中完成的。工具扩散、工具被真正用起来,这才是最重要的事情。

 

“我们在尝试新的学徒制模式”

 

Jason: 正因为如此,现在用这些工具去赋能现有员工,比招人、培养新人要容易得多。站在今天看,如果 Microsoft 规模不变,三、四十年后谁会接我的工作?你们是典型的技术优先公司,理论上已经没有太多理由继续增加员工数量,这几年你们也基本没扩张,只是在内部结构上做了调整。

 

那你怎么看下一代?对那些现在还没拿到 Microsoft offer 的应届生,你会给什么建议?以前你花了很多精力去培养这群人,但现在好像没那么“奢侈”了。

 

Satya:这是个好问题。现在确实有争论:职业早期会发生什么变化、校园招聘还重要吗?我依然坚定相信校园招聘,因为 AI 会彻底改变一个人掌握代码库、建立熟练度的速度。

 

过去,新人进团队的爬坡期很长;现在不一样了,有文档、有技能库,还可以直接问 Agent,本质上就像身边有一个极其强大的导师帮你快速上手代码。换句话说,应届生的生产力曲线会比以往陡得多。

 

我们也在尝试新的学徒制模式:让一位资深 IC 工程师带一组应届生一起工作,因为这本身就是一种全新的工作方式。以前大家进 Microsoft 后会去读 Dave Cutler 的代码,理解什么是顶级工程实践;而现在,顶级实践更多体现在十倍、百倍工程师是如何借助 AI 打造高质量产品的。对于这些经验,新一代毕业生会学得更快。

 

对 Microsoft 这样的公司来说,这是好事。毕竟只要人类还没解决“永生”问题,我们就需要新人进入职场、在 Microsoft 成长。所以我们依然会积极投入,只是会确保岗位的边界和内容,让其既符合现有员工的期望,也符合新入职者的追求。

 

参考链接:

https://www.youtube.com/watch?v=5nCbHsCG334

从 GLM 4.7 看国产模型在编程方向的发展

前几天看到公益站的 token 消耗量超过了三百亿,再加上自己也用 GLM vibe coding 了好几个小玩具,感慨良多,于是想向各位佬友分享一下我个人对 vibe coding 的感受和对国产模型的看法。

1. 我的 AI 接触史

我个人可以算是较早体验 AI 的一批人之一了,最开始我是从 AI 绘图开始了解相关方面的内容的。NovelAI 于 2022 年 10 月份泄露了自己的模型权重文件,随后各式各样的 AI 绘画站点如雨后春笋版涌现了出来。当时给我的体验惊为天人,只需要简单的输入就可以生成一张看着不错的图片,虽然这些照片以现在的眼光看还不够格,比如手部崩坏,边缘模糊,充满了 AI 的油腻(扩散式模型的底层问题),但在当时的环境看这无疑于开创性的技术,让一位对绘画一窍不通的用户,仅需要简单描述即可生成一张对应的精美图片,甚至我的博客封面就是用当时的 AI 画的:

(那个画架子是我自己拿 PS 描的,然后简单勾了一下手和身体的轮廓)

随后 OpenAI 于 2022 年 11 月 30 日发布了 GPT3.5 模型,我加入的各大 AI 交流群都在讨论相关内容,我是在 23 年 1 月初加入的,间隔了一个来月左右,也是因为这事学会了科学上网:

ChatGPT 的出现也引发了轰动,大家最开始根本不敢相信对话的背后居然是一个机器,它颠覆了人们对于机器聊天 “死板,机械回复,套回复模板” 的印象,而我当时正在编写一个 python 小工具,但苦于我根本不会 python 编程,而且网上的相关资料都是泛泛而谈,针对实现的技术细节都是一带而过,导致我就是无法实现想要的结果。后来我实在走投无路的情况下,将我的问题和代码发给了 GPT,一下子给我生成了一套可以运行的代码,给小小的我带来了巨大的震撼。

而当时的 ChatGPT 还没有降智等一系列恶心人的操作,而国内基于 ChatGPT 的镜像站雨后春笋一般冒了出来,当时 GPT 就是我心中的白月光,万能神一般的存在。

2. 国产 AI 发展记

ChatGPT 虽好,但是它限制国人使用,我也不是每时每刻都开着梯子,而且我用的免费梯子稳定性其实也不是那么理想,于是就开始寻求国产替代,我希望直连也能使用。但是在 2023 年上半年几乎没有可用的国内模型,不是 GPT 套壳就是答非所问,远远比不上我想要的结果。始皇的 Pandora next 我也体验过,但是速度还是不是太理想,而且希望能有一个可以一直使用不需要频繁换号的平台,而且最重要的是,它需要简单易用,最好点开就能问,不需要研究各种各样的问题就能使用。

阿里的通义千问是在 23 年上 4-5 月份开始内测,下半年正式发布。而它的出现也为 ai 使用体验带来了一个转机。然而,早期的通义千问体验非常糟糕,提示词遵循也不是很理想,而且最重要的是输入框一次只能输入一万个字,如果有长代码粘贴过去根本输不进去,导致几乎无法用它来写项目(其实现在通义千问体验也不咋地,比如传图之后没法追问,图片提问的回答没法继承进聊天记录,当内容长度超过上下文限制选择粗暴地截断而非内容压缩,但是国产模型没几个能打的)。

不过千问刚出来那会,api 是免费调用的,相对于 ChatGPT 又是需要中转又是需要花钱而言,千问为我提供了一条新的选择路线,当时用千问糊了一个聊天小玩具(虽然最后因为自己能力原因没整完),但后来想想,当时的很多想法都是非常具有前瞻性的,比如我想过通过提示词工程让 ai 输出 json 格式的内容从而让后续的程序识别(格式化输出),让 ai 总结并记住对话中的关键信息(记忆),甚至让 ai 通过输出 json 来控制其他 api 返回结果(mcp 服务器)等,但是受限于模型的指令遵循实在不咋地,这些都没能实现。

后来更多国产模型也发布了出来,比如智谱,比如百度,比如零一万物等,但是我还是觉得国产也就千问算是可用水平,其他的模型什么文心大模型跟个智障一样根本不能用,还敢收一笔不少的 vip 费用。

然而,通义不知道是不是网页调用因为一直在滚动发版,智力时高时低。甚至有一段时间,代码里面莫名其妙的加入了.jpg 等输出,以及意义不明的括号,导致根本无法使用。和群友交流时猜测,这可能是通义千问用了聊天记录作为训练数据,而聊天过程中喜欢用反括号,以及吐槽表情包.jpg 等,导致污染模型。比如震惊.jpg, 感觉不像xxx(这种表述。所以通义千问一直只是作为一个备选方案使用。

3.AI Coding 的接触

后来,随着我的工作量和复杂度增加,很多时候需要一些一次性的代码处理一些重复的工作。比如我需要完成批量处理某项工作,而相对于手动处理既费时又费力,写一个 python 脚本批量处理就显得非常有价值。然而,假如我处理这个工作需要半个小时,耗费 20 分钟查资料写一个代码就显得得不偿失。而这时候就需要借助 ai 的力量。

然而,国产 AI 在代码方面表现的不是特别理想,经常自造函数,格式错乱,虚拟实现(比如注释写 #这里实现 xxx 的逻辑,但是我就是要你实现相对的逻辑呀),而且更为致命的是,我使用的是网页 AI,经常喜欢偷懒(比如让全部输出,然而只输出修改的一部分,比如这样:

用户:输出完整代码
AI:好的,我将为您输出完整代码...
一堆导入
...(这里是xx的实现)
修改的代码
...(这里是剩下的代码)

AI 就会给我输出这里是剩下的代码而非具体代码,这对我这种 CV 工程师非常不友好。再加上 OpenAI 学会了降智,降智后的 AI 根本用不了,有种一拳打在棉花上的感觉。

随后 OpenAI 封号潮、降智潮,始皇转投 Claude,我也转去了 Claude。确实 Claude 的代码水平相对于 ChatGPT 有显著的提升,或者说 Claude 的设计感觉就是为了代码等服务的–artifact 设计可以让他只修改不必重复输出(千问的那个代码模式真的就是每次都在重复输出),指令遵循都相对于其他模型显著提升(比如同期的 GPT 真的很喜欢给我写假设您的后端地址为 XXX,这里需要实现 xxx)。但是好景不长,克劳德开始全方位降智,封号,我第一个注册的 GPT 账号都没封号,克劳德账号被封掉了。

克劳德是一个好模型,但 Anthropic 不是一个好公司。封号,降智,暗改模型用量这些不管是国内还是国外都在骂。还有贵的离谱的 API 价格和订阅价格,实在对我这种开发者不是特别友好。而使用的镜像站一直在封号、达到使用限度,可用性非常差,经常问两个问题就达到了使用限制必须换车。我用的镜像站还不错,客服回复速度也很给力,然而一直封号也不是镜像站能改变的。随着九月份 Anthropic 公开称中国为敌对国家,我也放弃继续使用克劳德的想法。

DeepSeek 的出现为国产模型带来了一个新的转机。它准确率高、便宜大碗,可以用克劳德几分之一的价格实现克劳德一半的准确率。但 DeepSeek 唯一的缺点可能就是太废话了,一个简单的问题需要思考几分钟,不停地左脑攻击右脑,循环否定之前的想法和设计,对于一个编程问题而言需要消耗的时间太长了。至于其他佬友说的准确问题,在它低廉的价格面前都不值一提–穷是最大的问题,克劳德 200 美刀的 Max 会员对我而言实在是遥不可及,对于一个爱好编程的个人开发者而言,一个月掏出来一千五多就为了一个 AI 确实有点拿不出来。至于镜像站,可用性一直不算特别稳定,DeepSeek 都不嫌我穷,我怎么能嫌弃他傻呢。

4. 智谱 Coding Plan 的出现

随着九月份那会智谱在 Anthropic 封号潮那会推出了 Coding Plan,宣称 “平替 Claude Code”,以 Claude 七分之一的价格提供了远超 Claude 同等套餐几倍的用量。当时我接触后惊为天人,速度快、便宜量大,我的第一个套餐是开通的 lite 套餐,只到达过一次限额,以我的使用量根本到不了限额。但是 GLM 4.5 并没有对 Claude Code 等工具进行优化,它的工具调用仍然处于 “推一步走一步” 的等级,仍然透着一股子傻傻的气息。而且最重要的是不支持思考,是否思考对于 GLM 的体验区别确实天上地下。

我当时正在学着写鸿蒙 ArkTs,鸿蒙作为一门新兴的语言,本身训练资料就不多,再加上随着 AI 的出现,网上大量 AI 生成的错误资源污染,导致 AI 根本无从学起。然而,我让 AI “每次运行完之后调用 hvigorw 编译”,有的时候 AI 修改–编译出错–修改–编译出错,这么循环十几遍甚至几十遍最后确实能编译成功。当时我吐槽 GLM “傻但是劲儿大”。

好景不长,随着一系列活动的推出,再加上智谱应该是在训练新模型,GLM 也出现了肉眼可见的降智。虽然智谱官方一直说不可能降智,但是确实体验程度差了太多。我严重怀疑是路由到了 flash 模型上,和原来聪明的 GLM4.5 有天壤之别。由于方便我一直开着 skip-dangerously-permission 权限,但 GLM 就像是傻子一样,瞎改我的代码,发现代码出错之后 “好的,现在我要简化代码” 随后删除了几十个我实现的功能。甚至在改了几十遍没改好之后决定回退 git 版本 —— 但是我的 git 版本是好几十个版本之前,导致了我写的所有功能全部遗失。这让我一度对 GLM 失去信心,当时发现改了好长时间的代码被回退,我都想哭了。

当时的 GLM 智力时高时低,高的时候真的不错,低的时候乱改代码都是基本操作,比如清理项目把我的前端代码删个精光:

但出于对国产模型的信任,我还是升级到了季度的 Max 会员,无它,太便宜了,高用量让我可以随便改,大不了多用 git 提交下呗,穷是我的问题呗。

GLM4.6 的出现相对 4.5 有了很大的改善。但是还是同样的降智问题,而且完全没有任何规律可言:有的时候凌晨三点我用还是会出现明显的降智,有的时候下午最高峰使用效果也不错,整体是抽卡一样的准确率,而且完全没什么规律。最常见的操作是我想让他调用 mcp 搜索,已经在提示词中指定了 “请使用 mcp 搜索”,但是它不是调用 Web Search 工具(cc 内置,用不了一点)或者调用 Search(搜索本地代码的工具),智力忽高忽低。

尽管如此,它还是为数不多的国内畅用的模型。kimi、通义也推出了相对的 Coding plan,但 kimi 用量太低了,通义的 qoder 有种奇怪的感觉,有种差了点意思但又说不上来的感觉。

我也基于这个计划开了一个公益站,三个月以来用了三百多亿的 token,后面只接了一个 key,只能说性价比确实无敌。

(那个 mimo 的 key,费用是错的,数据库里面没有对应的价格值导致计费错误)

直到 GLM 4.7 的出现,体验效果得到了大幅度改善。最重点的是终于支持交叉思考了,思考或者不思考的模型体验真的是一个天上一个地下。虽然我一直觉得大模型的思考链就是一个伪需求,AI 完全不知道什么是思考,只是提示词带来的结果而已,但是它确实让结果变好,那就当他有用吧。

4.7 第二个改善是内置了搜索和网页阅读工具,这使得我不需要专门安装对应的 MCP 也可以使用。对于一台新的机器,只需要安装 Claude code 然后设置 Base url 和 api key 即可使用,ai 在回答的过程中也可以调用搜索工具去搜索官方的文档,从而大幅度提升准确率和可用性。

同时,4.7 的审美也大幅度提升,在之前 GLM,以及几乎所有的 AI 模型都喜欢用 emoji 做图标,虽然方便但是总有一种非常不专业的感觉。但是 4.7 会新建 SVG 文件作为图标,虽然不如开源图标库,比如华为自带的 HarmonyOS Design 或者 Font Awesome,但是方便,快捷,相对于 emoji 来说提升很大,比如这个是完全由 4.7 设计的 UI:

可以看到,下方的图标还是有点小问题,但是整体看不出太大的毛病,作为完全由 AI 生成的 UI 来说够格了。

我也借助 AI 糊了几个小玩具出来。比如学校使用的教务系统,整体就是一个 WebView 套壳,不仅稳定性不佳,而且课程查看非常不直观,透着一股子上个世纪的风格。我完全借助 AI,使用 Kotlin 完成了安卓端课程表的开发,并将其转成了 Swift(ios)和 Arkts(鸿蒙)三端原生适配,虽然软件还是有一大堆的 bug,但是不耽误日常使用,代码能跑起来就行了要啥自行车

至于它的优势,我觉得可能是便宜量大。用 Claude 一直在提心吊胆地看着 cost 耗费,几个问题下去都能感受到白花花的银子消耗声,经常没问几个问题下去就耗费了几十块 RMB,而问题还没显得解决。而用智谱可以随便问,甚至懒得跑了可以让 AI 帮着我运行,直接一个你给我运行此代码就让 AI 代劳,还不用担心耗费,可以随心所欲地使用。

至于能力、准确率,我认为目前最高的模型仍然是 Opus 4.5,它的准确率可以到达 98,但是价格是 10;GLM 4.7 单次对话准确率可以到达 85 到 90,但是价格可能只有 2-3 不到,一切问题在它的价格面前都不值一提。opus 一次能解决的问题,glm4.7 问个几遍也可以解决。可能有些佬工资足够到掏 200 美刀不眨一下眼睛或者公司报销 AI 使用费,但对于初学者而言,20 块钱的 GLM 更有性价比,而且还不用折腾什么家宽,什么环境,开箱即用,更适合上手。

5. 结语

整体而言,我对国产 AI 模型的发展持乐观态度。国外模型虽好,但对国内实行全方位的禁用,门槛太高,学习成本太大。而相对比,国产模型可以以更低廉的成本、更低的学习成本实现相似的能力,让更多非 IT 从业者,非计算机科班的人也可以使用编程完成一些重复但简单的工作。很多时候,我们需要的仅仅是一个 “一次性代码”,解决完某个问题后代码便完成了使命,不需要完整、可移植,只要完成某个特定的任务即可。这样通过 AI,哪怕是完全对计算机一窍不通的人,也可以使用 AI 工具完成一个小的网页、一个小的工具等,方便日常生活的同时把编程推向大众化、简单化。


📌 转载信息
原作者:
foxhank
转载时间:
2026/1/10 19:16:52

[bsgit user="wusimpl"]AntigravityQuotaWatcher[/bsgit]

功能展示

![Antigravity IDE 模型配额监控器插件 [开源](支持 Win/Mac 系统) 1](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/2025/11/2947478344.png!mark)
![Antigravity IDE 模型配额监控器插件 [开源](支持 Win/Mac 系统) 2](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/2025/11/3305152143.png!mark)

使用方法

下载插件,安装,重启,Over(github README 有详细方法)

可配置项

可配置项

插件原理

Antigravity 通过内建的本地语言服务器通信获取数据,插件就是拿到这些端点,然后请求获取数据然后解析。开发过程的难点是获取 crsf token,最后在 AI 的帮助下还是很轻松地拿到了。

几点说明

Gemini Low 和 High 共用一个配额
Claude 和 Claude Thinking 共用一个配额
GPT-OSS 单独一个配额
所以你们在插件里面看到的公用一个配额的模型剩余用量是一样的,Google 也是偷懒…
配额更新默认每 30s 刷新一次,可以在配置里面修改。

Antigravity 目前还只能算半成品,复杂一点的项目出错概率不小,需要等 Google 慢慢迭代修复,或者训练专门针对 code agent 的模型。不过胜在免费,拿来小修小改,做点 Code Review 之类的问题还是不大。