2026年2月

发布时机把握得很好,在所有人都被 Seedance 的视频热度吸引时,字节又推出了全新文生图模型 Seedream 5.0。

该版本集成了网络搜索功能,并支持 2K 原生输出,使其成为 Nano Banana Pro 的高性价比替代方案。该模型现已上线 CapCut、剪映和 Skylark 平台,并在即梦 AI 平台开启灰度测试。目前在 CapCut 上,有限时 20 次免费图片生成。

官方表示,新版本在理解图像内容、生成速度和视觉效果方面均有显著提升。它能更精准地解读上下文、风格和细节,从而减少重复编辑的需求,在 Dreamina 中创建图像更加流畅可靠。

此外,在生成后,用户可以通过交互式笔刷编辑,对画面元素进行精准、智能的调整;同时,视角控制能力的提升,也让场景扩展与画面构图更加灵活多样,拓展画面空间与表现视角。

该功能还使 Seedream 5.0 在生成图像时能够利用更加全面、更新及时的信息。通过融合对网络层级内容的理解,AI 生成的画面在内容上更加贴近现实背景和时代语境,尤其适用于热点话题、现代设计以及对场景语境要求较高的视觉创作,最终呈现出更加丰富、贴合需求的视觉效果。

有用户表示,在 4K 分辨率下,人物皮肤纹理表现有所提升,同一组图像的多样性更好,整体氛围感也很出色。不过,文字渲染效果看起来相比 4.5 版本并没有明显改进。

有网友评价,图像生成的竞争已经不再只是比拼审美表现。Seedream 5.0 将重点放在检索准确性、4K 级放大能力以及工作流层面的精度控制上。字节跳动押注的是“实用性”而不是“艺术性”,认为真正推动专业用户采用的关键在于效率与可靠性。

至于能不能取代 Nano Banana Pro,我们让两者同时生成了一份稍微复杂些的北京菜单,Nano Banana Pro 速度上更快,而效果似乎也赢了。(上图中,横版是 Nano Banana Pro,竖版是 Seedream 5.0,具体表现很直观了)就像网友说的,可能还需要一段时间才能实现取代。

本文最初发布于博客 TheNewStack。

图片来自 Unsplash+

 

前端开发者正在回归原生 JavaScript。以下是原生 API 和 AI 工具如何使原生 JS 成为框架疲劳的解药。

 

每个人都累了,框架疲劳不再只是一个梗:它是一种集体倦怠。曾经竞相掌握 React、Vue 和 Svelte 的开发者们,现在正悄悄回归他们曾经抛弃的简单性:原生 JavaScript。

 

Web 的天平正在向极简主义倾斜。原生浏览器 API 的兴起、注重性能的开发理念和 AI 辅助编码的浪潮,不仅让原生 JavaScript 开发再次变得可行,而且重新焕发了生机。这是在经历多年的代码膨胀、抽象概念和 npm 依赖噩梦之后的一剂宿醉解药

 

框架时代的临界点

多年来,框架一直是开发者的默认选择。它们承诺带来规范性、可扩展性和社区支持。但随着框架的发展,其复杂性也随之增加。打包器变得越来越重,构建时间不断增加,运行“Hello World”项目的一行代码平均就需要数兆字节的依赖。开发者开始质疑:所有这些脚手架真的值得吗?

 

问题不在于框架本身,而在于围绕它们发展起来的文化。每个月都有新的框架涌现,每个都声称修复了上一个框架的问题。企业为了跟上不断变化的生态系统,重构了整个产品。结果呢?无休止的迭代,伪装成创新的技术债务,以及陷入重学循环的开发者。

 

到 2025 年,人们意识到:Web 不需要另一层,它需要的是重置,而这个重置以原生 JavaScript 的形式出现。

 

原生 API 已经成熟

现代浏览器不再是过去那个不稳定的沙箱。在过去的几年中,像 Fetch、Web 组件和 ES 模块这样的 API 已经发展为成熟的生产级工具,取代了框架曾经提供的功能。曾经那些需要 React 钩子或状态管理库才能完成的任务,现在使用原生解决方案,只要几行简洁的代码就能顺利运行。

 

特别是 Web 组件标准改变了游戏规则。它为开发者提供了框架的模块化和封装性,而又不会有框架锁定的问题。结合 Shadow DOM、自定义元素和模板字面量,开发者现在可以构建可重用、自包含的小部件,它们可以在任何地方运行。

 

这种成熟度的提升意味着开发者终于可以使用浏览器提供的原生功能来构建动态、可维护的响应式界面。由依赖项、构建工具和样板代码带来的“框架税”不再是强制性的。选择原生 JS 不是因为复古,而是因为它再次变得高效。

 

性能成为新货币

如今的 Web 讲究速度。用户期望近乎即时的交互,搜索引擎算法会惩罚速度缓慢的页面。严重依赖框架的应用可以做得很复杂,但它们难以提供一致的性能,尤其是在移动设备上。开发者重新认识到,最好的优化不是添加另一个优化库,而是编写更少的代码。

 

2025 年,原生 JavaScript 重新进入主流,主要是因为应用程序启动更快、渲染更快、调试更容易。没有庞大的捆绑包、水合脚本或协调算法,加载时间大幅下降。每节省一千字节,就能留住一个用户。这种转变是务实的:响应速度提高 50 毫秒的价值远高于 JSX 语法糖或响应式绑定带来的价值。

 

这并非意味着框架的死亡,它们仍然主导着企业环境,但在那些注重敏捷性和性能而非遗留架构和抽象概念的项目中,Web 的天平已经向“无框架区”倾斜。这剂宿醉解药不是关于反叛,而是关于清晰度。

 

AI 工具使简单再次强大

讽刺的是,AI 加速了回归简单的过程。现在,开发者使用基于 AI 的编码助手来生成样板代码、调试程序和建议简洁的原生代码。语法越直接,AI 就越有效,而框架的专有约定和抽象层,常常使这些系统感到困惑。

 

有了 AI 处理那些重复的模式,开发者不再需要框架来提高生产力。一个简单的提示就可以利用原生 JS 直接构建响应式 UI 或实现事件处理,完全避免了框架带来的认知负担。突然之间,“框架节省时间”的旧论点不再成立。

 

此外,AI 辅助重构使梳理遗留框架变得更容易。团队可以逐步迁移,用原生等价物替换框架组件。这不是对早期 Web 的怀旧,而是在智能工具盛行的时代有意识地回归本源。

 

微前端和无构建架构的兴起

越来越多的现代项目采纳了微前端原则:独立的小型 UI 模块单独加载并通过共享契约通信。

 

这种模块化转变也符合现代容器的安全实践,其中的独立单元在部署和更新时可以施加更严格的控制,最小化攻击面。

 

同样,这种理念与原生 JS 完美契合。没有集中化的构建系统或复杂的依赖树,开发者可以按模块推送更新,并保持各团队的灵活性。

 

无构建运动与此相辅相成。像ESBuild 和 Vite这样的工具已经将编译简化到了几乎看不见的程度,但最终目标是完全不需要构建步骤。原生模块导入使得这一愿景成为现实。开发者可以直接从编辑器将更新推送到生产环境,无需等待管道进行转译或打包。

 

这种转变重新定义了“轻量级”的真正含义。2026 年,现代的原生 JavaScript 项目绝不是原始粗糙的,而是精准如手术刀的。它只恰到好处地完成需要做的事,不多也不少。在一个痴迷于速度和控制的世界里,这不仅仅是优雅,还是竞争优势。

 

学习曲线倦怠和开发者自主性

开发者们已经筋疲力尽。每隔几个月,就有一个新的框架承诺带来救赎,但结果只是用另一个抽象替换前一个。紧跟“最新”发展所带来的认知负担变得不可持续。原生 JavaScript 提供了一个减压阀,一个不会随着下一个 GitHub 公告而过期的公共基础。

 

你不需要记住一个新的钩子系统、状态 API 或指令语法。你只需要理解这门语言,重拾自主性,让编程创作的掌控权回到开发者手中。他们可以专注于解决问题,而非死记硬背语法模式。

 

随着教育系统的跟进,JavaScript 训练营和高校开始重新强调基础知识。其结果将是:依赖框架的开发者减少,能够在核心层面推断性能、结构和行为的开发者增多。这种重置既是文化的,也是技术的。

 

生态系统再平衡

回归原生 JavaScript 并不意味着框架的灭绝,但它确实重新定义了它们的目的。框架正在演变成可选层,而不是默认配置。它们的存在是为了解决特定的大规模问题,而不是嵌入到每一个登录页和小部件中。

 

React 、Vue 和 Svelte 正在悄悄地精简冗余,提升互操作性。生态系统正在围绕原生标准而不是专有语法凝聚共识。框架作者如今秉持“渐进式采用”的设计理念,这意味着开发者可以选择某个框架而不被锁定。

 

这种再平衡也反映了其他技术领域的发展轨迹。正如 DevOps 逐渐从工具导向转向文化导向,2026 年的前端开发也将更注重使用效率而非工具选择。原生 JS 并非一种厌弃,而是重新校准。

 

小结

框架宿醉不是永久的,它是一个警钟。开发者们终于意识到,进步不是关于抽象的堆叠,而是掌握它们下面的基础知识。原生 JavaScript,曾经被认为“太简陋”,现在已经演变成了一个更简洁的 Web 背后的强大引擎。

 

2026 年,用原生 JavaScript 编写代码并不意味着你在倒退,反而意味着你在前进——清晰、可控以及一个五年后仍然有意义的代码库。框架将继续演变,工具将继续增多,但解决方案将保持不变:剥离掉所有不必要的部分,回归到真正支撑 Web 运行的核心。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://thenewstack.io/why-developers-are-ditching-frameworks-for-vanilla-javascript

初次接触 Skill ,装了好像很强的 superpower 和官方的 frontend-deisgn ,用着发现一个问题,我怎么按照我的需求触发这些 Skill 呢?实测发现说“请帮我设计 XXX”的时候触发 superpower 的概率很高,但是如果在提问的时候就加上自己的几条要求就不会触发了,在这个基础上,说“请帮我优化前端样式”好像触发 frontend-deisgn 的概率也不高,而且还会被 superpower 的工作流程覆盖。是我理解有误吗?貌似 Skill 没有那种确定可以唤起的明确指令?

本文最初发布于 Addy Osmani 的个人博客。

 

软件行业正处在一个奇怪的转折点上。AI 编程已经从增强型的自动补全发展成了能够自主执行开发任务的智能代理。曾经推动科技行业招聘热潮的经济繁荣已经让位于效率至上的要求:企业现在往往更倾向于盈利而非增长,更倾向于经验丰富的员工而非应届毕业生,更倾向于组建配备更好工具的小团队。

 

与此同时,新一代的开发者带着不同的职业观步入职场:他们注重职业稳定性,对拼搏文化持怀疑态度,并且从入行第一天起就使用 AI 辅助工具。

 

接下来会发生什么确实还难以预料。以下这五个关键问题可能会决定 2026 年软件工程的发展,每个问题都对应两种截然不同的情景。这并非真正的预测,而只是一个观察的视角,帮助人们为应对软件工程的未来发展做好准备。我们的目标是基于现有数据,结合本领域特有的健康的怀疑精神,通过制定清晰的路线图来应对即将到来的挑战。

 

1. 初级开发者问题

要点:随着 AI 将入门级任务自动化,初级开发者的招聘可能会暴跌,也可能会随着软件渗透到各行各业而强力反弹。两种未来需要不同的生存策略。

 

“学习编码,获得初级工作,成长为高级”,这一传统的职业路径正在动摇。哈佛对6200万工人的研究发现,当公司采用生成式 AI 时,初级开发者就业率在六个季度里下降了大约 9-10%,而高级开发者的就业率基本保持不变。过去三年,大型科技公司招聘的应届毕业生减少了50%正如一位工程师冷嘲热讽地说:“花 9 万美元雇个初级程序员,为什么不用成本更低的 AI 编程助手?”

 

这不仅仅是 AI 的问题。大约在 2022 年,利率上升和大流行后的调整等宏观经济因素就已经开始显现,这时 AI 工具尚未广泛使用。但 AI 加速了这一趋势。如今,在 AI 的帮助下,一名高级工程师可以完成过去需要一个小团队来完成的工作。企业正在悄然减少招聘初级员工,其幅度甚至超过了裁员规模。

 

相反的情景:AI 解锁了每个行业对开发者的巨大需求,而不仅仅是技术行业。医疗保健、农业、制造业和金融业都开始嵌入软件和自动化技术。AI 不是取代开发者,而是成为一个力量倍增器,将开发工作扩展到从未雇佣过编码人员的领域。我们将看到更多不同的入门级角色:为特定细分市场快速构建自动化和集成的“AI 原生”开发者。

 

美国劳工统计局预测,从 2024 年到 2034 年软件工作仍然将增长约 15%。若企业利用 AI 扩大产出而非单纯裁员,就需要人类把握 AI 创造的机遇。

 

悲观情景的长期风险经常被忽视:今天的初级开发者是明天的高级工程师和技术领导者。如果完全切断人才管道,那么在 5-10 年内就将出现一个领导力真空。行业老兵称这为“缓衰”:一个停止培训接班人的生态系统。

 

我们该如何做?

 

初级开发者:使自己精通 AI 并成为多面手,证明一名初级开发者加上 AI 可以匹配一个小型团队的产出。使用 AI 编码代理(Cursor/Antigravity/Claude Code/Gemini CLI)构建比较大的功能,但要能理解并解释大部分代码行。聚焦不容易被 AI 替代的技能:沟通、问题分解、领域知识。将相邻角色(QA、DevRel、数据分析)视为切入点。构建一个项目集,特别是集成 AI API 的项目。考虑参与学徒计划、实习、外包或开源项目。不要成为“只是又一个需要培训的新毕业生”,而是成为一个学习速度快、立即就能发挥作用的工程师。

 

高级开发者:初级开发者减少意味着你的日常工作增加。利用自动化工具来完成例行任务,不要什么事都自己做。利用 CI/CD、linter 和 AI 辅助测试来捕捉基本问题。通过开源项目或指导其他部门同事开展非正式的导师工作。向管理层如实说明全由资深员工组成的团队所面临的风险。若初级人才需求回升,需做好高效接纳新人的准备,并运用 AI 进行任务分配。你的价值在于提升整个团队的产出,而非个人的代码产出。

 

2. 技能问题

要点:随着 AI 编写大部分代码,核心编程技能可能会退化,或者因为人类开发者需要监督 AI 而使这些技能变得比以往任何时候都更加关键。未来几年将决定我们是否会为追求速度而牺牲对代码的理解。

 

现在有84%的开发者定期使用AI辅助工具。对许多人来说,面对错误或新功能需求的第一反应不是从头开始编写代码,而是编写提示并组合 AI 生成的代码片段。初级程序员正在跳过“艰难的入门阶段”:他们可能永远不会从头开始构建二叉搜索树或独立调试内存泄漏。

 

开发者的技能集正在从实现算法转变为知道如何向 AI 提出正确的问题并验证其输出。现在,入门的第一个要求是提示和验证AI的输出,而不是展示原始编码能力。一些高级工程师担心,这会产生一代不能独立编码的人,导致开发者技能退化。AI 生成的代码可能会引入一些微妙的错误和安全漏洞,不太有经验的开发者可能会漏掉。

 

相反的情景:AI 处理 80%的常规工作,人类专注于最难的 20%。架构设计、复杂集成、创意设计、边缘情况,这些问题是机器无法单独解决的。AI 的普及并没有使深厚的知识积累过时,反而使人类专业知识变得比以往任何时候都更重要。这就是“高杠杆工程师”,他们将 AI 作为一种力量倍增器,但必须深入理解系统才能有效使用。

 

如果每个人都有 AI 编码代理访问权限,那么区分优秀开发者的关键在于知道 AI 何时出错或不够优化。正如一位高级工程师所说:“最好的软件工程师不是最快的编码者,而是那些知道何时不信任 AI 的人。”

 

编程转变:需要输入的样板代码减少,把更多的精力用在审查 AI 输出的逻辑错误、安全漏洞和与需求不匹配的问题。关键技能变成了软件架构、系统设计、性能调优和安全分析。AI可以快速生成一个Web应用程序,但专家工程师需要确保AI遵循了安全最佳实践,并且没有引入竞态条件。

 

2025 年,开发者中间出现了分歧。一些人坦言,他们几乎不“亲手”编写代码,并认为编码面试应该做出改变。其他人则认为,跳过基础知识面试会导致 AI 输出出现问题时需要完成的应急处理工作增加。行业开始期望工程师同时具备AI 的效率和保障质量的基本知识。

 

我们该如何做?

 

初级开发者:将 AI 当作学习工具,而不是拐杖。对于 AI 编码代理(Cursor/Antigravity/Claude Code/Gemini CLI)的建议,要通过审查代码了解其工作原理并识别薄弱环节。偶尔禁用你的 AI 助手,从头开始编写关键算法。优先考虑计算机科学基础:数据结构、算法、复杂性、内存管理。将项目实现两次,一次用 AI,一次不用 AI,然后对两者进行比较。学习提示工程,并掌握相关工具。通过严格的测试训练自己:编写单元测试,自己阅读堆栈跟踪信息而不是立即询问 AI,熟练使用调试工具。深化 AI 无法复制的互补技能:系统设计、用户体验直觉、并发推理。证明你既能用 AI 快速解决问题,也能在 AI 失败时自己处理棘手的问题。

 

高级开发者:将自己定位为质量和复杂性的守护者。磨练你的核心专长:架构、安全、扩展、领域知识。练习用 AI 组件进行系统建模并思考故障模式。随时关注 AI 生成代码中的漏洞。拥抱你作为导师和审查者的角色:定义什么时候可以使用 AI,以及什么时候必须手动审查(支付或安全代码)。侧重于创造性和战略性工作;让初级开发者和 AI 一起处理常规 API 连接,而你决定构建哪些 API。投资软技能和跨领域知识。随时关注新工具和最佳实践。加倍重视人类开发者不可或缺的因素:准确的判断、系统性思维和导师带徒。

 

3. 角色问题

要点:开发者的角色职责可能缩减为有限的审计(监督 AI 生成的代码)工作,也可能扩展为设计和管理 AI 驱动系统的关键协调者。无论哪种情况,创造价值都远不止于编写代码。

 

此处的两极分化非常明显。在前一种情景中,开发者的创造性职责被削弱。他们不再专注于构建软件,而是更多地审核和监管 AI 产出。AI 系统(或使用无代码平台的“公民开发者”)负责生产环节;人类开发者则审查自动生成的代码,检查错误、偏见或安全问题,并审批部署。创造者沦为检查者。编写代码的喜悦被风险管理的焦虑所取代。

 

有报道称,工程师将花更多时间评估 AI 生成的拉取请求和管理自动化管道,而不是从头开始编写代码。编程感觉更像是合规性检查,而不是创造性地解决问题。正如一位工程师感叹:“我不想沦为一个代码清洁工,整天收拾 AI 留下的烂摊子。”

 

另一种未来则有趣得多:开发者演变成高级协调者,兼具技术、战略和道德责任。AI“工人”意味着人类开发者承担架构师或总承包商的角色,负责设计整个系统,决定哪些任务分配给哪些 AI 或软件组件,并将活动部件组合成解决方案。

 

有一家低代码平台的首席执行官阐述了这个情景:在“智能代理”开发环境中,工程师将转型为“作曲家”,指挥由 AI 代理和软件服务组成的“乐团”。他们无需亲自谱写每个音符,但会定义旋律,即架构、接口以及代理间的交互方式。这个角色兼具跨学科性和创造性:既是软件工程师,又是系统架构师,同时也是产品战略家。

 

乐观看法:随着 AI 承担起一些重复性工作,开发者的角色必然转向更高价值的活动。工作可能变得更加有趣。必须有人决定 AI 应该构建什么,验证产品是否合理,并持续改进它。

 

向哪个方向发展取决于组织选择如何整合 AI。将 AI 视为劳动力替代工具的公司可能会缩减开发团队,并要求剩下的工程师保持相关任务自动化运行。将 AI 视为团队能力增强工具的公司可能会保持人员数量基本不变,但让每位工程师承担更费时耗力的项目。

 

我们该如何做?

 

初级开发者:不要局限于编写代码,要寻找其他机会。自愿参与测试用例编写、CI 流水线设置或应用监控,培养与审计员/监管人角色相一致的技能。通过个人项目保持你的创造性编码能力,以免失去构建乐趣。培养系统思维:学习组件之间如何通信,怎样设计出良好的 API。阅读工程博客和系统设计案例研究。熟悉除代码生成之外的 AI 和自动化工具:编排框架、AI API。提升书面与口头沟通能力。撰写文档时秉持向他人阐述的标准。向资深同事提问时,不仅要问“代码是否运行正常?”更要问“我的考量是否到位?”。准备好成为验证者、设计者和沟通者,而非仅是编码者。

 

高级开发者:把更多精力放在领导和架构责任上。打造供 AI 和初级团队成员遵循的标准和框架。定义代码质量检查清单和符合伦理的 AI 使用策略。随时关注与 AI 生成软件合规性和安全性相关的话题。专注于系统设计和集成知识;自愿绘制服务间的数据流并识别故障点。熟悉编排平台(Kubernetes、Airflow、无服务器框架、代理编排工具)。投入双倍精力履行技术导师角色:更多地参与代码审查、设计讨论、技术指导。提升快速评估他人代码并给出高层次反馈的能力。培养产品和商业意识;了解为什么构建一个功能以及客户关心什么。向产品经理学习或参加客户反馈会议。通过原型、黑客马拉松或新兴技术研究来保持你的创造激情。从编码者演变为指挥者。

 

4. 专家与通才问题

要点:专业领域过于狭窄的专家会面临自身领域被自动化取代或逐渐淘汰的风险。在快速变化、AI 深度渗透的时代背景下,T 型工程师更受青睐——他们既具备广泛的适应能力,又拥有一个或两个有深厚知识积累的专业技能。

 

考虑到模型、工具和框架的快速兴衰,将职业生涯押注在单一技术栈上是有风险的。当新型 AI 工具能以极少需要人工干预的方式处理传统框架时,该领域的专家可能会突然发现自身需求锐减。那些专注于“单一技术栈、框架或产品领域”的开发者,某天醒来时或许会发现,该领域已日渐式微甚至被淘汰。

 

想想那些在行业转型时未能及时转型的人:COBOL 开发者、Flash 开发者或移动游戏引擎专家。如今不同的是变革速度。AI 自动化能让某些编程任务变得微不足道,削弱了因这些任务而存在的工作岗位。只精通单一技能的专家(比如调整 SQL 查询参数、将 Photoshop 设计切片为 HTML 代码)可能会发现,90%的工作已被 AI 取代。

 

招聘经理们总在追逐最新的小众领域。几年前人人都想要云基础设施专家;如今 AI/ML 工程师需求激增。那些精通昨日技术的人,随着该领域的发展放缓,会感到职业发展陷入了停滞。

 

相反的结果是形成一种新的专业化形式,即“多面手专家”或T型开发者。他们在一两个领域拥有深厚的造诣(竖线),同时又广泛涉猎其他众多的领域(横线)。他们成了跨学科团队的“粘合剂”,既能与各领域专家沟通协作,又能在必要时填补技术空白。

 

企业不再需要知识深度或广度不够的开发人员;他们想要一个强大的核心竞争力,以及能够跨栈工作的能力。其中一部分原因是效率考量:一个 T 型工程师通常可以独立解决端到端问题,无需等待上下游交接。其中一部分原因是创新考量:知识的交叉传播可以带来更好的解决方案。

 

实际上,AI 工具增强了通才的能力,使一个人更容易处理多个组件。后端工程师可以在 AI 的帮助下构建出合理的 UI;前端专家可以借助 AI 生成服务器样板代码。一个提供丰富 AI 功能的环境让人们能够完成更广泛的工作。与此同时,深度专家可能会发现,他们的专业领域有一部分被自动化取代,却难以开拓新领域。

 

现在近45%的工程角色期望能够精通多个领域的知识:编程加云基础设施知识,或是前端开发加熟悉 ML。

 

我们该如何做?

 

初级开发者:尽早打下广泛的基础。即使被雇佣为特定的角色,也要了解那个岗位之外的知识。如果你是在做移动开发,不妨学习下后端基础知识;如果你是在做前端开发,则可以尝试编写一个简单的服务器。学习部署过程和工具,如 Docker 或 GitHub Actions。找一两个真正让你感到兴奋的领域深入学习,使它们成为你垂直领域的专业知识。将自己定位成混合型人才:“全栈开发人员,专注于云安全”或“前端开发人员,具有 UX 专业知识”。借助 AI 工具快速学习新领域的知识;如果你是后端新手,可以让 ChatGPT 生成入门 API 代码并学习它。养成不断学习新技能的习惯。参加黑客马拉松或跨职能项目,强迫自己进入通才模式。告诉你的经理,你想要接触项目的不同部分。适应性是职业生涯早期的超能力。

 

高级开发者:绘制你的技能图谱:你在哪些领域是专家,哪些相关领域你只是浅尝辄止?选择一到两个相邻领域并努力精通。如果你是一个后端数据库专家,不妨熟悉一个现代前端框架或学习机器学习(ML)流水线的基础知识。借助 AI 的帮助,在你的弱项领域做一个小项目。将你深厚的专业知识与新环境相结合;如果你专门从事 Web 应用性能优化,可以探索如何将这些技能应用于 ML 推理优化。支持或争取将你的角色设计成跨职能的,自荐成为涉及多领域项目的“集成负责人”。指导他人,传播技能,同时也从中学习新东西。更新简历体现多元化能力。利用你的经验识别模式和可转移知识。成为 T 型人才的典范:在你的专业领域深耕(建立权威和信心),并积极拓展横向能力。

 

5. 教育问题

要点:计算机科学(CS)学位是保持黄金标准,还是被更快的学习路径(训练营、在线平台、雇主培训)所取代?大学可能难以跟上每几个月就有重大变化的行业发展。

 

四年制计算机科学学位一直是进入软件领域的主要途径。但这一传统正在受到质疑。

 

一种未来:大学仍然重要,但难以保持相关性。学位仍然是默认的资格凭证,但受制于缓慢的课程更新周期和官僚审批流程,课程设置落后于快速发展变化的需求。学生和雇主均感觉学术界与行业脱节,学校教授的理论或过时的做法无法转化为工作技能。

 

最近的毕业生报告指出,他们在攻读学位期间从未学习过云计算、现代 DevOps 或 AI 工具。如果大学需要投入很多的时间和资金,但却只能提供低相关性教育,那么它们就有被视为昂贵守门人的风险。但出于惯性,许多公司仍然要求应聘者具备学士学位,因此压力就转到了应聘者身上,他们需要通过训练营、在线课程和自学项目来弥补这方面的不足。

 

学生贷款是一笔巨大的债务,而公司也要花费数十亿美元培训新毕业生,因为他们缺乏工作场所需要的技能。大学可能会在这里增加一门 AI 伦理课程,在那里增加一门云计算选修课,但当他们真正实施时,行业工具已经又向前发展了。

 

颠覆性场景:传统教育日益为新教育体系所取代。编码训练营、在线认证、自学作品集、雇主创建的培训学院层出不穷。许多知名雇主(谷歌、IBM)已经取消了某些技术角色的学位要求。到 2024 年,近45%的公司计划至少取消部分职位的学士学位要求

 

训练营体系已经相当成熟,他们培养的毕业生与 CS 毕业生一起被顶级公司雇佣。这些项目周期更短(12 周强化),并且专注于教授实用技能:当前流行的框架、云服务、团队合作。招聘标准正在瞄准在线作品集、微证书和已认证技能。出色的 GitHub 作品集或公认的认证可以免除学位要求。

 

由雇主推动的教育正在兴起:企业自主搭建培训体系或与编程训练营合作。部分科技巨头已经为非传统背景的人才设立了内部“大学”。AI 本身也开辟了全新的学习路径:AI 导师、交互式编程沙盒、校外个性化教学。

 

模块化的学习生态远比昂贵的四年制学位更容易获取。在计算机科学专业实力薄弱的国家,孩子们也能修读 Coursera 的课程,构建与硅谷人士同样的个人作品集。

 

我们该如何做?

 

有志向的开发者/初级开发者:在学习传统的计算机科学课程时,不要完全依赖课程进行学习。要通过实际的项目补充课程内容:构建 Web 应用,参与开源项目。寻找实习或合作机会。如果你的课程中没有包含热门话题,则通过在线平台学习它们。考取行业认可的认证(GCP、亚马逊云科技、Azure)以证明自己的实践能力。如果是你在自学或参加了训练营,则一定要专注于创建一个引人注目的作品集:至少要有一个文档良好的重点项目。积极参与开发者社区:参与开源项目,撰写技术文章。通过 LinkedIn、聚会以及开发活动建立人际关系网络。争取资深开发者为你背书。考虑到技术技能的半衰期非常短,务必要不断学习。将 AI 作为个人导师。用具体的方式证明自己的能力:作品集、认证证书以及能清晰阐述工作成果的能力,这些将为你打开机遇之门。

 

高级开发者和领导者:你不能永远依赖于证书。要在继续教育方面进行投资:在线课程、研讨会、会议、认证。通过新的方式验证你的技能,为通过实际问题评估应聘者当前能力的面试做好准备。维护使用了新技术的业余项目。重新评估工作要求:你真的需要新员工拥有计算机科学学位,还是需要他们具备某些技能和学习能力?推动以技能为先的招聘,扩大你的人才库。支持内部培训计划或学徒制岗位。为没有正式大学背景的初级开发者建立导师制小组。与学术界及其他机构合作:加入顾问委员会、举办客座讲座、对课程存在的问题提出反馈。将这种合作融入自身的职业发展中:实际的成果和持续的学习比额外的学位更重要。

 

小结

这些情景并不是相互排斥的。现实将融合所有要素。一些企业将缩减初级岗位的招聘,另一些则会在新的领域扩大招聘规模。AI 会将常规编码工作自动化,同时又提升人类编写的代码的质量标准。开发者或许会在上午审核 AI 生成的代码,下午则专注于设计高级架构。

 

一个贯穿始终的主题是:变化是唯一的常数。紧盯技术趋势(并保持审慎态度),避免被炒作或末日论所蒙蔽。通过更新技能、拓展能力、聚焦人类特有的优势(创造力、批判性思维、协作能力),你才能始终保持竞争力。

 

无论未来是迎来编程复兴,还是进入自动编码时代,那些具备全局思维、持续学习能力并能推动技术发展解决实际问题的工程师,始终会受到市场的青睐。

 

预测未来的最佳方式就是积极地塑造它。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://addyosmani.com/blog/next-two-years/

自从 AI 能写代码后,GitHub 上的项目就真的是百花齐放了,不仅有底层的推理框架,更多的是能够解决具体业务痛点、具备完整工作流的成熟项目。

这里精选了 8 款近期我关注到的硬核工具,各有各的侧重点。

NitroGen:像人一样看屏幕玩游戏

image.png

这个项目厉害了,与那些读取内存数据的传统脚本不同,NitroGen 是纯视觉流派,它模拟人类玩家,直接看屏幕像素,然后预测手柄操作。

它在海量游戏视频上训练过,泛化能力很强,哪怕是它没见过的游戏,稍作微调也能上手。

  • 避坑指南:唯一不好的,就是它对环境很挑剔。模型推理得部署在 Linux 上,但游戏本体通常得跑在 Windows 上,跑起来需要点耐心(Python 3.12+ 是必须的)。

NocoBase:把 AI 变成企业的正式员工

image.png

如果你觉得现在的 AI 只是个聊天窗口,那你就out了。

市面上的低代码平台,大多只是在角落里挂个 AI 对话框,充其量算个智能客服。但看看人家 NocoBase,把 AI 深度集成进业务逻辑里的。

在这里,AI 拥有系统角色权限。

它能直接读取数据库表头,看懂界面配置。比如可以设定一个工作流:让 AI 读取历史订单,自动判断并生成一份合规性报告。 这比写死 If/Else 规则灵活太多了。

  • 运行环境:典型的重型业务系统,需要 Node.js 20+,并且必须配置好 MySQL 或 PostgreSQL 数据库才能跑起来。

Mastra:TypeScript 党的 Agent 框架

image.png

在 Python 统治 AI 的当下,JS/TS 开发者就像是二等公民。想写个 Agent?先去学 pip 和 conda 吧。

Mastra 不信这个邪,它不仅是一个库,更是一套完整的 Agent 基础设施。我觉得它最厉害的是记忆管理机制 解决了 Agent 容易断片的问题,特别适合构建那种需要多步推理的长链路应用。

  • 适用场景:高并发的 Web 端 AI 应用,基于 Node.js 环境。

LangChain:大模型应用的万能胶水

image.png

这个不用多介绍,现在基本是 LLM 开发的事实标准。虽然有人吐槽它越来越臃肿,但想把 PDF、SQL 数据库、Google 搜索和模型串联起来做 RAG,它依然是效率最高的,真让人又爱又恨。

  • 环境注意:虽然支持多语言,但 Python 版依然是功能最全的。不过它的版本更新极快,旧代码经常跑不通,环境维护是个大坑。

  FlashPortrait:死磕人像细节

image.png

既然有了 Midjourney,为什么还要这个?

这是一个专注于 CV 的垂类工具。不同于 Midjourney 那种天马行空,FlashPortrait 专注于高保真的人像重建和编辑。如果对画质、面部特征的还原度有像素级的强迫症,选它准没错。

  • 硬件门槛:想跑这个?准备好 Python环境、PyTorch 框架和 CUDA 吧,烧显卡呀。

Fission-AI OpenSpec:AI 员工打架了怎么办?

image.png

当你的系统里只有一个 AI 时,它是神。当你有十个 AI Agent 时,它们就是一群没头苍蝇。

谁先调用工具?输出的格式谁来定?

Fission-AI 专门解决这个工程化难题,它能生成和校验接口规范,确保不同的 AI 服务不会鸡同鸭讲。

  • 技术栈:利用 Node.js 20+ 的异步能力来处理大量的规范解析。

Minimax M2.1:逻辑推理的大脑

image.png

在处理长文本和复杂逻辑分析时,M2.1 是目前的佼佼者。社区里很多项目其实都是在套它的壳或者 SDK。如果你需要处理数万字的文档摘要,或者做深度逻辑分析,接入它是个好选择。

  • 开发习惯:做 API 调用和数据清洗,Python 依然是主流。

Cloudflare Telescope:给网页做全身 CT

image.png

开发最怕听到的一句话就是:“网站打不开”。你打开 Chrome 一看,秒开。问题出在哪儿呢?

而 Telescope 就是解决这些的。它底层利用 Playwright 驱动 Chrome、Safari 或 Firefox 去实际加载网页。它不光是测速,而是像黑匣子一样记录所有数据:从网络请求的 HAR 文件、控制台报错(Console Log),到页面加载全过程的高清录屏和逐帧胶卷图(Filmstrip)。 甚至,还可以用它模拟 3G网络或禁用 JS 的环境,来看看你的网页会不会崩。

  • 部署建议:注意了,它除了依赖 Node.js 和 Playwright,必须在系统级安装 ffmpeg用于处理视频数据,否则是跑不起来的。

工具是真的强,但环境也是真的乱。

我要跑 NitroGen,得切到 Python 3.12;转头搞 NocoBase,又得装 Node.js 20 和 MySQL

我有大半的时间不是在写代码,而是在和报错日志互喷,试图搞清楚为什么我的端口又被占用了。在同一台机器上,手动管理这些跨语言、跨版本的环境,就是在埋雷。

为了从这堆烂摊子里解脱出来,我推荐试试 ServBay。无他,唯手熟尔。

ServBay:把环境配置变成一键操作

ServBay 是专为现代 Web 和 AI 开发设计的,主打一个隔离和省事。

  1. 多版本 并行:可以给 NitroGen 跑 Python 3.12,旁边同时跑着 Node.js 20 的 NocoBase,两者互不干扰。
  2. 数据库零配置:跑 NocoBase 这种强依赖数据库的项目,不需要到官网下安装包或写 Dockerfile。在 ServBay 里,点一下鼠标,MySQL 或 PostgreSQL 就起动了,依赖关系自动搞定。
  3. 统一管理:不管是 pip 包管理还是 npm,都在一个界面里操作,清清爽爽。

image.png

工具的价值在于使用,而不是配置。不要让小问题困住你的大创意。

作为前端开发者,我们每天都在和异步操作打交道 —— 发起 API 请求、处理表单提交、管理数据加载状态... 但你有没有发现,写这些代码时总在重复同样的逻辑?

"定义 loading 变量、定义 error 变量、调用函数时设 loading 为 true、成功后更新数据、失败后记录错误、结束后设 loading 为 false、还要处理竞态条件..." 这些样板代码占用了大量时间,却几乎没有技术含量。

于是我开发了「vue-asyncx」—— 一个专注于简化 Vue3 异步操作的工具库,让你少写 40%+ 的重复代码,早点下班陪女朋友 / 打游戏 / 休息😎。

为什么需要 vue-asyncx?

先看一个常见场景:用 Vue3 的 Composition API 获取用户信息。传统写法大概是这样的:

<script setup>
import { ref } from 'vue'
import { getUserApi } from './api'
// 1. 定义一堆状态变量
const user = ref(null)
const loading = ref(false)
const error = ref(null)
// 2. 编写异步函数
const queryUser = async (userId) => {
  // 3. 手动处理状态更新
  loading.value = true
  error.value = null
  
  try {
    // 4. 执行异步操作
    const res = await getUserApi(userId)
    user.value = res.data
    return res.data
  } catch (e) {
    // 5. 处理错误
    error.value = e
    throw e
  } finally {
    // 6. 清理状态
    loading.value = false
  }
}
</script>

这段代码里,真正有价值的逻辑只有getUserApi(userId)这一行,其余全是重复的状态管理代码。更麻烦的是:

  • 每个异步操作都要复制这套逻辑,代码量爆炸
  • 变量命名风格不统一,团队协作成本高
  • 手动处理竞态条件(多次请求时数据覆盖问题)容易出错

而用 vue-asyncx 实现同样的功能,只需要:

<script setup>
import { useAsyncData } from 'vue-asyncx'
import { getUserApi } from './api'
// 一行代码搞定所有状态管理
const { user, queryUser, queryUserLoading, queryUserError } = useAsyncData('user', getUserApi)
</script>

这就是 vue-asyncx 的核心价值:自动处理异步操作的所有周边逻辑

让异步操作"开箱即用":自动处理异步操作的所有周边逻辑

vue-asyncx 提供了两个核心 API,覆盖 90%+ 的异步场景:

1. useAsyncData:专注异步数据

当你需要使用异步数据时,用useAsyncData。它会自动生成:

  • {name}:存储异步数据 Ref(如user)
  • query{Name}:触发异步数据获取的函数(如queryUser)
  • query{Name}Loading:加载状态 Ref(如queryUserLoading)
  • query{Name}Error:错误信息 Ref(如queryUserError)
  • query{Name}Arguments:最近一次调用过程中的传参
  • {name}Expired:当前异步数据是否过期(因后续请求失败导致)

基础用法

import { useAsyncData } from 'vue-asyncx'
import { getArticleApi } from './api'
// 管理文章数据
const { 
  article,         // 文章数据 (Ref)
  queryArticle,    // 获取文章的函数
  queryArticleLoading, // 加载状态
  queryArticleError    // 错误信息
} = useAsyncData('article', getArticleApi)
// 调用函数获取数据
queryArticle(123) // 获取id=123的文章

其它特性

  • 初始值设置:useAsyncData('user', getUserApi, { initialData: { name: '默认' } })
  • 自动监听:当依赖变化时自动执行(类似 watch)
const userId = ref(1)
useAsyncData('user', getUserApi, { 
  watch: userId, // userId变化时自动调用queryUser(userId.value)
  immediate: true // 初始时立即执行
})
  • 过程中更新数据:支持在异步函数执行过程中手动更新结果
const { progress, queryProgress } = useAsyncData('progress', async (init = 0) => {
  const { updateData } = getAsyncDataContext() // 获取上下文
  updateData(init) // 立即更新为初始值
  await wait(100)
  updateData(50) // 中途更新为50%
  await wait(100)
  return 100 // 最终结果
})

2. useAsync:专注异步函数

当你只需要使用异步函数(不需要长久保持结果),比如表单提交、数据删除等操作场景,用 useAsync。它会生成:

  • {name}:包装后的异步函数(如submit)
  • {name}Loading:加载状态 Ref(如submitLoading)
  • {name}Error:错误信息 Ref(如submitError)
  • {name}Arguments:最近一次调用过程中的传参

表单提交示例

<script setup>
import { useAsync } from 'vue-asyncx'
import { submitFormApi } from './api'
// 管理提交操作
const { 
  submit,       // 提交函数
  submitLoading, // 提交状态
  submitError    // 提交错误
} = useAsync('submit', submitFormApi)
</script>
<template>
  <form @submit.prevent="submit(formData)">
    <button type="submit" :disabled="submitLoading">
      {{ submitLoading ? '提交中...' : '提交' }}
    </button>
    <div v-if="submitError" class="error">
      {{ submitError.message }}
    </div>
  </form>
</template>

3. 自动处理竞态条件

当一个异步函数被快速连续调用(比如用户快速点击按钮),可能出现 "后发请求先返回,先发请求后覆盖" 的竞态问题,导致数据混乱。

vue-asyncx 内置了竞态处理机制,通过调用追踪,确保只有最后一次调用的结果会更新状态,前面的请求结果会被自动忽略。

// 模拟一个延迟返回的API
const fetchData = (id) => new Promise(resolve => 
  setTimeout(() => resolve(id), 1000)
)
const { data, queryData } = useAsyncData('data', fetchData)
// 快速连续调用
queryData(1) // 比较慢,先调用,后返回
queryData(2) // 比较快,后调用,先返回
// 1秒后,data.value 会是2(而不是1),会自动忽略之前调用的结果

实战场景:代码量对比

我们用 "用户列表 + 详情" 的经典场景,看看 vue-asyncx 能省多少代码。

传统实现(约 50 行)

<script setup>
import { ref, watch } from 'vue'
import { getUsersApi, getUserDetailApi } from './api'
// 列表相关状态
const users = ref([])
const getUsersLoading = ref(false)
const getUsersError = ref(null)
// 详情相关状态
const userDetail = ref(null)
const getUserDetailLoading = ref(false)
const getUserDetailError = ref(null)
const currentUserId = ref(null)
// 获取列表
const getUsers = async () => {
  getUsersLoading.value = true
  getUsersError.value = null
  try {
    const res = await getUsersApi()
    users.value = res.data
    return res.data
  } catch (e) {
    getUsersError.value = e
    throw e
  } finally {
    getUsersLoading.value = false
  }
}
// 获取详情
const getUserDetail = async (userId) => {
  getUserDetailLoading.value = true
  getUserDetailError.value = null
  try {
    const res = await getUserDetailApi(userId)
    userDetail.value = res.data
    return res.data
  } catch (e) {
    getUserDetailError.value = e
    throw e
  } finally {
    getUserDetailLoading.value = false
  }
}
// 监听用户ID变化,自动加载详情
watch(currentUserId, (id) => {
  if (id) getUserDetail(id)
})
// 初始加载列表
getUsers()
</script>

vue-asyncx 实现(约 20 行)

<script setup>
import { ref } from 'vue'
import { useAsyncData } from 'vue-asyncx'
import { getUsersApi, getUserDetailApi } from './api'
// 列表管理(自动生成getUsers、users等)
const { 
  users, 
  getUsers, 
  getUsersLoading, 
  getUsersError 
} = useAsyncData('users', getUsersApi, { immediate: true })
// 详情管理(自动监听currentUserId变化)
const currentUserId = ref(null)
const { 
  userDetail, 
  getUserDetail, 
  getUserDetailLoading, 
  getUserDetailError 
} = useAsyncData('userDetail', getUserDetailApi, { 
  watch: currentUserId, // 自动监听
})
</script>

代码量减少60% ,而且逻辑更清晰 —— 所有状态都和对应的异步操作强关联,不用在多个 ref 之间跳来跳去。

为什么选择 vue-asyncx?

  1. 更少的代码:平均减少 40%+ 的异步相关代码,专注业务逻辑
  2. 更强的可读性:统一的命名约定(如queryXxx、xxxLoading)让代码自文档化
  3. 零成本维护:自动处理状态更新、竞态条件,减少 bug
  4. 完整的 TypeScript 支持:所有 API 都有精确的类型定义,IDE 自动提示
  5. 轻量无依赖:仅依赖 Vue3,体积极小(gzip 后 \~2KB)
  6. 100% 测试覆盖:200+ 测试用例确保稳定性

如何开始使用?

  1. 安装依赖:
pnpm i vue-asyncx
# 或 npm i vue-asyncx
# 或 yarn add vue-asyncx
  1. 在组件中使用:
import { useAsync, useAsyncData } from 'vue-asyncx'

详细文档和更多示例见:https://vue-asyncx.js.org/

社区贡献:一起让它更好

vue-asyncx 还在不断进化,如果你有任何想法或需求,欢迎参与贡献:

  • 提 Issue:报告 bug 或建议新功能
  • 发 PR:修复 bug 或实现新功能(欢迎新手参与)
  • 分享体验:在博客或社交平台分享你的使用心得

项目地址:https://github.com/xuyimingwork/vue-asyncx

最后

开发 vue-asyncx 的初衷,就是想让自己和更多开发者从重复的异步状态管理中解放出来 —— 毕竟,好的工具应该让你感觉不到它的存在,却能悄悄帮你搞定琐事。

希望 vue-asyncx 能让你少加班、多陪家人、多打游戏,早点下班😊。

如果觉得有用,欢迎给个 Star 支持一下~

盘点在 AI 加速交付预期下,需求高、竞争相对低的 6 个自由职业细分方向,并解释为什么它们更偏“运营/落地”,以及如何快速拿到第一个客户。原文:6 Freelance Niches Exploding Thanks to AI in 2026

客户不再问“你能不能做”,而是问“你多久能交付”。这种变化背后,是 AI 把很多原本需要几周的工作,压缩成几天甚至几个小时就能完成。

团队预算并没有消失,只是流向了会用工具、而不是害怕工具的人。理解这一点的自由职业者正在悄悄增加收入;其他人则还在社交媒体上争论 AI 是否“邪恶”。

下面是原文认为“钱真正流向哪里”的 6 个方向。

1. 小型企业的 AI 自动化设置

本地小企业正被重复性工作拖垮。

美发沙龙要手动确认预约,房产中介把线索复制粘贴进 CRM(Customer Relationship Management,客户关系管理系统),机构老师需要手动开票。流程混乱而低效,而且他们不喜欢技术。

你要做的,是走过去,把工具连起来。

就这么简单。

不用写代码,没有软件工程,只是把零散的点连成线。

实际做的事情

  • 为网站搭建 AI 聊天机器人
  • 自动捕获线索 → 邮件 → CRM
  • 预约提醒
  • 表单提交后自动跟进

使用的工具

  • Zapier / Make
  • ChatGPT + OpenAI API
  • 用 Google Sheets 作为“数据库”
  • Calendly
  • WhatsApp 自动化工具

更夸张的是,客户会觉得你是“系统天才”。

你实际上在搭的是类似这样的逻辑流(logic flow):

IF 收到新表单提交  
THEN 发送 WhatsApp 消息  
AND 添加到 CRM  
AND 通知销售代表

这不是编程,这更像是给成年人玩的乐高积木。

常见问题是:“如果 AI 工具连这些也替代了怎么办?”

AI 不会替代“落地实施”,老板们不想看仪表盘,他们想要结果,总得有人把混乱的业务翻译成结构化的工作流。

而那个人就是你。

2. AI 内容再利用专家

内容创作者生产长内容:播客、线上研讨会、YouTube 视频。

但注意力呢?就像金鱼一样短暂。

所以,一段 40 分钟的视频,需要被拆成:

  • 8 个短视频片段
  • 2–3 条 LinkedIn 帖子
  • 5–6 条 Twitter 和 Instagram 的 Threads
  • 2–3 封商务邮件
  • 4–5 篇博客文章

这就是你介入的位置。

你不是“写手”,而是内容倍增器。

流程如下

  1. 把字幕文稿上传 AI
  2. 提取关键信息
  3. 为不同平台重新表达
  4. 加入人性化的语气、示例和钩子

为什么?

因为瓶颈是时间,不是想法。

“AI 不能自动做这个吗?”

AI 的原始输出很寡淡 —— 没有声音、没有上下文、没有平台细节。总得有人去塑形:选角度、注入个性、去掉尴尬。

AI 负责起草,你负责收尾。

差别很大。

3. 业务团队提示工程

“提示工程”(Prompt Engineering)这个词听起来确实有点尴尬。

但仍然能挣钱。

企业在买 AI 工具……但员工用它就像用搜索引擎一样,浪费资源。

所以他们会请人来做:

  • 搭建提示词库(prompt libraries)
  • 搭建内部 AI 工作流
  • 培训团队拿到可用输出

你不是在教理论,你是在做“打法手册”(playbooks)。

比如:

扮演SaaS入职专家。
重写这封支持邮件,减少流失率并提升清晰度。

或者:

分析这条客户反馈,并将投诉分组归类,提出建议的解决方案。

当你变成他们的“AI 流程负责人”,就可能收取长期顾问费用。

有人可能会问:“我需要很强的技术吗?”

不需要,你需要的是模式识别、语言清晰度、业务理解。

这是一种“用软技能伪装成技术”的工作 —— 这就是诀窍。

参考:ChatGPT 技巧与人工智能策略

4. 咨询机构的 AI 辅助研究

咨询机构正在承受更快交付策略的压力。

市场研究过去要几周,现在客户希望几天就有策略演示。

你可以成为他们的“研究引擎”。

你会做:

  • 竞品分析
  • 行业总结
  • 从报告里提炼趋势
  • 把洞察结构化成幻灯片

AI 让“挖资料”更快,你负责“思考”。

这个方向的付费更好,因为离“策略”更近。

而且咨询机构不想招全职研究员,他们更需要“灵活火力”。

5. AI 工作流程文档与 SOP 创建

这一条听起来很无聊,但“很赚钱”。

公司引入 AI 工具……然后没人知道流程怎么跑、该怎么用。

你进来做这些:

  • SOP(Standard Operating Procedure,标准作业流程)
  • 流程文档(process docs)
  • 录屏讲解
  • 内部知识库

你把混乱翻译成清晰。

AI 帮你生成基础文档,你负责组织、简化、结构化。

做得好的自由职业者会把它打包成:

“AI 流程优化 + 文档化服务”

这比“我写 SOP”更好卖。

6. AI 驱动的广告创意测试

广告代理正在用 AI 测试大量的钩子、角度、脚本。

他们需要有人来:

  • 批量生成变体
  • 分析表现数据
  • 迭代文案与信息传达
  • 把洞察反馈到提示词里

这份工作一部分像文案,一部分像读数据。

你也可以从 Meta Ads Library 获取灵感。

绩效营销(performance marketing)喜欢它,因为速度 = 更多实验 = 更好的 ROAS(Return On Ad Spend,广告支出回报)。

为什么这些细分赛道有效(而大多数自由职业者忽视了)

这些方向不是“创意型”的,而是“运营/落地型”。

问题很无聊,但钱很真实。

自由职业者常追逐品牌、logo、视觉;企业愿意付费买的是:

  • 节省的时间
  • 降低的成本
  • 增加的线索
  • 减少的错误

AI 只是引擎,你是修理工。

如何快速获得第一个客户

不要复杂的漏斗。

这样做:

  1. 从上面选一个细分方向
  2. 做一个案例,可以是假的/虚构的
  3. 展示优化前/后的工作流
  4. 私信 30 家企业

消息模板类似这样:

我注意到你们还在手动处理预约,我可以用 AI 工具自动化提醒和跟进,通常每月能省 8–12 小时。想要我简单演示一下吗?

你卖的不是工具,是把时间卖回给他们。

时间是有情绪价值的,所以这招有效。

你应该学习的工具

  • ChatGPT
  • Claude 或 Gemini(用于研究对比)
  • Zapier / Make
  • Notion AI
  • Descript(用于内容再加工/复用)
  • Canva 的 AI 工具

不需要一大堆工具,只需要深入研究 5 个工具。

真正的恐惧是

人们不是真的害怕 AI 会替代他们。

他们害怕的是:自己用不好、看起来很蠢。

这也是企业会雇自由职业者的原因:他们不想在公开场合摸索试错,而你是“安全的中间层”。

AI 没有扼杀自由职业,扼杀的是“平均水平的自由职业”。

如果你把自己定位成“把 AI 连接到收入”的人,你就获得了先机,而越早就越挣钱。

选一个细分方向,搭一个工作流,卖结果而不是卖工具。

这就是 2026 年的游戏。


Hi,我是俞凡,一名兼具技术深度与管理视野的技术管理者。曾就职于 Motorola,现任职于 Mavenir,多年带领技术团队,聚焦后端架构与云原生,持续关注 AI 等前沿方向,也关注人的成长,笃信持续学习的力量。在这里,我会分享技术实践与思考。欢迎关注公众号「DeepNoMind」,星标不迷路。也欢迎访问独立站 www.DeepNoMind.com,一起交流成长。

本文由mdnice多平台发布

之前没开盾,服务稳定性确实差点意思。按理说自研的 Golang 网关内存占用极低,不该如此,但这波服务抖动,属实让我这个十多年的后端老兵“开了眼”。

紧接着 TG 群里不断有佬反馈服务不可用,当机立断:开盾、部署 NewApi 、迁移新域名,一气呵成。

刚刚迁移完在 CF 上配置 301 跳转时,扫了一眼后台数据:竟然有4000 多 UV ,160 万次请求! 对于一个注册没几天的小站来说,这波流量真的“难顶”。

但转念一想,这不就是传说中的“泼天富贵”吗?既然抗住了,就要稳稳接住!

话不多说,直接送兑换码庆祝一下:

  • 🧧 首批福利:10 个 $10 兑换码(直接放出)

  • 🎉 盖楼福利: 每逢 10 层( 10 、20...),送一个 $15 兑换码

  • 🚀 大额福利: 每逢 50 层( 50 、100...),送一个 $20 兑换码

另外马上要春节假期了,假期是超赞的 vibe coding time ,我将会在所有评论中随机抽取 3 名 V 友各赠送 $50 的兑换码。

目前网站仅支持 Github 登录,签到、邀请功能全开,各位佬懂得。

我在 AI 应用方面涉猎较广,欢迎进TG 群一起切磋交流。

(网址就不重复发了,麻烦移步我的历史帖子,旧链接已做 301 无缝跳转新站)

ff2d2ae75a7c478989d09642dcd3a2c7
10f2163fb32942e4ab21ec922076e32d
e97c5a0ad5264fe1b1922bcbf462eba4
8d008cc1f78140d0abb31b8805fb71df
af3ca76941064eb2b53efb00e2de524e
f4a01b484c4a4df5a142165f465703ec
4d0ac0bcb1f9415685e9b51ad69abfef
d62c0647ca4e406081d86b3e9ee31018
e1c0d13c2f884b10b7024e926b6f1e77
c3eb0a7294f443d19d8ed870321d487c

除了首页时间流和侧栏的精选展位,少数派 Matrix 社区还有很多优秀内容因条件所限无法得到有效曝光,因此我们决定重启 Matrix 周报,并在此基础上添加更多社区内容、作者投稿新玩意呈现给大家。


💬一派热议

在第 259 期一派讨论《聊聊你的租车自驾体验?》中,共有 195 名派友热情参与,十分感谢!

大部分还是真香?

潘誉晗(+5) 三年了,科目一还没考出来。

Latte(+5) 租过各种车,从神州 & 一嗨这种稳定大品牌,到极氪订阅这种公司自营,再到当地的私营租车行,甚至还体验过一些品牌提供的 99 元 3 天试驾活动,各有各的感受。

  • 神州 & 一嗨:前些年还是老旧车型为主,不过一些热门景点也有酷炫越野或者时兴车。这些年都各自发力,新能源、新势力品牌入驻都比较多,体验还是很稳定。首先车辆保养规范,大概率不会遇到脏脏车;其次保险合理,基本上保险买的全,还车放下就能走,而且活动也比较多,淡季划算。
  • 品牌自营:极氪订阅是用得比较多的,从 001、007 到 7X 都体验过了,可惜去年年底有退市的苗头,现在已经订不到了。699 元 / 3 天,刚好满足周末出行,车干净,保养也好,取车的时候还有纸巾和水,体验还是不错的。蔚来也有订阅,可惜价格不便宜,最低也是 1 周,平时上班哪有时间开,性价比就不太高了。
  • 私营车行:真的坑多,不是不相信有好人,但坏人真的太多了,要把行业搞臭了。
  • 99 元试驾 3 天:基本都有限行区域,不让出市,体验过大众、别克和尼桑。大众 ID.3 还是挺可爱,没体验到 ID.4 可惜了;别克也不错,驾乘感受一定程度改变了我的刻板印象;尼桑真的差评,可能太考验经销商服务水平了,服务差还挑剔多,也怪我太相信经销商取车没验车,还车的时候一个 3 厘米浅划痕硬赔 600 元,彻底放弃这个品牌。

真的希望各家新势力把退下来的展车、试驾车、库存车投一部分去订阅,像我这种实操派,本来对极氪不感兴趣的,开过之后都心动了。

G_J(+4) 这几年陆陆续续租过好几次车自驾,新疆、内蒙、西北等等,一直是在携程里面租车,没怎么注意具体的租车行,然后保险拉到顶的尊享版。

  • 在内蒙的时候出了事故,撞到一头牛,车头大灯一直到车门拉了一道大口子。当时慌得不行,运气不好又遇到素质比较低的租车行老板,忽悠加恐吓都来了,在我已经出了高额拖车费之后还报高价维修费甚至还有误工费等等。最后仔细研读了携程尊享套餐,选择和老板硬刚到底。
  • 给大家提个醒,当你买了保险之后,只要和携程官方对接就行,不用管租车行老板,不用和他沟通,不用管他的合同,只和携程官方对接。虽然中间拉扯了小半个月,最后成功完结,一分钱没有多掏,因为尊享版保险已经涵盖了车辆的维修费等等。
  • 最近走西北环线还车的时候电话问来收车的大哥要不要仔细验车,大哥直接回:「你是尊享版,车钥匙放酒店前台就行。」

说这么多显得有打广告的嫌疑,我的建议是能买保险就买保险,能买最高一档就买最高一档,毕竟出来旅游谁也不想给自己找麻烦。

Voyager_1(+4) 记得最清楚的是工作第二年吧,和同事去扬州摘杨梅,当时选择了神州租车,还记得扣费是通过信用卡(刚办记得很清楚),拿车取车都在一个地方,没有任何问题,爽快干脆,车况不错,驾乘体验也很好。

别惹小炸毛(+3) 只在一嗨和神州这种大平台租车,然后买最基础的保险就行。

最记忆深刻的就是:

  • 等待 MONA 交付的时候,一方面练车一方面冬季通勤,去天津租了高尔夫 8 在北京办进京证开,可以说车技的提升都是小高尔夫练出来的,提新车前租个车多练练真的很推荐!
  • 青海湖小环线的时候一行五人租了岚图梦想家,在铺装路面 MPV 的大空间和舒适程度很赞,爬山和在草地撒欢之后在第二排美美按摩。以后这种多人长途自驾应该还会去租车,毕竟买个 MPV 平时就两个人开很浪费,一年少数出游还是租大车方便。

详见我的小红书,欢迎关注,大家一起交流汽车相关。

POWERBadJack(+2) 国内在成都双流机场的神州租过车,租的是沃尔沃 XC60,车当时是很新的,才几千公里。也让我体验到了沃尔沃驾驶的舒适与稳定。

那次主要在市区内和四姑娘山跑了跑,车本身买了全险(很重要)。开车途中有剐蹭,还车前还比较担心扯皮,结果最后还车很迅速,车钥匙一给直接让走了。异地旅行还是挺推荐的,省心、自由、无忧,这不就是自由行的快乐吗~

alexliheng(+2) 最近一年租过三次车,都是短途出行,最长的就 4 天,最短就 1 天,目前还没有遇到什么意外或者赔偿的。3 次都是在一嗨平台上租的,主要是当时看微博和小红书反馈,觉得公司比较正规,所以才放心租(下次也试试神州)。

考虑到自己是新手,所以一直都是租最便宜的油车。亚洲狮、大众速腾、高尔夫都试过,对于新手来说,车小小的挺好开,还没有试过新能源的车型。

我目前仅有的经验是:

  • 重要事项提前备注:工作人员可能因为当时预订的车型,会为客人换车型,但一般不会电话告知,所以有特殊需求的要提前备注好(例如倒车影像一定要有)。如果遇到新型车辆不会开,其实问豆包或者抖音查一下基本车辆介绍,就能比较快上手。
  • 关于优惠:另外好像一嗨平台周一和周三订车会更优惠一点,生日也有优惠(海鲜市场好像也能定,但是我还没有操作过)。
  • 临牌车辆:有一次租到临时牌照车辆(纸质车牌文件放在车头和车尾窗),过停车场的收费出入口有点不太方便,因为闸机不能自动识别,所以出入口时候需要打电话,或者让人工开门。这一点 I 人觉得有点尴尬;另外还车的时候,工作人员会说临牌车一般不会有什么交警违规处罚这些的,这个没有验证过,不知道真假。

新手可以自己准备实习车位贴和可拆卸手机支架。

我看评论区看到有小伙伴有试过 99 元 3 天体验的租车活动,我其实也想知道哪里能找到这种活动的,以及一些新的 10 万元以下新能源车,有没有那种便宜靠谱的渠道,也想体验一下,有小伙伴知道可以分享么~

湘雨(+1) 目前只租过两次车,都是在旅游的时候,一次是三亚一次是威海,我的经验是一定不要随便超速。我在三亚正常开没管超不超速是没问题的,但是我在威海真的是倒霉了。一共就周末玩了两天,就租了两天的车,正常开车最多速度 80 差不多,我以为没啥事,但是在一个星期后,我手机居然收到了 5 条超速违章的短信,威海也太严了吧。用租车权益免费处理了两条,最后自己还要掏钱处理三条。以后去别的城市租车一定要开导航了,不能随便超速。

PiEgg(+1) 在神州租车租了好几次了,从没买车前租车试开,到自己买车后外省旅游自驾,体验都很不错。不过一定要注意买他们的保险,不贵,但是非常有用。尤其我前几次不太会开,基本都会有些小剐蹭,但是因为买了保险,还车的时候只要说一下就能交钥匙,剩下的交给工作人员处理就好,非常省心!

kinh_l(+1) 我自驾蛮多次的经历,在租车上印象深刻的一点就是车轮毂问题。因为如果去的是较为偏远的地方,即使没有事故,路面的沙石和坑洼肯定避免不了,并且车轮毂属于在几个主流的租车平台上,无论什么等级的保险都是不包的部分;然后我发现每次还车对方都是专盯车轮毂看。所以这次我打算自备车轮毂贴,再买个低等级的保险就好了。

CCAnCeRr(+1) 8 月份的时候人生第一次体验租车。对比之后选的神州租车,整体体验还是很顺畅,租车还车流程都比较简单,也支持异地还车。

插曲:贵阳的路是真的难开,在地下车库那种升降的车位把车刮到了。怕被平台扣很多钱,都想自己去找家修理店修好再换。后面跟朋友沟通了下,还是跟平台报备了,最终也没扣多少。

建议:租车找大平台,有保障;出了剐蹭事故之后要跟平台报备,平台一般会跟进车辆情况进行报价,相对合理,不要自行处理,避免不必要的纠纷。

Krisno(+1) 23 年本科毕业旅行,8 个人租了两辆车,10 天青甘大环线走了 3000+ km,携程上买了最高一档保险,开的比较随性。一次在祁连山遇到隧道整修,赶时间直接走了环山的非铺装路,但是到了另一边发现隧道已经开放了 😂;另一次在从火星营地回冷湖镇时走了一条废弃许久的烂路,颠簸了一个小时,不过趁天黑前赶回镇上吃了饭(晚上停电)。总的来说,我觉得租车是城市外旅行的最佳选择,能在可接受的成本下给你最大的自由。

康宝(+0) 只租过一次车,虽然老司机,怕套路在神州租车还是老老实实买了全险。开了 3 天,取车还车体验非常好,一点不麻烦。实际驾驶发现最大的问题是不同城市的道路设计差异。比如在北京的环岛上是没有红绿灯的,但是在武汉的环岛上就有红绿灯,感觉自己有天晚上在环岛上闯了一次红灯,还车后的那些天特别怕给我来个闯红灯违章。

jasonwong(+0) 只租神州和一嗨,其他不考虑,租过十几次,没啥问题,比较放心。

bc(+0) 神州、一嗨,还有些小平台都租过,新疆、内蒙、山西、云南、河南等地方自驾过,我开车不算多,所以算生手吧。

大多数除非真的出事故,小的剐蹭不太明显的,基本上还车没人查。这里也就和保险有关了,加上保险总价一下子提升 30%,我多数都不想加,就基本的保险,1500 自付。

选动力好点的,偏远地方两车道国道超车容易;选密封好的,大众很吵。

我要吃两个派(+0) 自驾过新疆、甘南,基本都是依赖租车平台解决的。抛开用自己的车担心额外损耗的问题不谈,两个要素基本确定了只能租车。一是因为我在广东,去这些地方根本不可能把自己的车开过去,实在是太远了。二是如果是用板车把自己的车运过去的话,会存在小板价格高、大板时效差的问题,要是旅程开始了车还没运到就麻烦了。

租车平台的话,我一般选一嗨或者神州 ,具体看人数、地理环境之下合适的车型哪个平台更划算,以及有没有异地还车手续费这件事情,应该很少有人愿意走回头路吧,所以异地还车费就很关键。很多热门线路一嗨都没有这笔费用,但神州好像一直都收。

要我推荐的话,只要不是本省或者邻近省份自由行,真的还是租车方便,但记得选大平台,别为了几百块钱搞得自己后期还车时鸡飞狗跳。

日子在长大(+0) 有些地方,不租车真的不方便。但是老实说我还是不太敢从小公司租车,毕竟租车去的地方都是不熟悉的地方,路况不熟甚至交规都不熟,出问题的概率也会高很多。大公司整体来说还是更方便一些,毕竟经营了那么多年,遇见各种租车情况也多,处理流程也更顺畅,而一些私人公司,恨不得还车时多了一个擦痕都要扯皮(我没试过,但是看到过太多吐槽帖)。

当年在夏威夷大岛把车开进沟里,气囊都嘣了,好在人没事,直接报警走流程,然后换一台车继续开,走的全险,什么扯皮的事情都没有。

去年去了美国西部国家公园那些,不自驾肯定行不通的,公共交通约等于无…… 大家有兴趣可以去翻翻我之前的帖子。

波比仔(+0) 说起租车,我最早租车是在 2012 年吧。那时刚拿驾照,手痒痒,但自己又没有车,所以就租了一辆飞度去江门和佛山找同学聚聚。那时租车一般是 200 一天,另外加保险。我用神州和一嗨这两家,还是挺方便的,车况也还不错。一般只是租一两天,长的就没租过了。后来陆陆续续租过几次,租了个大点的车,起亚的 K5,一家人出行可太方便了。由于是租的车,车况不熟悉,都是小心翼翼地开。还车的时候也不会很仔细地检查,毕竟也买的保险,小刮痕都没有额外的费用。

有一次去了趟上海出差,出发前在手机上租了辆车,落地后在机场取车,真的很方便。再后来去洛杉矶出差,也都是先租好车,落地后取车。米国没有车真的是寸步难行。美国租车行业比中国的发达太多了,可选的车行也很多,车况很好。价格折算成人民币肯定要贵上不少。我出差一般五个人,租辆 MPV 加上保险不到 100 刀。

在第 257 期一派讨论《从混乱到整洁:聊聊你的桌面理线改造故事》中,共有 514 名派友热情参与,让我们一起看看桌面的样子:

少数派 19908987(+33) 看到一张图

Jensding(+33) 我已经和自己和解了,不再和自己过不去了,乱点就乱点吧。

主义主义主义(+19) 无线,是为了方便朋友来家里玩,可以瞬间转换为网吧二连模式!小板凳搬来,2 号 PC 电源键一按,显示器一转,无线鼠标键盘一摆,戴上蓝牙耳机,我们今天必将大杀四方!

熊宝和他的朋友们(+19) 桌面献丑,支架帮我掩盖了显示器后方的六根线,桌面底下采用电源盒全收纳,目前自我感觉良好。

Maximillian(+14) 分享下我的,有电子洁癖,正面有线?不可能的。背面还是有一点线的,没办法。

Cyanrel(+5) 这真是一个费钱活,举个例子,原装的 1.8m 电源线能用,但是绕一坨好难看的,于是特地去买根 50cm 的,但是隔一阵子又会有新的布局方法,长此以往家里就多了一堆线。

肥猫_f4TCat(+2) 我是简单整理一下,尽量减少可见的线,利用扎带还有各种卡扣来固定线材,太长的就绕一绕团吧团吧。

小瀚(+2) 可以换个思路,与其在桌面理线,不如给桌面化简,设备少了线就简了。

风尘噗噗啊(+1) 用了 3D 打印的方案,还在慢慢完善。

zinnio(+0) 魔术贴解决,也只能把线绑起来,全无线不可能。

潮鳴(+0) 我现在真的是能无线就无线,只剩下显示器电源和 DP。

📢:下一期的一派讨论是数码圈日经话题《又是一年:来分享你镜头里的归途》,欢迎来聊。

🔥一周热评

来自文章 《自荐 HiFier: 支持网盘,NAS,媒体服务器的高解析度音乐播放器》

Infovores(+2) 产品完成度确实不错。古典音乐爱好者,自从全面转向了 Apple Music,自己维护的那些本地无损音乐文件都懒得听了,主要还是版本管理麻烦,关注点转向音乐内容本身后,对无损也不那么执着了~

我也有三点水(+0) 自从我开始买实体 CD 后,才发现 iOS 上少了一个可以听 CD 上抓轨的文件的软件,然后就找到了这个 HiFier。现在我的工作流就是 CD 到手之后用 HiFier 先听一遍有没有喜欢的曲目,没有就直接出掉,有的话就丢到自己的 Navidrome 服务器文件目录里 😀

来自文章 《我的 AI 工具日常使用与工作流是怎样的?》

好吃不告诉你(+4) 一如既往的高质量 👍。最近公司、个人也都都在实践 AI 在公司当中的应用,快速迭代的 AI 模型和工具,一时间有点眼花缭乱。其实本质还是规划好自己的工作流,找到效率提升点和痛点,再去规划工具和技术的使用,在实践中可以逐渐修正自己的工作流。

LavaC(+0) 因为 MacBook 闭合后用不了麦克风的关系,上周末我专门买了个 DJI Mic Mini,不用买什么接收器,蓝牙连接就行,放桌子上或者挂衣领也不占位置,搭配 TypeLess 库库 chat。唯一的阻碍就是还得按回车和鼠标切换焦点,不然我觉得我可以完全脱离电脑桌干活。

来自文章 《派早报:千问「奶茶补贴」导致线上宕机、线下爆单》

↳ 💬 关于「千问「奶茶补贴」导致线上宕机、线下爆单」的热议:

宽松回不去(+0) 店家爆单,员工累死,品质也下降,消费者也喝不到啥好东西,正常点单的顾客一看配送费全涨价到 6 元了,只好选其他平台。阿里这次营销简直反面教材,能拉新但是能留存多少?

↳ 💬 关于「市场监管总局公布仿冒 DeepSeek、ChatGPT 等不正当竞争典型案例」的热议:

捷宝(+0) 所以提供竞价排名的搜索引擎和微信不用罚吗?为仿冒网站提供平台。平台钱赚到了,责任一点也不用承担啊。

潮鳴(+0) 这么低的处罚力度,冒牌厂商只怕都想要申请包年。

JasonLI(+0) 现在一斤大白菜都多少钱了,罚款还是几千块几万块,这种力度真的可以让他们回心转意么?

↳ 💬 关于「12306 回应买长乘短无法买中转票等问题」的热议:

ICONIC(+0) 哈哈,这难道不是那些第三方平台给消费者培养出来的陋习 🙄

↳ 💬 关于「预制菜国标征求意见稿发布,未强制要求公示」的热议:

东墙(+0) 我这一家不用预制菜的外卖都不知道倒闭多久了,味道不错就是价格贵。消费者也只是嘴上喊喊,钱包实诚得很。

Yoona(+0) 感恩西贝,推动预制菜国标的制定,感恩的心,感谢有你。

来自文章 《在日本开电车:特斯拉一日自驾》

VoidY(+3) 感谢分享。暂时在日本不考虑特斯拉就是觉得即使有补助也没可以充电的房子(才不是因为贫穷!)。电比油贵,可以说除了价格优势不大,不如丰田混动适合日本。

流歌(+1) 感觉和我在柳州租 Warmcar 的流程差不多。

评论图片

KingsleyL(+0) 虽然十万公里了,但是看你拍出来漆面状态还好好,不知道是不是贴车衣了,打蜡镀晶这种租赁公司估计不会花时间搞吧,好棒的体验。

来自文章 《当你想来一次新年大扫除,这里或许有些经验可供参考》

潘誉晗(+4) 浴室/厕所清理打扫很推荐这款水卫士(但是味道有点刺鼻)。

这款是清理玻璃特别好,但是我发现往马桶喷一喷,然后再按一下马桶冲刷键,马桶内壁的一些小污渍就会很容易清理干净。我一般两三天喷一次,然后开换气,过 5 分钟去按马桶键、继续换气。这样浴室/厕所的刺鼻味很快就会没有。

评论图片

来自文章 《漫长的告别——12年后再谈小米1S&红米Note》

Gurri(+4) 如果你想要有绝对的自由,电脑上还可以用 Linux。但是手机上目前这个生态是空缺的。我想如果有一台可以自由刷机的开源系统手机当备用机,应该可以做到两全。

红烧牛肉(+3) 越缅怀过去越能说明现在的澎湃是什么玩意。

来自文章 《新玩意 235|少数派的编辑们最近买了啥?》

Tobias(+30) 曾经是多年 Kindle 老用户了,换了国产后就回不去了。说实话在国内不知道到底有啥理由守着 Kindle 不放。再说 Android 系统,文中写「至于 Android 系统,虽然表面上给人一种开放、全能的感觉,但受限于墨水屏设备的硬件配置和屏幕特性,论阅读体验比不上定制系统,论功能全面比不上普通平板。」 Android 系统阅读体验就比不上定制系统了吗?Android 系统下可以用微信读书,Kindle App,更多的选择,也不知道哪里比不上。

至于墨水屏的显示效果,上限已经决定了,KPW3 之后就几乎没提升过了,无非就是底色和对比度的一点点差别。

wubinstark(+25) 根据上一期老麦对我吐槽的建议,针对新一期的《新玩意 235:编辑们买了啥?》进行吐槽:

1、@ph:Kindle Paperwhite 6:写得挺好,看得出很用心,买的东西也很符合少数派的定位,买一个退出中国市场的产品,嗯,这很少数派,已解毒。

2、@一只索狗:iQOO 15 Ultra:厂商送测?请注意,这个栏目的标题一直都是《新玩意 235|少数派的编辑们最近买了啥?》厂商送测算买吗?买你们变相写软文的劳动力吗?内容声明:《新玩意》栏目如含有商务内容,将会在对应条目标注「广告」。请问对应的这篇软文中,有出现哪怕一个“广告”标签吗?!用老罗的话就是:被包养的话,就不要说什么……,厂商送测的东西就单独写篇文章,像过去一样打上“广告”的标签。挣钱嘛,不寒碜,少数派也是人,要吃饭的,我们用户能理解。(文采不错,拍照也不错)

3、TRMNL 软件授权:写得不错,需求够小,符合少数派的定位,已解毒。

4、@Lincoln: tomtoc 护照包:tomtoc 的包我买过,说实话,初到手的做工真的可以,但是出过几次差之后,包的质量问题就出来了,整个包身不耐脏,用久了包身有点松垮。这个护照包是什么表现,我没用过,不评价,但对这个牌子已解毒。

年前还保持更新已经不错了,各位编辑辛苦了,但是我该吐槽的我最不嘴软。

来自文章 《满分五分,你给 Apple 的 2025 年打几分?》

dark100rd(+14) 十几年来首次不敢更新 macOS。

少数派03858353(+3) 我用 MacBook 有十多年了吧。十多年前就是铝合金的模具了,现在还是,材料技术都翻天覆地了,MacBook 还是那么重。再不济,能不能让 Air 真正的 Air 起来呢?换一个超轻模具,整体重量不超 1KG 的呢?

keleus(+3) 软件不是很行,除了 26 系统外,苹果智能一直落后于其他家。

硬件的话 iPhone 也感觉拉了。虽然充电有进步,iPhone 17 有高刷,但续航还是所有新机里最差的……

MacBook 目前还得独一档的存在,目前除了硬盘昂贵的溢价外,内存我居然因为 DDR5 的天价而感觉 1500 元 8GB 能接受了(笑死)。

来自文章 《自驾——提升旅行体验的绝招》

圆胖(+12) 写得都是自驾的优点,可能对于时间紧张的,确实,便于安排行程,说走就走,想停就停。缺点在于太累了,开车会疲劳,坐车可以直接睡觉,尤其是一家只有男的开车,那就累死。然后太无聊,特别是独自出行的,少了很多遇见旅伴的机会。对于家庭自驾游,驾驶员就是牛马。

Zane_Ng(+3) 自驾虽好,但最好还是要搭配同样能开车的旅伴,定时轮流开车。不然会非常疲劳,也很危险。

另外,根据地图算出来的长途驾车时间是不准的。虽然现在地图软件计算塞车的算法非常先进,但还需要考虑到上厕所、吃饭、每四小时休息、临时交通管制等等时间。长途火车的好处是,上厕所、吃饭、休息都不会影响你的行程移动速度;而且火车通常不存在塞车的情况(火车晚点、故障率高的国家和地区除外),不用操心驾驶问题,可以安心欣赏窗外风景。特别在高峰期进出、离开景点和市区,那自驾真的不如公共交通,特别是司机自己还想上厕所的时候。

比较遗憾的是,我们国家现在没有铁路通票、套票,不能一票畅游。但如果是在欧洲(特别西欧),因为可以购买铁路通票,火车旅行就可以和自驾媲美甚至比自驾实惠方便。因为(有的)通票允许非高铁的普通车次在通票有效时间内不限次上车(如果要座位,可能需要预订或补价格)。这样,有些地区小城之间的通行也可以有自驾的那种时间灵活度。

JLDUAN(+1) 自驾还有一个非常特别的体验:不会错过路上的风景~无论是行驶在群山间,还是穿越隧道,或是途径一望无际的平原……不同的地貌变幻带给你的视觉震撼,只有那一刻的自己才能感知到。

来自文章 《少数派 2025 年度征文:听说你对写作是真 AI?》

旭彦兮沐(+4) 来了,我今年经历了太多,我的心路变化只有纯手写才能表达出来,我今年纯手写。

来自文章 《见不惯 B 站 up 主的带货广告?教你利用 AI 快速跳过》

Ye_1(+43) 给 UP 主留条活路吧。

Jensding(+41) 哈哈,好东西。不过我也想给那些 UP 主留点收入,万一他们没收入不做视频了我怎么下饭。

知道分子吴先先(+11) 非常想知道:某按摩仪、同品牌洗脚盆,哪来的那么多 B 站营销经费,感觉全站 UP 主都在给他家做广告……

来自文章 《Cent - 你可能只需要这一个记账软件》

JeffreyMa(+1) 一直在看各个开发者开发的记账 App,有些确实挺好的。但是我自己从 2013 年 1 月 1 日开始用随手记专业版记账,13 年间漏记错记应该不会超过 10 笔。13 年的记录虽能导出,但是导入新 App 的效果却不尽如人意。数据转移造成的混乱和丢失成本太大,导致即使现在随手记专业版广告越来越多,也只能捏着鼻子继续用下去,折中方法用 Quantumult X 重写屏蔽一下广告,暂时只能是这样了。

🆕作者的新玩意

为了让作者的投稿尽快与广大读者见面,我们调整了《新玩意》栏目中作者投稿部分的呈现方式和周期,作者投稿的「新玩意」后续会迁移至本栏目。投稿渠道与奖励方式仍与以往完全一致,详情参见文末。我们相信新鲜火热出炉的分享更能赢得大家的喜爱,也欢迎广大读者朋友们踊跃投稿。

@夜行列车长:硅胶泥耳塞

  • 购买渠道:淘宝
  • 参考价格:¥15.9

自从读书的时候在大学宿舍养成了使用耳塞才能睡觉的坏习惯,以至于现在换个稍微有些嘈杂的环境睡觉,很容易被外界的杂音影响。之前使用的都是 3M 那款橙色的工业耳塞,刚开始使用的时候还不错,但是经常出现早上起来满床找,以及睡醒后耳朵被挤压得很疼。

现在发现另一种材质的耳塞,使用起来体感更好 —— 硅胶泥耳塞。字面意思,就是像橡皮泥一样有可塑性,对比以前的耳塞,可以更贴耳朵。

使用方法也很简单,在现在的这个天气,用手指尖的温度稍微软化一点,然后再捏出一个小啾啾(不需要太尖锐,只是为了方便送入耳道)。感觉送入耳道后就可以将外面部分稍微按压,填充外耳,让它密封性更好些,降噪效果也更好。我习惯将一颗一分为二,耳道比较小,用料也少,根据自己的情况来决定。

取下的方法更简单,用指腹将外耳的硅胶泥顺着一个方向卷一卷,就可以轻松地取下。

对于我这种油耳来说,睡一整晚也不会出现脱落,或者满床找的情况。我觉得一方面是送入耳道后再按压塑形的方式,能够让耳塞更贴合,也就不会滑落,所以油耳用户也可以放心使用。

根据产品的使用说明,使用一段时间后还可以清洗后继续使用,虽然我没有这么尝试,这个价格还是可以做到周抛,保持更换频率,避免感染。

当然,这个产品也不是一点缺点都没有。一方面是有些人对这类材质容易过敏,另一方面得益于密封性更好,耳道长时间处于封闭状态,很容易出现一些不适或者感染,所以可以减少这类产品的依赖性,以及保持产品的更新频率,避免一个耳塞重复使用多次。


如果你也想分享「新玩意」🔉:

  • 获取 Matrix 社区写作权限并签署 Matrix 共创计划
  • 在少数派独家发布一篇文章,在标题中标注「新玩意」前缀;
  • 用至少 800 字介绍产品,并配上 2-3 张产品的实拍图片;
  • 在网站个人信息中补充支付宝账号。

成功入选本栏目还可以得到 108 元的「剁手红包」🧧。如果你有兴趣参与,就赶紧来稿吧!

> 下载少数派 客户端、关注 少数派公众号,了解更多的新玩意 🆒

> 特惠、好用的硬件产品,尽在 少数派 sspai 官方店铺🛒

    App Store 下载地址

    https://apps.apple.com/app/id6758535659

    App 想法和介绍

    很多时候,一个人面临一些特定的场景,会有很多吐槽。

    但是发表可能会引起对方不满甚至反击,不发表又有点内耗。

    这个 App ,就是允许用户在本地发表自己的看法。然后一键“烧”了。

    我不觉得这是精神胜利法或者怎么样,只是人很多时候还是需要一个压力释放的地方。

    至少我自己觉得能解决不少问题。

    应用是免费下载,内购解锁,定价是 0.99 美金的买断制。差别就是一天烧三次还是每天无限次数使用♾️。

    App 的 AI 成分

    是前几天用 Codex 做了四天做的。

    接下来的计划

    约了一个画师制作篝火的全新设计和对应动画,但是要等到三月份才能见了。

    内购限免时间

    2026/01/10 - 2026/01/18 ,在这里祝大家新春快乐,这个就当作是新春礼物了🧨

    本文介绍了 WebAssembly 及其关键标准 WASI 1.0 在 2026 年的普及前景。随着 WASI 0.3.0 的发布,WebAssembly 将在更多场景(如边缘设备、无服务器环境等)替代传统容器。WebAssembly 已经走出浏览器,凭借组件模型、接口类型等新规范,降低了开发门槛,提升了互操作性和安全性。WASI 的标准化进程虽漫长,但每一步都推动了 WebAssembly 的广泛应用,未来将实现高性能、可组合并发和零拷贝流式处理等关键特性,进一步加速 WebAssembly 的落地和普及。

     

    本文最初发表于The New Stack网站,由 InfoQ 中文站翻译分享。

     

    WebAssembly在 Wasm 3.0 和组件模型(Component Model)发布后取得了巨大进展。然而,通往 WebAssembly 真正成熟落地的“最后一公里”,预计将随着WASI 0.3.0在 2026 年(很可能在 2 月份)的正式发布而完成。

     

    这一标准化工作的最终阶段将使 WebAssembly 能够在越来越多的场景中替代传统容器,因为无论是否运行在Kubernetes中,容器本身并不适合某些应用场景。这些场景包括:边缘设备、异步与事件驱动架构、无服务器(serverless)环境,以及需要通过单次发布同时部署到大量(甚至无限数量)终端节点的场景。

    远超浏览器环境的 WebAssembly

    事实上,WebAssembly 早已走出浏览器。在 2025 年KubeCon + CloudNativeCon北美大会期间,微软 Azure Core Upstream 的首席产品经理Ralph SquillaceCNCF主办的WasmCon活动闭幕致辞中表示:“WebAssembly 几乎能够在所有环境可靠地运行于生产系统中,包括浏览器、服务器、CDN 和后端服务,这充分证明了其成熟度和广泛适用性。”

     

    Squillace 指出,尽管 WebAssembly 核心有意设计为层级较低且难以直接使用,但近期的规范化工作已支持更高层次的抽象。引用类型(Reference Types)和 接口类型(Interface Types)使得组件能够暴露有意义的 API,而开发者无需深入理解 WASM 内部的机制,从而大幅降低了使用门槛。

     

    对于那些特别关注组件的人来说,Squillace 表示,Bytecode Alliance对工程师免费开放。该联盟的重点在于支持工程师和开源开发,而非营销,并提供了包括文档在内的各种资源,使开发者能够从零开始使用 WebAssembly 组件。

     

    Squillace 还指出,这些选择并非相互排斥的。WebAssembly 及其组件模型的目的并非取代编程语言、模块或容器,而是致力于实现互操作性、安全性,并拓展软件在不同语言和环境之间所能实现的功能。

     

    WebAssembly 并不是完美无缺的,但 Squillace 表示,这并非重点。真正重要的是它所赋能的能力。这是一个由自愿参与者共同构建的激动人心的领域,正因如此,他说道,这次“结束”实际上是一次“开启”。

    核心规范

    尽管 WebAssembly 核心有意设计为层级较低且难以直接使用,但近期的规范工作已支持更高层次的抽象。Squillace 指出,引用类型(reference types)和接口类型(interface types)使得组件能够暴露有意义的 API,而开发者无需深入了解 WebAssembly 的内部机制。

     

    Squillace 表示,“在核心层面开展的规范工作……正是让组件模型能够传递复杂的结构、从而形成合理 API 的关键所在”。

     

    目前,基于 Wasm 的解决方案尚不能作为容器的即插即用替代方案,但它已经在越来越多的场景中得到了应用,这些场景充分利用了 WebAssembly 的优势。“即便组件模型仍处于早期阶段,但它依然是采用 Wasm 的一个强有力的理由”。Endor的首席执行官兼联合创始人Daniel Lopez告诉我,“WebAssembly 已经被广泛应用于众多无服务器和边缘计算场景中。许多用户(很可能绝大多数)甚至并未意识到它正在幕后运行,尤其是在 SaaS 和无服务器服务中。Wasm 已经支撑了大量应用和场景。随着开发者和行业参与者的广泛支持,进一步的标准化只会加速这一采用进程。”

     

    Wasm 3.0 并未包含组件模型的最终定稿。尽管 Endor 项目已非常接近,但像 Docker 那样“魔法时刻”(即几乎任何应用都能被打包进一个 Wasm 模块,并可随意部署、传输并在任意地方运行)仍未完全实现。

     

    标准化完成之后,应用程序将能以任意语言编写,并通过 Wasm 模块分发,同时(甚至异步地)部署到任意终端节点。组件模型最终定稿后,WebAssembly 就能将其应用场景从网页浏览器和服务器进一步拓展。用户将能够在成千上万个终端节点上,以极高速度同时运行多个轻量级模块中的不同应用。

     

    在 2025 年北美 KubeCon + CloudNativeCon 大会期间,由 CNCF 主办的 WasmCon 开幕致辞中,Cosmonic 公司首席技术官Bailey Hayes阐述了 WebAssembly 的核心优势:近乎为零的冷启动延迟、高工作负载密度,以及即使在资源受限环境中也能高效运行的轻量级、可移植运行时。展望未来,Hayes 将即将发布的 WASI 0.3.0 视为一个重要里程碑。他表示,该版本预览了多项定义下一代 WebAssembly 计算浪潮的关键特性,包括,与语言深度集成的并发能力(并提供针对不同语言的惯用绑定)、跨语言组件的可组合并发,以及通过底层 I/O 和零拷贝数据处理实现的高性能流式传输。

    下一波浪潮的关键特性

    Hayes 表示,“我想重点强调三项让我最为期待的下一代计算关键特性:语言集成的并发、跨语言组件的可组合并发,以及支持底层 I/O 与零拷贝的高性能流式处理。”

     

    这一切在很大程度上要取决于组件模型的最终确定,尤其是其与 WASI 的关系,WASI 是连接 WebAssembly 模块与组件的标准接口或 API。它将支持构建所谓的 WebAssembly “世界”,即由一组由兼容的 Wasm 组件所构成的互连基础设施,其功能类似于 Kubernetes,但无需依赖容器。2024 年发布的 WASI Preview 2 在标准化方面取得了重大进展,但我们尚未抵达终点。2025 年或许仍无法实现“圣杯(Holy Grail)”目标,但可能会带来一些令人欣喜的突破。有传言称,WASI 0.3.0 可能无法在今年最终定稿,或将推迟其发布,进而延缓可用组件模型的落地。

     

    Lopez 表示,“WASI 的标准化过程很漫长,但每一次新的预览版发布都让我们离 0.3.0 更近一步,鉴于该标准的广泛影响和基础性地位,哪怕耗时超出预期,也必须确保其尽可能完善。”

     

    原文链接:

    https://thenewstack.io/wasi-1-0-you-wont-know-when-webassembly-is-everywhere-in-202

    具身智能蓬勃发展的当下,具有泛化性的具身能力至关重要。为了追求这个终极目标,业界发展出了两条技术路线。一条路线从机器人末端动作输出入手,发展出可以直接操作物理世界的 VLA 模型。但是 VLA 模型由于其数据稀缺性无法实现泛化。因此有了第二条路线,从本身拥有泛化能力的 VLM 入手,加速 VLM 从数字世界迈向物理世界。我们将在此路线上探索的模型称之为具身基础模型。

    诚然,已经有一些研究开始了对具身基础模型的初步探索。例如,RoboBrain 系列模型在单个视觉语言模型中统一了理解、定位和规划,以促进复杂的具身任务。Robix 模型为任务执行期间更自然的人机交互做出了贡献。 然而,这些当前的具身基础模型动态认知受限,且普遍存在物理幻觉,难以适应人形机器人上的复杂任务。

    主页:https://alibaba-damo-academy.github.io/RynnBrain.github.io/

    简介

    我们提出了 RynnBrain,首个可移动操作的具身基础模型。其具有以下三个关键要点:

    (1)时空记忆:RynnBrain 能够在其完整的历史记忆中定位物体、目标区域,甚至预测运动轨迹,从而赋予机器人全局时空回溯能力。

    (2)物理空间推理:不同于传统的纯文本推理范式,RynnBrain 采用文本与空间定位交错进行的推理策略,确保其推理过程紧密扎根于物理环境。大大减弱了具身任务中的幻觉问题。

    (3)良好的可拓展性:我们在 RynnBrain 基础模型上微调了视觉语言导航和精准操作规划模型,效果轻松实现 SOTA。

    通过完备的实验,RynnBrain 在 16 项具身任务 Benchmark 上全面超越了 Cosmos Reason 2 和 Gemini Robotics ER 1.5 等强大模型实现了 SOTA,并且在 8 项域外 Benchmark 上验证了超越其他具身基础模型的通用泛化性。特别的,我们开源了业界首个 MOE 具身基础模型 RynnBrain-30B-A3B,其只需要 3B 的推理激活参数就全面超越了当前规模最大的具身基础模型 Palican-VL-72B。使用我们的 MOE 模型可以让机器人在保持最强大感知和规划能力的基础上拥有更加快速的动作响应和更加丝滑的行为模式。

    为推动领域发展,我们同步开源:

    ✅ 全系列模型(含全尺寸基础模型与后训练专有模型)

    ✅ 全新评测基准 RynnBrain-Bench(评测时空细粒度具身任务)

    ✅ 完整的推理与训练代码

    RynnBrain 首次实现了“大脑”对物理世界的深度理解与可靠规划,为大小脑分层架构下的通用具身智能迈出关键一步。我们期待它加速 AI 从数字世界走向真实物理场景的落地进程。

    RynnBrain 模型体系架构

    (1)模型结构

    RynnBrain 在 Qwen3-VL 基础上进行训练。 使用自研的 RynnScale 架构对 Dense 模型和 MOE 模型均进行了训练速度的优化,使得在同等资源下训练加速两倍。在输入端 RynnBrain 可以接受任意分辨率的图片、多图和视频输入,满足用户任意形式的视觉输入的需求。同时 RynnBrain 可以输出区域、轨迹、点集、夹爪位姿、文本等多种具身相关模态,从而支持多样化具身任务的执行。

    (2)训练优化

    RynnBrain 是一款面向高泛化的具身基础模型,使用视频、图像和文本等多模态数据进行训练,覆盖从定位、空间感知等短任务到长篇多模态描述与复杂推理等多种场景。由于样本序列长度差异大且呈长尾分布,直接在数据并行训练中平均分配样本会引发“拖尾效应”,影响整体吞吐。

    为此,我们引入在线负载均衡:训练时根据图像大小与文本 token 数预估序列长度,将同一 DP 组内样本统一重分配,使每个 worker 的累计序列长度尽量均衡,并用优先分配长序列的贪心策略在数据预取阶段快速完成,避免训练卡顿且无需额外数据预处理。

    同时,由于重分配会造成各 worker 样本数不均,我们采用按样本的损失归约方式,保证训练前后损失一致性与收敛稳定,并显著提升训练效率。

    在工程实现上,我们结合 ZeRO、梯度检查点、输出 token 过滤等技术降低显存占用;在更大规模模型中引入 ZeRO-2 与专家并行(EP),并通过优化 MoE 计算与跨卡分发提升吞吐。训练与推理框架基 HuggingFace Transformers,并已开源。

    根植于物理世界的时空预训练

    要制造出一种能够与周围环境进行自然互动的通用型机器人,需要具备两项基本能力:一、时空记忆:通过历史视觉记忆,机器人必须建立涵盖空间、位置、事件、轨迹等多维度的表征,从而能够适应复杂多变的环境。二、忠实于物理世界:所有机器人的认知过程都必须从根本上扎根于物理世界的客观现实之中。本章主要介绍了 RynnBrain 的预训练,该方法正是基于上述两点见解而制定的。

    (1)训练策略

    为赋予 RynnBrain 以上所述的时空记忆与物理世界落地能力,我们设计了一个统一的预训练框架,将多模态输入整合到共享的语义空间中。我们的训练方案聚焦于两大核心支柱:统一的输入输出表示,以及物理感知的优化策略。

    • 统一的时空表示

    为培养时空记忆,我们将图像与视频视为统一的输入模态。这样,RynnBrain 能够在视频序列中学习时间因果关系与轨迹动态,这对于理解运动与事件至关重要。

    • 根植于物理世界的输出空间

    为实现物理世界,我们对输出空间进行严格形式化,以连接高层认知与低层执行。不同于标准视觉语言模型将数字作为自由文本处理,我们引入离散的坐标 token 来表示物理位置。我们将所有空间坐标归一化到固定区间,并用整数 token 表示。这种量化将连续的物理控制转化为离散的分类问题,使模型能够使用与语言生成相同的自回归机制输出精确位置(例如抓取点或导航目标)。

    (2)数据准备

    我们为 RynnBrain 的预训练准备了两千万的数据对,具体数据细节如下:

    • 通用多模态训练数据

    我们复用了团队自研的 Video-Llama 3 视频大模型的训练数据,并融合了 LLaVA-OV-SI、LLaVA-Video 等多个开源视频问答数据。

    • 具身认知数据

    物体认知、空间认知和计数相关数据复用了团队自研的 RynnEC 模型训练数据,并且引入了 Sensenova-SI、VSI-590k、Molmo2 等提高模型的空间理解和动态计数能力。此外,我们自己生成了 100 万对自我为中心的 OCR 问答数据,其中即有直接的 OCR 问题,也有需要识别视频中多个文字才能回答的情景问题。我们还收集了 EgoRe-5M、Egotaskqa 和 RoboVQA 等自我为中心的多样化问答数据以增强 RynnBrain 的自我为中心任务理解能力。

    • 具身定位数据

    RynnBrain 拥有 5 项具身定位能力,分别为:物体定位、区域定位、操作点定位、轨迹定位和夹爪位姿定位。我们为每项定位任务标注了大量额视频以及图像数据,使得 RynnBrain 在室内的定位能力上拥有突出的泛化性。我们还用 ADE20K、Grasp-Anything、PACO-LVIS 等开源数据平衡整体数据集。

    • 规划数据

    规划任务包含导航和操作两类。导航使用了 R2R 和 RxR 数据和 ScaleVLN 的开源数据。并且将数据格式变成了流式的格式。操作规划数据源来自 OpenX-Embodiment 和 AGIBot。首先,我们将这两个数据集中所有的规划数据都整合成时间段和子任务标注一对一匹配的格式。然后我们让人工标注出每个子任务规划中跟物体、区域和操作相关的名字。例如:“拿起香蕉放到桌子的左下角”,在这句话中与物体相关的词语是“香蕉”,与区域相关的词语是“桌子的左下角”,与操作相关的词语是“拿起”。然后人工再将这些词语和图像中的位置信息做对应,操作词语与图像中的操作点对应,物体词语与图像中物体的检测框对应,区域词语与图像中的区域点对应。最终得到文本和定位信息穿插的子任务标注数据。

    基于 RynnBrain 的后训练-让具身拓展无限可能

    (1)物理空间推理模型

    目前,大多数多模态推理模型采用纯文本推理范式。虽然一些方法通过工具使用(例如放大)来缓解视觉识别中的挑战,但这种推理范式存在泛化能力有限的问题,只能解决一小部分问题。此外,探索在推理过程中进行视觉想象的替代方法通常会受到生成图像中严重幻觉的困扰。

    鉴于具身大脑在现实世界中运行,进行物理空间推理的能力变得至关重要。因此,在 RynnBrain 中,我们提出了一种交错推理方法,该方法将实体化与文本信息直接结合在以自我为中心的视频流中。这种范式有效地弥合了语言与物理世界之间的认知鸿沟,确保推理过程牢固地扎根于现实之中。下面详细介绍了 RynnBrain 在物理空间推理领域的贡献和探索。

    我们设计了 5 类空间推理任务——计数、物体定位、操作点定位、区域定位和轨迹预测,来验证 RynnBrain 新提出的“文本-空间交织”推理范式。

    训练策略:

    我们采用组相对策略优化(GRPO)来使模型与物理空间推理任务对齐。不同于标准 PPO 需要价值函数来估计优势项,GRPO 通过对同一提示下生成的多个采样输出的组内得分来估计基线。这显著降低了显存占用与训练复杂度。

    训练从我们的冷启动模型初始化。我们使用 SGLang 推理引擎以高效生成 rollout,组大小设为 5。训练共进行 10 个 epoch,batch size 为 128。我们采用余弦学习率调度进行策略优化,并进行 3% 的 warmup。为保证稳定性,我们将截断范围设为[0.2, 0.28],KL 系数 0.02。最大序列长度设为 16,384 个 token,以适配长上下文的第一视角视频推理。

    数据构建采用“AI 生成+人工精标”策略:

    • 从自采第一人称视频中抽取样本;

    • 多模态大模型生成初步推理链,并用方括号标记关键实体(如“[白色花图案的墙纸]”);

    • 由大语言模型初步分类实体为“物体”或“区域”;

    • 人工标注员最终审核并精标:

    • 对“对象”标注边界框,

      对“区域”标注代表性点集,

      并选择最清晰的视频帧作为参考帧。

    所有定位结果以结构化格式: ...; (coordinates) 融入推理文本,实现语言与空间的对齐。

    其中,计数任务特别强调“先定位再计数”,共构建 7 万条高质量样本,显著提升模型在复杂场景下的时空感知能力。

    (2)视觉语言导航

    导航任务采用与当前 SOTA 模型 StreamVLN 相同的数据设置。首先使用 r2r rxr EnvDrop ScaleVLN 数据在 RynnBrain 基础模型上做第一阶段训练。然后利用这个第一阶段模型在 r2r rxr EnvDrop 环境中采集 Dagger 数据。具体而言,使用第一阶段模型在 r2r rxr EnvDrop 的模拟器环境中进行导航,如果发现导航路径偏离了正确路径,则使用最短路径算法得到一个从当前位置到目标点的最短路径。因此,Dagger 得到的导航数据可以有效纠正第一阶段模型的导航错误。使用 Dagger 数据我们可以进行第二阶段的训练得到最终的 RynnBrain-Nav 导航模型。

    (3)操作规划任务

    由于预训练语料库包含了以规划为中心的数据,基础模型本身就具备了固有的规划能力。然而,要将这种能力应用于复杂的、长周期的操作任务,模型需要保持有效的记忆。为此,我们利用了一个小型的自采集数据集,其格式为多轮对话,其中交互历史充当了明确的记忆缓冲区,以保存历史推理结果。这种结构使模型能够将单个规划步骤整合成一个连贯的长周期策略。至关重要的是,为了与这种顺序推理相匹配,我们仅在每个对话轮的最后一步应用 grounding 标注,确保当前决策既取决于即时观察,也取决于累积的记忆。通过实验证明,这种方法具有很高的数据效率:仅使用几百个样本进行微调就足以使模型具备强大的长周期规划能力和泛化能力。

    RynnBrain 亮眼的实战成绩单

    (1)基础模型能力全面

    鉴于当前开源 Benchmark 在具身时空细粒度任务上的缺失。我们推出了 RynnBrain 这一多维度基准测试工具,用于评估时空细粒度具身能力。 该测试涵盖了四个关键维度:物体认知、空间认知、物体定位以及具身点预测,旨在突出对记忆视频序列中细粒度的理解以及时空的定位能力。

    RynnBrain 测评了 20 项具身相关的认知与定位 Benchmark。在这些具身能力上,RynnBrain 全面领先 Mimo-Embodied 等最先进的具身大脑模型,在许多能力上甚至有 30%以上的涨幅。在具身领域之外的通用视觉理解方面,RynnBrain 很好的保持了 Qwen3-VL 的强大通用视觉能力,甚至在 AI2D、DocVQA 等 Benchmark 上超越了 Qwen3-VL。

    (2)后训练潜力巨大

    • 导航后训练

    我们使用当前的导航 SOTA 模型 StreamVLN 的训练数据微调 RynnBrain 模型。在没有进行任何架构改进的情况下 RynnBrain-Nav 比 StreamVLN 的导航成功率提高了 2%-3%。我们在 Qwen3-VL 基础模型上利用相同的数据训练后发现,RynnBrain 作为基础模型可以让微调出的导航模型能力提升 5%。这充分证明了在具身相关任务中,RynnBrain 的预训练作用巨大。

    • 操作规划后训练

    规划任务需要拥有强大的预测能力和场景解析力。只使用几百条数据微调之后 RynnBrain-Plan-30B(A3B)即可在域内和域外的任务上全面超越 Gemini 3 Pro。这充分体现了文本与定位交错的规划方式更加适用于多变复杂的物理世界。

    最近在做一个自动生成 Dockerfile 的工具,需要更多真实项目来测试和优化。

    我能帮你做什么:

    • 分析你的项目结构
    • 生成 production-ready 的 Dockerfile (多阶段构建、最佳实践)
    • 直接给你提 PR

    支持的技术栈:

    • Node.js (Express/Next.js/Nuxt)
    • Python (FastAPI/Django)
    • Go (Gin 等)
    • Java (Spring Boot)
    • Monorepo (pnpm/Turborepo)

    怎么参与:
    回复你的 GitHub 项目地址就行。

    要求:

    • 公开仓库
    • 目前没有 Dockerfile 或者现有的不太满意

    我有一个美区的账号,用于订阅 ChatGPT 、Gemini 之类的服务。

    一直是使用礼品卡进行充值,每次充值 200 刀,稳定了一年多了。

    前两天订阅了 Claude Code 的 Max ,所以就购买了 500 刀的礼品卡。

    可是,购买是成功了,却一直没到账,查看订单,发现被取消了。

    然后,再购买的时候就一直失败,提示:请核实您的信息后重试,或尝试其他支付方式。

    我通过 imessage 联系了 美区的在线客服,联系了两次,一次告诉我联系电话客服;一次告诉我必须要美区的信用卡。

    我迫于口语、听力都不行,英语沟通有点难。所以就没有联系电话客服。

    查询了一些资料,说可能是被锁了。

    请教一下,有没有朋友碰到过这种请款,有什么办法可以解决?

    很多企业的数字化转型,不是顺势而为,而是盲目跟风。

    别人上云计算,自己也上;
    别人用低代码,自己也用;

    别人部署物联网、分析大数据,自己也紧随其后。最后钱花了、人招了、系统上了,却发现:

    云计算成了“闲置的服务器”
    低代码成了“程序员的玩具”
    物联网成了“车间里的摆设”
    大数据成了“硬盘里的垃圾”

    我们总以为,引入变革性新技术,就能自动获得创新红利、实现转型突破。但真相是:新技术本身没有价值,让新技术适配业务、解决问题、驱动创新,才有价值。

    就像我之前说的,数字化不是赶时髦、做样子,而是理解真正的趋势和机遇,用技术重构业务逻辑。

    同样,低代码、云计算、物联网、大数据这些新技术,从来不是企业转型的终点,而是帮助企业创新、实现增长的工具。就像煤炭之于蒸汽机,石油之于内燃机,算力之于互联网,它们是新时代企业创新的“底层燃料”。

    今天,我们不聊晦涩的技术术语,不吹虚无的行业概念,只聚焦一个核心问题:如何让这些变革性新技术,真正为企业创新赋能、为转型铺路,让企业实实在在从中获益?

    核心逻辑只有一个:先转“认知”,再选“路径”,后做“落地”。认知不到位,路径再对也走偏;路径选不对,落地再用力也白费;落地不扎实,所有努力都归零。

    image.png

    第一步:认知跃迁:先搞懂为什么用,再决定用什么

    企业转型最大的障碍,从来不是技术,而是认知。

    很多企业之所以用不好新技术,核心是陷入了两个认知误区。

    第一个误区:把“技术”当“解决方案”。

    很多老板会说:“我们行业竞争太激烈,赶紧上大数据,分析用户需求;赶紧用低代码,快速开发应用;赶紧搞物联网,实现智能化生产。”

    这句话的问题在于,他混淆了“技术”和“解决方案”的区别。

    大数据不能直接解决“用户流失”的问题,它能解决的是“不知道用户为什么流失”的问题;

    低代码不能直接解决“业务效率低”的问题,它能解决的是“开发应用太慢、跟不上业务变化”的问题;

    物联网不能直接解决“产品质量差”的问题,它能解决的是“生产过程无法精准监控”的问题。

    因此,在商业世界的进化,本质是“能量”和“信息”的交替前进。新技术就是新时代的“能量”,但能量本身无法创造价值,只有用能量驱动“信息流转”,“业务优化”,才能产生价值。

    第二个误区:把“跟风”当“创新”。

    有些企业看到同行用低代码降低了开发成本,就盲目跟风上线低代码平台,却发现自己的业务根本不需要快速迭代应用;看到头部企业用云计算实现了异地协同,就跟风迁移上云,却发现自己的业务数据量小、无需异地办公,反而增加了运维成本。

    创新不是别人做什么,我就做什么,而是我需要什么,我就用什么。

    就像四川川环,作为一家上市企业,它没有盲目跟风所有新技术,而是聚焦“生产效率提升、产品质量优化”的核心需求,引入织信低代码平台,搭建了200个贴合生产、管理的应用,最终实现良品率提升、订单交付效率上升,这种实实在在的收益。关键在于它用对了技术,所以才收获了创新红利。

    所以,认知跃迁的关键,是跳出“技术崇拜”,回归“业务本质”:企业的核心需求是什么?当前的业务痛点在哪里?新技术能解决哪个具体问题?能带来什么可量化的价值?

    想清楚这四个问题,再去选择低代码、云计算、物联网、大数据中的某一个或某几个组合,才不是盲目跟风,而是理性布局。

    第二步:路径选择:不同企业,不同打法,拒绝一刀切

    低代码、云计算、物联网、大数据,不是全能工具,也不是“所有企业都适用”。数字化路径没有放之四海而皆准的方法,只有适合自己的路径。

    企业的规模、行业、业务模式不同,适合的新技术组合和转型路径,也完全不同。我们可以把企业分为三类,对应三种不同的打法。

    第一类:中小企业(核心需求:低成本、快落地、解痛点)

    中小企业的核心痛点是:资金有限、技术人才匮乏、业务流程灵活,不需要复杂的技术架构,只需要用最低的成本,解决最迫切的业务痛点。

    这类企业的最优路径:低代码+基础云计算,优先解决“效率”和“灵活”的问题。

    低代码的核心价值,是“降低开发门槛”。不需要专业的程序员,业务人员经过简单培训,就能通过“拖拉拽”搭建应用,快速满足业务需求。

    比如深圳的一家电子企业,此前被“生产数据采集难、工时结算繁琐”的痛点困扰,它没有投入巨资搭建复杂的IT系统,而是在织信Informat上用低代码搭建了一套工时结算流程,打通报工、材料、计件数据,实现精益生产,最终生产效率提高20%、运营成本降低20%。

    而基础云计算,就像“水电煤”一样,不需要企业自己搭建机房、购买服务器,按需付费、灵活扩容,既能降低IT运维成本,又能实现异地协同。对于中小企业来说,不用追求“高端云计算”,能满足数据存储、日常办公协同,就足够了。

    第二类:传统制造/实体企业(核心需求:智能化、降成本、提质量)

    传统制造、实体企业的核心痛点是:生产流程繁琐、人工成本高、质量管控难、设备运维滞后,转型的核心是“从传统生产向智能化生产升级”。

    这类企业的最优路径:物联网+大数据+云计算,聚焦“生产环节”的创新升级。

    物联网负责“采集数据”。在生产设备、产品、车间部署传感器,把线下的生产流程、设备运行状态、产品质量数据,实时采集到线上,让“看不见的生产过程”变得“看得见、可监控”;大数据负责“分析数据”。对采集到的生产数据、质量数据、设备数据进行分析,找到生产中的瓶颈、质量问题的根源、设备故障的预警点;云计算负责“存储和算力支撑”。承载海量的物联网数据,为大数据分析提供足够的算力,同时实现生产数据的异地共享、协同管理。

    还是以四川川环为例,它在智慧工厂建设中,不仅用了低代码,还部署了物联网设备,实现设备监测预警和一键抢修,最终工艺质量提升约70%,设备维护保养成本降低了80%。物联网+大数据+低代码的组合,让它实现了生产环节的智能化创新,真正从新技术中获益。

    第三类:互联网/科技型企业(核心需求:高并发、快迭代、创新突破)

    互联网、科技型企业的核心痛点是:用户增长快、业务迭代快、数据量庞大,需要强大的技术支撑,实现产品创新和服务升级。

    这类企业的最优路径:云计算+大数据+低代码,聚焦“产品和服务”的创新迭代。

    云计算提供“弹性算力”。业务高峰期扩容、低谷期缩容,满足高并发需求,降低IT成本;大数据负责“用户洞察”。分析用户行为、需求偏好,为产品创新、精准营销提供支撑;低代码负责“快速迭代”。快速开发、测试、上线新功能,快速响应市场变化和用户需求,抢占市场先机。

    比如云计算板块的头部企业,无论是中国移动、工业富联这样的巨头,还是金山办公、深信服这样的细分龙头,本质上都是用云计算作为底层支撑,结合大数据、低代码等技术,不断优化产品和服务,才能在激烈的市场竞争中保持优势。它们的核心逻辑,是用新技术驱动产品创新,用产品创新抢占市场份额。

    总结一下:

    路径选择的核心,是贴合自身需求。中小企业先解决“效率和成本”,传统企业先解决“生产和质量”,互联网企业先解决“迭代和增长”,不盲目追求“大而全”,只追求“精而准”。

    第三步:落地执行:把技术变成价值,关键在三个闭环

    认知到位了,路径选对了,接下来最关键的,就是落地执行。很多企业之所以转型失败,不是因为认知和路径错了,而是因为落地时“虎头蛇尾”。系统上线了,就以为转型完成了;数据采集了,就以为能产生价值了。

    我曾多次强调,数字化不是“一次性工程”,而是“持续迭代的过程”。新技术的落地,同样不是“一劳永逸”,而是需要形成“三个闭环”,让技术持续为业务赋能、为创新供血。

    第一个闭环:业务闭环,让技术嵌入业务,而不是独立于业务。

    很多企业的新技术落地,之所以会失败,核心是“技术和业务脱节”:IT部门负责上系统、用技术,业务部门负责做业务,两者各干各的,IT部门不知道业务需求,业务部门不用、不会用新技术。

    真正的落地,是让技术“嵌入”到业务的每一个环节,成为业务人员的“工具”,而不是“负担”。比如伟华科技,用低代码搭建的工时结算流程,不是IT部门强行推广的,而是贴合生产人员、财务人员的日常工作流程,让他们用起来更方便、更高效。这样,业务人员才会主动使用,新技术才能真正发挥作用。

    怎么做?成立“业务+IT”的联合小组,由业务人员提出需求,IT人员用新技术解决需求,落地后收集业务人员的反馈,持续优化调整。让技术服务于业务,让业务驱动技术迭代,形成“需求-落地-反馈-优化”的业务闭环。

    第二个闭环:数据闭环,让数据产生价值,而不是闲置沉淀。

    物联网采集的数据、业务产生的数据、用户留下的数据,不是“越多越好”,而是“越有用越好”。很多企业采集了大量数据,却不分析、不应用,最后只能闲置在硬盘里,变成“数据垃圾”。

    数据的价值,在于“分析和应用”。用大数据分析业务痛点、用户需求、市场趋势,用分析结果指导业务决策、产品创新、流程优化。比如普天铁心,通过采集生产设备的数据,分析设备运行状态,实现设备预警和一键抢修,降低维护成本;通过分析生产流程数据,优化生产工艺,提升产品质量。这就是“数据闭环”:采集数据→分析数据→应用数据→优化业务→产生新数据,循环往复,让数据持续创造价值。

    第三个闭环:组织闭环,让组织适配技术,而不是阻碍技术。

    新技术的落地,必然会带来组织架构、工作流程、岗位职责的变化。如果组织不调整、人员不适应,再好的技术,也无法落地。

    就像普天铁心副总经理吴娓娓说的,未来的生产工人,是需要懂数字化、会用自动化设备的数字时代新工人,要基于未来数字化工厂的发展,实现管理升级调整,推动管理组织、管理过程与信息化融合发展。

    组织闭环的核心,是“适配”:一是调整组织架构,成立专门的数字化转型小组,统筹技术落地和业务优化;二是培养专业人才,要么培训现有员工,让他们掌握新技术的使用方法,要么引进专业人才,弥补技术短板;三是建立激励机制,鼓励业务人员主动使用新技术、提出创新需求,让“转型创新”成为全员共识。

    这三个闭环,缺一不可:业务闭环是核心,确保技术不脱节;数据闭环是关键,确保技术能创造价值;组织闭环是保障,确保技术能持续落地。

    最后:转型的本质,是用技术重构业务,而不是用技术替代业务

    聊到这里,我们再回到最初的问题:如何帮助企业的创新从低代码、云计算、物联网、大数据这些变革性新技术中获益或转型?

    其实答案很简单:不要把新技术当成“转型的目标”,而要把它当成“转型的工具”;不要追求“技术的先进”,而要追求“业务的优化”;不要指望“一蹴而就”,而要坚持“持续迭代”。

    商业世界的每一次变革,本质上都是“能量”和“信息”的升级,而每一次升级,都会淘汰一批“固守传统”的企业,成就一批“拥抱变化”的企业。

    今天,低代码、云计算、物联网、大数据,就是这个时代最核心的“能量”。它们不是“高大上”的概念,也不是“大企业的专属”,而是每一家企业都能利用的“创新工具”。

    四川川环、伟华科技这些企业,用“平台+低代码”“物联网+大数据”的模式,实现了低成本转型、高效率创新,告诉我们:只要认知到位、路径正确、落地扎实,无论企业规模大小,都能从新技术中获益。

    而云计算板块的头部企业,用技术驱动产品创新、用创新抢占市场,告诉我们:新技术的价值,从来不是拥有,而是应用。应用得越好,创新能力越强,企业的竞争力就越强。

    真正的企业转型,从来不是“换一套系统、上一个平台”,而是“用新技术重构业务逻辑、优化工作流程、驱动产品创新”;真正的创新获益,从来不是靠技术投机,而是靠技术落地。

    未来,没有“数字化企业”和“非数字化企业”的区别,只有“会用新技术创新”和“不会用新技术创新”的区别。愿每一家企业,都能跳出技术崇拜,回归业务本质,用对新技术、做好落地执行,让创新从“口号”变成“现实”,让转型从“焦虑”变成“红利”。

    本文最初发布于 Andy Pavlo 的个人博客。

     

    又一年过去了。我本希望能多写几篇文章,而不仅仅是年终的长篇大论,但我在春季学期差点丧命,那占用了我所有的时间。尽管如此,我还是会回顾一下过去一年中数据库领域我认为重要的趋势和事件。

     

    数据库领域有许多激动人心且前所未有的发展。氛围编程(Vibe Coding)成了日常用语。Wu-Tang Clan 宣布启动时间胶囊项目。Databricks 未选择上市,而是进行了两轮巨额融资,而不是只进行一轮大规模融资。

     

    与此同时,其他事件也都在预料之中,不那么令人惊讶。Redis 公司在“抽走地毯(rugpull)”一年后换回了他们的许可(我去年就预测到了这一点)。SurrealDB因为没有将写入的数据刷写到磁盘而丢失了数据,但他们的基准测试数据却非常好。Coldplay 可以破坏婚姻。不过 Astronomer 倒是从最后这件事里尝到了不少甜头

     

    在开始之前,我想先回答我每年都会在评论中看到的问题。人们总是问我,在我的分析中,为什么没有提到特定的系统数据库公司。我只能写这么多,除非过去一年中发生了一些有趣或值得注意的事情,要不就没有什么可讨论的。但也并不是所有值得注意的数据库事件,我都适合发表意见。例如,最近有人试图揭露AvgDatabase首席执行官的真实身份,我认为是可以接受的,但MongoDB自杀诉讼案则不属于此类。

     

    好了,我们开始吧。这些文章每年都在变长,所以我给读者朋友们提前道个歉。

     

    之前的文章:

     

     

    PostgreSQL 延续了其统治地位

    早在 2021 年,我就写到,PostgreSQL 正在吞噬数据库世界。这一趋势还在持续,因为数据库领域里最有趣的发展还是与 PostgreSQL 有关。该 DBMS 在 2025 年 11 月发布了最新版本(v18),其中最突出的功能是新增的异步I/O存储子系统,它使 PostgreSQL 终于摆脱了对操作系统页面缓存的依赖。它还增加了对跳过扫描的支持;即使缺少前缀,查询仍然可以使用多键 B+树索引。查询优化器也做了一些改进(如移除多余的自连接)。

     

    精通数据库的行家们会立刻指出,这些功能并不是什么突破性的创新,其他 DBMS 多年前就已经有这些功能了。PostgreSQL 是唯一仍然依赖操作系统页面缓存的主流 DBMS。Oracle自2002年(v9i)以来就支持跳过扫描了!因此,你可能会问,为什么我说 2025 年数据库领域里最热门的事情是与 PostgreSQL 有关的?

     

    原因在于,数据库领域的大部分精力和活动都投入到了与 PostgreSQL 相关的公司、产品、项目及其衍生系统上。

     

    收购+发布

    在过去的一年里,最热门的数据初创公司(Databricks)为一家 PostgreSQL DBaaS 公司(Neon支付了 10 亿美元。接下来,世界上最大的数据库公司之一(Snowflake)为另一家 PostgreSQL DBaaS 公司(CrunchyData支付了 2.5 亿美元。然后,地球上最大的科技公司之一(微软)推出了一个新的 PostgreSQL DBaaS(HorizonDB)。Neon 和 HorizonDB 沿袭了 Amazon Aurora 在 2010 年代初的高级架构,采用单主节点模式分离计算与存储功能。目前,Snowflake 的 PostgreSQL 数据库即服务(DBaaS)使用了和标准 PostgreSQL 相同的核心架构,它们均基于Crunchy Bridge构建。

     

    分布式 PostgreSQL

    我上面列出的所有服务都是单主节点架构。也就是说,应用程序将写入发送到主节点,然后主节点将这些更改发送到从副本。但在 2025 年,有两个新项目宣布要为 PostgreSQL 创建扩展(即水平分区)服务。2025 年 6 月,Supabase 宣布聘请Sugu——Vitess 的共同创建者和前 PlanetScale 联合创始人/CTO——来领导Multigres项目,为 PostgreSQL 创建分片中间件,类似于 Vitess 对 MySQL 进行分片的机制。Sugu 在 2023 年离开 PlanetScale,迫不得已休息了两年。如今,他或许已经摆脱了所有的法律纠纷,可以在 Supabase 大展身手了。你知道,一位数据库工程师加入一家公司不是个小事,因此公告更多地关注个人而不是系统。SingleStore联合创始人兼CTO在 2024 年加入了微软,领导HorizonDB项目,但微软(错误地)没有大力宣传。Sugu 加盟 Supabase 的震撼程度,堪比Ol' Dirty Bastard(RIP)服刑两年后假释出狱,次日便宣布签下新唱片合约

     

    在关于 Multigres 的新闻发布一个月后,PlanetScale宣布了自己的 Vitess-for-PostgreSQL 项目Neki。2025 年 3 月,PlanetScale 推出了其PostgreSQL DBaaS的初始版本,但核心架构仍然是单节点的老搭配PostgreSQL和pgBouncer

     

    2026 年 1 月 5 日更新:有人发邮件提醒我,PgDog也是一个寻求支持 PostgreSQL 水平分片的开源中间件系统。在心理上,我将 PgDog 和连接池代理(PgBouncer)归为了一类,但实际上它是 Multigres 和 Neki 的竞争对手。

     

    商业格局

    随着微软在 2025 年推出 HorizonDB,所有主要的云供应商现在都有自己的 PostgreSQL 产品项目了。亚马逊自 2017 年起提供了Aurora PostgreSQL。谷歌在 2022 年推出了AlloyDB。ServiceNow 在 2024 年推出了RaptorDB服务,其基础是他们 2021 年收购的 Swarm64。即使是 IBM 自 2018 年起也有了云版本的PostgreSQL。甲骨文在 2023 年发布了其PostgreSQL服务,尽管有传言说,其内部 PostgreSQL 团队在 2025 年 9 月的MySQL OCI裁员中受到了附带伤害。

     

    目前仍然有一些独立的(ISV)PostgreSQL DBaaS 公司。按实例数来说,Supabase可能是这些公司中最大的。其他公司包括:YugabyteDBTigerData(之前的 Timescale)、PlanetScaleXataPgEdgeNile。Xata 原本基于Amazon Aurora构建了其架构,但今年,他们宣布切换到自己的基础设施ParadeDB尚未宣布其托管服务。Tembo则在 2025 年放弃了其托管PostgreSQL产品,转而开发一种可以完成部分数据库优化的编码代理。HydraPostgresML已于 2025 年倒闭(见倒闭一节),所以他们退出了游戏。其他系统提供了一个兼容 Postgres 的前端,但后端系统并非源自 PostgreSQL(如CockroachDBCedarDBGoogle Spanner)。还有一些托管公司提供 PostgreSQL DBaaS 以及其他系统,如AivenTessel

     

    Andy 的观点

    在 Databricks 和 Snowflake 收购 PostgreSQL 公司之后,不知道下一个大买家会是谁。而且,每家主要的技术公司都已经拥有了 Postgres 产品。EnterpriseDB 是最古老的 PostgreSQL ISV,但在过去的五年中,他们错过了两次最重要的 PostgreSQL 收购。但他们可以暂时依靠贝恩资本,或者寄希望于惠普收购他们,尽管那个合作伙伴关系是八年前的。PostgreSQL 领域的并购格局令人联想到 2000 年代末期的 OLAP 收购浪潮:当AsterDataGreenplumDATAllegro相继被收购后,Vertica成了最后一个在公交站等车的玩家。

     

    好消息是竞争性的分布式 PostgreSQL 项目已经发展到了三个(MultigresNekiPgDog)。并非第一次有人尝试这样做:用于 OLAP 工作负载的GreenplumParAccelCitus已经存在了二十年。Citus 支持 OLTP 工作负载,但他们从 2010 年开始专注于分析领域。对于 OLTP,15 年前,NTT RiTaDB 项目与GridSQL合作创建了Postgres-XC。Postgres-XC 的开发人员创建了StormDB,后来Translattice在 2013 年收购了它。Postgres-X2是一次对 XC 进行现代化改造的尝试,但开发人员放弃了这项工作。Translattice 将 StormDB 开源为Postgres-XL,但该项目自 2018 年以来一直处于休眠状态。YugabyteDB2016年推出,可能是部署最广泛的分片 PostgreSQL 系统(并且仍然是开源的!),但它是一个硬分叉,只与PostgreSQL v15兼容。亚马逊云科技在 2024 年宣布了自己的分片 PostgreSQL(Aurora Limitless),但是闭源的。

     

    我知道微软在 2019 年收购了 Citus,但由于他们总给自己的产品起一些令人困惑的名称,所以很难追踪他们在推出 HorizonDB 之前做了什么。Citus 在 2019 年被重新命名为Azure Database for PostgreSQL Hyperscale,然后在 2022 年被更名为Azure Cosmos DB for PostgreSQL。但他们还有使用 Citus 的 Azure Database for PostgreSQL with Elastic Clusters,而该服务与以 Citus 为基础的 Azure Cosmos DB for PostgreSQL 并不相同。2023 年,微软终止了Azure PostgreSQL Single Server服务,但保留了 Azure PostgreSQL Flexible Server。他们有各种各样的 Azure 服务。这有点像亚马逊云科技忍不住在DSQL的名字前加上 "Aurora"。无论如何,至少微软足够明智,将他们的新系统命名为 "Azure HorizonDB"(目前)。

     

    PlanetScale 团队对他们的对手没有好感,并且已知会对NeonTimescale大打出手。数据库公司之间互相攻击并不新鲜(见Yugabyte vs. CockroachDBDatabricks vs. Snowflake)。我怀疑,随着 PostgreSQL 战争的升温,未来我们将看到更多这样的情况。我建议这些小公司呼吁下,让那些大型的云供应商相互之间不要提及对方的名字

     

    每个数据库都开始支持 MCP!

    如果说 2023 年是所有数据库管理系统(DBMS)纷纷添加向量索引的一年,那么 2025 年就是所有 DBMS 都开始支持 Anthropic 公司模型上下文协议(MCP)的一年。MCP 是一种标准的客户端-服务器 JSON-RPC 接口,使大型语言模型(LLM)能够与外部工具和数据源交互,而无需自己编写粘合代码。作为中间件,MCP 服务器位于数据库管理系统前面,暴露 DBMS 提供的工具、数据及操作清单。MCP 客户端(如 Claude 或 ChatGPT 等 LLM 宿主)通过向 MCP 服务器发送请求来发现并使用这些工具,扩展其模型能力。对于数据库场景,MCP 服务器会将查询转换为对应的数据库指令(如 SQL)或管理命令。换言之,MCP 如同一个中间人,使数据库与 LLM 之间可以建立起足够的信任以开展协作。

     

    Anthropic 公司在 2024 年 11 月发布了 MCP,但在 2025 年 3 月 OpenAI 宣布将在其生态系统中支持MCP后,它才真正起飞。在接下来的几个月里,所有数据库管理系统(DBMS)供应商都发布了适用于所有系统类别的 MCP 服务器:OLAP(如ClickHouseSnowflakeFireboltYellowbrick)、SQL(如YugabyteDBOraclePlanetScale)和 NoSQL(如MongoDBNeo4jRedis)。由于 Postgres MCP 服务器没有官方的,所以每个 Postgres DBaaS 都发布了自己的服务器(如TimescaleSupabaseXata)。云供应商则发布了多数据库 MCP 服务器,可以与他们托管的任何数据库服务进行通信(如亚马逊云科技微软谷歌)。允许单一网关与异构数据库通信,几乎已经实现了理想中的联合数据库,但还不完全。据我所知,在这些 MCP 服务器中,每个请求每次仅针对单个数据库,因此需要应用程序负责执行跨源连接操作。

     

    除了供应商的官方 MCP 实现方案外,几乎每种数据库管理系统(DBMS)都存在数百种非官方的 MCP 服务器实现方案。其中部分方案试图支持多个系统(如DBHubDB MCP Server)。关于 PostgreSQL MCP 服务器,DBHub 曾发布过一篇不错的综述

     

    有一个有趣而又已经证明对代理有帮助的特性是数据库分支。虽然不特定于 MCP 服务器,但分支允许代理快速测试数据库更改,而不影响生产应用程序。2025 年 7 月,Neon 报告说,代理创建了80%的数据库。Neon 从一开始设计就支持分支(早先在这个系统还叫Zenith时,Nikita 就向我做过演示),而其他系统则是后来才添加了分支支持。要了解更多信息,可以看下 Xata 最近发表的一篇关于数据库分支的对比文章

     

    Andy 的观点

    一方面,我很高兴现在有一个标准,可以用来向更多的应用程序暴露数据库的功能。但没有人应该信任一个拥有无限数据库访问权限的应用程序,无论是通过 MCP 还是系统的常规 API。而且,只授予账户最小权限仍然是一个好习惯,特别是在未监控的代理可能在你的数据库中疯狂操作时,对账户做限制显得尤为重要。这意味着,当大型语言模型开始大范围流行时,为每个账户授予管理员权限或所有服务使用同一个账户,诸如这样的懒散做法将彻底行不通。当然,如果你们公司不介意把数据库向全世界开放,并导致某家最富有的公司市值暴跌6000亿美元,那么恶意 MCP 请求就不是你最需要担心的问题了。

     

    从我对一些 MCP 服务器实现的粗略检查来看,它们是简单的代理,只是负责将 MCP JSON 请求转换为数据库查询,并没有通过深入的自省来理解请求的目的以及它是否合适。有人会尝试在你的应用程序中订购18000个水杯,你需要确保它不会导致数据库崩溃。有些 MCP 服务器有基本的保护机制(如 ClickHouse 只允许只读查询)。DBHub 提供了一些额外的保护,如限制每个请求返回的记录数并实现了查询超时。Supabase 的文档提供了 MCP 代理的最佳实践指南,但也得人类遵循它们才行。当然,如果你依赖于人类做正确的事情,那么坏事就在所难免

     

    企业 DBMS 有着开源系统缺乏的自动化护栏和其他安全机制,对于智能代理生态系统,它们做了更好的准备,比如,IBM GuardiumOracle Database Firewall能够识别并阻止异常查询。我不是在为这些大型科技公司做宣传。我知道,未来我们将看到更多智能代理妨害生活的例子,比如意外删除数据库。将 MCP 服务器与代理(如连接池)结合是引入自动化保护机制的绝佳机会。

     

    MongoDB 起诉 FerretDB

    到现在,MongoDB 作为 NoSQL 领域的中坚已经有二十年了。2021 年,Percona 高层启动了 FerretDB 项目,旨在提供一款中间件代理,将 MongoDB 查询转换为适配 PostgreSQL 后端的 SQL。有了这个代理,不用重写查询就可以将 MongoDB 应用程序无缝地迁移至 PostgreSQL。

     

    双方共存数年后,MongoDB 于 2023 年向 FerretDB 发出停止侵权通知书,指控 FerretDB 侵犯其专利权、著作权及商标权,并违反了 MongoDB 文档及有线协议规范的许可条款。2025 年 5 月,MongoDB 就这些问题向 FerretDB提起联邦诉讼,使这封信件公之于众。双方争议的焦点之一是,FerretDB 未经授权便宣称其产品可作为 MongoDB“即插即用的替代品”。MongoDB 的法庭文件列举了标准指控: (1) 误导开发人员;(2) 弱化商标价值;(3) 损害企业声誉。

     

    让这个故事变得更加复杂的是,微软宣布将与 MongoDB 兼容的DocumentDB捐赠给Linux基金会。该项目的网站提到,DocumentDB 与 MongoDB 驱动程序兼容,并且旨在“构建一个与MongoDB兼容的开源文档数据库”。还有其他主流的数据库供应商参与了该项目,如亚马逊云科技和 Yugabyte。粗看之下,这种语言似乎与 MongoDB 指控的 FerretDB 的行为如出一辙。

     

    Andy 的观点

    我没有找到数据库公司因对方复制其 API 而起诉对方的例子。最接近的例子是 Oracle 起诉谷歌在安卓系统中使用了 Java API 的“清洁室副本”。最终,最高法院以公平使用为由支持了谷歌。这个案例影响了法律上对重新实现行为的处理方式。

     

    我不知道如果这场诉讼真进入庭审阶段会如何发展。陪审团是由随机挑选的路人组成的,他们或许无法理解 MongoDB 有线协议的具体细节,但他们绝对清楚 FerretDB 最初的名字是MangoDB。要说服陪审团,相信你给公司起名时仅替换一个字母不是想转移客户,这将非常困难。更何况这根本不是个原创名称:早就有个恶搞数据库管理系统叫MangoDB,它会把所有数据写入/dev/null。

     

    说到数据库系统的命名时,微软选择“DocumentDB”让人觉得遗憾。市面上已经有Amazon DocumentDB(顺便说一下,它也兼容MongoDB,不过亚马逊云科技可能为此付了费)、InterSystems DocDBYugabyte DocDB。微软的“Cosmos DB”在 2016 年推出时的原始名称也是DocumentDB

     

    最后,MongoDB 的法庭文件声称,他们“开创了‘非关系型’数据库”。这个说法是不正确的。第一个通用数据库管理系统是非关系型的,因为关系模型那时候还没有发明出来。通用电气的Integrated Data Store(1964 年)使用了网络数据模型,IBM 的Information Management System(1966 年)使用了层次数据模型。MongoDB 也不是第一个文档数据库管理系统。这个头衔应该归属于 1980 年代末的面向对象数据库管理系统(如Versant)或 2000 年代的 XML 数据库管理系统(如MarkLogic)。只是与它们相比,MongoDB 取得了压倒性的成功(也许 IMS 除外)。

     

    文件格式之争

    文件格式是数据系统中过去十年间基本处于停滞状态的一个领域。2011 年,Meta 公司针对 Hadoop 发布了名为RCFile的列式存储格式。两年后,Meta 对 RCFile 做了优化,并推出了基于 PAX 的ORC(Optimized Record Columnar File)格式。ORC 发布一个月后,Twitter 联合 Cloudera 推出了Parquet的首个版本。近十五年后,Parquet 已成为开源领域占支配地位的文件格式。

     

    2025 年,有五个新的开源文件格式发布,都在争取取代 Parquet 的地位:

     

     

    以下是 2024 年发布的格式:

     

     

    SpiralDB今年最引人瞩目的举措是宣布将Vortex捐赠给Linux基金会,并成立了多组织指导委员会。微软则在 2025 年底悄然终止了 Amudai 项目(至少将其转为闭源)。其余项目(FastLanes、F3、Anyblox)均属学术原型,其中 Anyblox 今年斩获了VLDB最佳论文奖

     

    这种新的竞争点燃了 Parquet 开发社区对其功能进行现代化改进的热情。Parquet PMC 主席Julien Le Dem对列式文件格式格局做了深入的技术分析

     

    Andy 的观点

    Parquet 的主要问题并非源于格式本身。该规范可以且已经经过演进。没有人会要求组织机构重写 PB 级的旧文件以更新至最新的 Parquet 版本。问题在于,人们用不同的语言实现了大量的读写库,而每个库只支持这个规范的特定子集。通过对实际环境中 Parquet 文件的分析,我们发现,94%的文件仅使用了 2013 年发布的 v1 版本的特性,即便其创建时间戳晚于 2020 年。这种最低公约数意味着:当有人使用 v2 版本的特性创建文件时,系统能否正确读取该文件完全取决于其版本兼容性。

     

    我与清华大学的Xinyu ZengRuijun MengHuanchen Zhang、CMU 的Martin PrammerJignesh Patel以及Wes McKinney一起开发了 F3 文件格式。我们的重点是通过提供作为共享对象的原生解码器(Rust crates)和在文件中嵌入这些解码器的 WASM 版本来解决互操作性问题。如果有人创建了一种新的编码格式,而数据库管理系统尚未提供原生支持,那么它仍然可以使用 WASM 版本通过传递 Arrow 缓冲区来读取数据。每个解码器针对单个列,这使得 DBMS 能够针对单个文件同时使用原生解码器和 WASM 解码器。AnyBlox 采用了一种不同的方法,生成单个 WASM 程序来解码整个文件。

     

    我不知道谁会赢得文件格式之争。下一场较量很可能围绕 GPU 支持展开。SpiralDB 似乎正在采取正确的举措,但 Parquet 的普及性将构成一个巨大的挑战。至于 DuckLake 如何寻求颠覆 Iceberg,我甚至还没有讨论……

     

    当然,每当这个话题出现时,总有人会贴出那幅关于标准竞争的xkcd漫画。我已经看过了,别再发邮件给我了。

     

    偶然事件

    数据库是大生意。让我们逐一了解下。

     

    收购

    市场上有很多动作。为了准备一笔收购,Pinecone 在 9 月份更换了CEO,但我没有听到任何其他的消息。以下是已经发生的收购:

     

    这家 Cassandra 的坚定支持者年初被 IBM 收购,估值30亿美元

     

    作为 Lucene 替代方案的领军企业,全文搜索引擎Tantivy已于年初被收购。好消息是,Tantivy 的开发工作仍在继续。

     

    这次收购对 dbt 来说是一个很好的补充,也是他们今年发布的Fusion的一部分,使他们能够在 DAG 中进行更严格的 SQL 分析。

     

    Mongo 收购了一家初创 AI 公司,旨在增强其云产品中的 RAG 能力。在公告前一周,我最优秀的学生之一加入了 Voyage。他以为自己不与数据库公司签约背叛了“家族”,结果最终还是加入了一家数据库公司。

     

    显然,这家 PostgreSQL 公司引发了一场竞购战,但 Databricks 以令人垂涎的10亿美元收购了它。Neon 至今仍然作为一个独立服务存在,但 Databricks 迅速在其生态系统中将其更名为Lakebase

     

    你知道 Snowflake 不会让 Databricks 在夏天独占所有风头,所以他们为 CrunchyData 这家有着 13 年历史的 PostgreSQL 公司支付了 2.5 亿美元。近年来,Crunchy 从 Citus 吸引了一些顶级人才,并在 Snowflake 收购他们之前扩大了其 DBaaS 产品。Snowflake 在 2025 年 12 月宣布公开预览其Postgres服务。

     

    Informatica,这家 1990 年代的老派 ETL 公司被 Salesforce 以80亿美元的价格收购。这家公司于 1999 年上市,2015 年转为 PE,然后在 2021 年再次上市。

     

    老实说,我一直不明白 Couchbase 在 2021 年是如何上市的,莫非是借了 MongoDB 的东风?几年前,通过整合加州大学欧文分校AsterixDB项目的一些组件,Couchbase 做了一些有趣的工作。

     

    Tecton 为 Databricks 提供了额外的代理构建工具。我的另一位学生曾在该公司工作,现在是在 Databricks。

     

    这个团队开发了两个有用的工具:SQLMeshSQLglot。前者是唯一可与 dbt(见下文,计划与 Fivetran 合并)抗衡的开源竞争者。SQLglot 是一个便捷的 SQL 解析器/反解析器,支持启发式的查询优化器。未来几年,Fivetran 与 SDF 将该技术与 dbt 相结合,将在该领域形成引人注目的技术布局。

     

    购买 SingleStore 的 PE 公司(Vector Capital)以前有管理数据库公司的经验。之前在 2020 年,他们曾经购买了XML数据库公司MarkLogic,并在 2023 年将其转手给Progress

     

    在 2024 年被 PE 公司收购后,MariaDB 公司今年开启了收购狂潮。首当其冲的是开发 MariaDB 扩展中间件 Galera Cluster 的公司。详见我 2023 年对MariaDB混乱局面的全面分析。

     

    然后是 MariaDB 的第二笔收购。为避免混淆,我需要说明一下:2010 年的时候,最初为 MariaDB 提供支持的商业公司名为“SkySQL Corporation”,2014 年,它更名为“MariaDB Corporation”。2020 年,MariaDB Corporation 推出名为 SkySQL 的 MariaDB 数据库即服务(DBaaS)。但因资金持续流失,该公司于 2023 年将SkySQL Inc.剥离出去,成为一家独立的公司。而 2025 年,MariaDB Corporation回购了SkySQL Inc.,兜了一圈后回到了原处。今年我的数据库宾果卡上可没有这一步。

     

    自动化数据库优化工具公司 Crystal DBA 加入 Temporal 公司,帮他们自动优化数据库!很高兴得知 Crystal 创始人、伯克利数据库小组校友 Johann Schleier-Smith 在那里发展顺利。

     

    这个系统(之前叫 OmniSci,再之前叫 MapD)是首批 GPU 加速数据库之一,于 2013 年推出。除了一家并购公司披露了这笔成功的交易外,我未能找到有关交易完成的官方公告。随后我们与英伟达召开会议,探讨潜在的数据库研究合作事宜,期间几位 HeavyDB 的伙伴也现身参与。

     

    Dgraph 之前在2023年被Hypermode收购。现在看来,Istari 只是买了 Dgraph,而不是 Hypermode 的其他部分(或者他们放弃了)。我还没见过任何积极使用 Dgraph 的人。

     

    这是最早支持“与数据库对话”的数据库之一,来自威斯康星大学的 Jignesh Patel,现为 CMU-DB 教授。但后来被一家欧洲酒店管理领域的 SaaS 公司收购了。

     

    多年来,Datometry 一直致力于将旧版 SQL 方言(如 Teradata)自动转换至新型 OLAP 系统这一棘手的问题。Snowflake 收购他们是为了扩展自己的迁移工具。更多信息参见Datometry 2020年的CMU-DB技术讲座

     

    像 Snowflake 收购 Datometry 一样,ClickHouse 的这次收购是提升高性能通用 OLAP 引擎开发体验的典范。

     

    在收购 Neon 之后,为了使 PostgreSQL 能够读写 Apache Iceberg 数据,Databricks 收购了 Mooncake。更多信息参见他们 2025 年 11 月的CMU-DB讲座

     

    这是一个将草根开源项目发展为一家公司的经典案例。Kafka 最初于 2011 年在 Linkedin 开发,随后在 2014 年,Confluent 作为独立的初创公司分拆出来,于七年后的 2021 年成功上市。随后 IBM 斥巨资将其收购。与 DataStax 的情况相似,目前尚不确定 IBM 是会对 Confluent 采取惯常的企业收购策略,还是像 RedHat 那样使其保持独立运营。

     

    前身为EdgeDB,在 PostgreSQL 之上提供了一种 DSL,被 Verel 在 2025 年年底收购。

     

    这款诞生于滑铁卢大学的嵌入式图形 DBMS 在 2025 年被一家未具名的公司收购。然后 KuzuDB 公司宣布放弃该开源项目。LadybugDB项目旨在维护 Kuzu 代码的一个分支版本。

     

    合并

    2025 年 10 月,Fivetrandbt Labs宣布合并成一家公司,这个消息着实让人意外。

     

    据我所知,数据库领域的上一次合并是 2019 年Cloudera和Hortonworks合并。但那笔交易只是两家在 Hadoop 领域苦苦寻找定位的公司试图通过合并成一家公司来扭转局面(剧透:他们没有成功)。2022 年,MariaDB 公司通过SPACAngel Pond Holdings公司合并,技术上讲也算并购,但那是为了让 MariaDB 能够上市而采取的后门策略。对投资者来说,结果并不好。Fivetran 和 dbt 的合并与这两者不同(更好)——这两家互补的技术公司正联手打造 ETL 领域的巨头企业,为近期开展正规的 IPO 做准备。

     

    融资

    除非我错过了,或者他们没有宣布,数据库初创公司的早期融资轮次并不算多。围绕向量数据库的炒作已趋于平息,风险投资公司现在只愿为 LLM 公司花钱。

     

     

    名称变更

    这是我在年度总结中新增加的一个类别——数据库公司更改其公司或系统的名称。

     

    这家 JSON 数据库公司从名字里去掉了后缀"DB" ,旨在强调其作为数据库支持型应用平台的定位,类似于Convex和 Heroku。我很欣赏 Harper 的团队。2021 年,他们在CMU-DB技术研讨会上提出的数据库管理系统构想可以说是我听过的最糟糕的方案。好在他们意识到该方案的缺陷后果断放弃,转而采用了 LMDB 技术。

     

    这是一个明智的举动,因为“Edge”这个名字传达了这样一个信息,它是一个用于边缘设备或服务的数据库(如Fly.io)。不过我也不确定“Gel”是否传达了项目更高层次的目标。感兴趣的读者可以观看下他们在2025年CMU-DB技术研讨会上关于Gel查询语言(名称还是EdgeQL)的讲座,由 CMU 博士校友主讲。

     

    数据库公司为区别于其核心数据库产品而更名的案例实属罕见。通常情况是公司更名为数据库名称(如“Relational Software, Inc.”更名为“Oracle Systems Corporation”,“10gen, Inc.”更名为“MongoDB, Inc.”)。该公司有了新的定位——通用应用场景的增强版 PostgreSQL,因此他们试图摆脱“专业化时间序列数据库管理系统”的固有印象,这一策略有它的合理性,毕竟前者所处的细分市场远小于后者。

     

    倒闭

    坦白说,我曾在其中两家失败的初创公司中担任技术顾问。截止目前,我的顾问成功率可以说是惨不忍睹。我也曾担任Splice Machine公司的顾问,但该公司已于 2021 年倒闭。需要说明的是,我只和他们讨论技术构想,而不涉及商业策略。我确实建议 Fauna 增加 SQL 支持功能,但他们没有采纳我的建议。

     

    Spanner 是一款颇具特色的分布式数据库管理系统,基于Dan Abadi确定性并发控制研究。恰好在 NoSQL 热潮逐渐消退之际,它提供了强一致性事务处理能力,使事务处理功能再度成为焦点。不过该系统采用专有查询语言,并押注了 GraphQL 技术。

     

    从名字就可以看出来,该系统旨在使人们能够在他们的 PostgreSQL DBMS 内运行 ML/AI 操作。挑战在于,他们需要说服人们将现有的数据库迁移到他们提供的托管平台上。他们推出了pgCat,作为一个代理用于镜像数据库流量。其中一位联合创始人加入了 Anthropic。另一位联合创始人创建了一个新的代理项目pgDog

     

    这是最早用 Java 编写的数据库管理系统之一,可以追溯到 1997 年(最初名为"Java DB"或"JBMS")。2000 年代,IBM 将其捐赠给 Apache 基金会,并更名为 Derby。2025 年 10 月,该项目宣布这个系统将进入“只读模式”,因为没有人对它进行积极地维护了。

     

    尽管没有关于初创公司 DuckDB-inside-Postgres 的官方公告,但其联合创始人和员工都已经分散到了其他公司。

     

    这是 Clickhouse 的一个分支,借助 Tantivy 增加了向量搜索和全文索引。他们在 2025 年 5 月宣布关闭这项服务。

     

    这个团队应该是数据库公司里的超级组合。想象一下,就像Run the Jewels那样的团队。他们有来自 Nvidia Rapids 的顶级工程师、Apache Arrow和Python Pandas的发明者,以及来自BlazingSQL的秘鲁 GPU 奇才。然后再加上来自顶级公司的风险投资 1.1 亿美元,包括未来的英特尔 CEO(以及一名CMU的董事会成员)。他们构建了一个 GPU 加速的数据库Theseus,但未能及时推出。

     

    最后,尽管不是一个商业机构,但如果不提及IBM阿尔马登研究中心关闭,那将是我的疏忽。这个研究中心是 IBM 在 1986 年建立的,几十年来一直是数据库研究的圣地。我2013年曾去阿尔马登参加面试,发现那里的风景很美。IBM 研究中心数据库小组已经不是过去的样子了。尽管如此,这个神圣的数据库研究场所的校友名单依然令人印象深刻:Rakesh AgrawalDonald ChamberlinRonald FaginLaura HaasMohanPat SelingerMoshe VardiJennifer WidomGuy Lohman

     

    2026-01-05 更新:我遗漏了 Gel 在 2025 年 12 月被 Vercel 收购的消息。[致谢]

    2026-01-05 更新:我也遗漏了 Supabase 在 2025 年进行了两轮融资的消息。

    2026-01-05 更新:尽管 TurboPuffer 没有就融资发表官方声明,但他们的 CEO 提到,其团队中增加了来自 Thrive Capital 的成员。[致谢]

    2026-01-05 更新:显然,我需要一个更好的方法来跟踪融资信息,因为我还遗漏了 LanceDB 的 A 轮融资![致谢]

     

    Andy 的观点

    有人说,我是根据数据库开发公司筹集的资金数额来判断数据库的质量,显然不是这样。我之所以追踪这些动态,是因为数据库研究领域竞争激烈且充满活力。我不仅要与其他高校的学者“竞争”,还需要持续关注大型科技公司和小型创业公司推出的有趣的系统。行业研究实验室已经不是过去的样子了,只有微软研究院仍然在积极招聘顶尖人才,并做出令人难以置信的工作。

     

    我曾在2022年预测,2025 年将有大量的数据库公司倒闭。确实,今年关闭的公司比往年多,但并没有达到我预期的规模。

     

    Voltron 的倒闭以及类似 HeavyDB 这样的收购兼并似乎延续了 GPU 加速数据库不可行的趋势。Kinetica多年来一直靠政府合同维持运营,而Sqream似乎也是在勉强支撑。这些公司仍属于小众领域,至今无人能撼动 CPU 驱动型 DBMS 的主导地位。虽不便透露具体厂商的名字,但 2026 年必将有多家供应商发布 GPU 加速数据库的重要公告。这进一步印证了 OLAP 引擎的商品化趋势:现代系统的运行速度已经实现了飞跃,底层操作(扫描、连接)的性能差异微乎其微,系统间的差异化竞争正转向用户体验以及优化器生成的查询计划的质量。

     

    Couchbase 和 SingleStore 被私募股权(PE)公司收购可能预示着数据库行业未来的一个发展趋势。当然,PE 收购以前也发生过,但似乎都是在最近:(1)MarkLogic在 2020 年、(2)Cloudera在 2021 年、(3)MariaDB在 2023 年。我能找到的发生在 2020 年之前的收购只有 2007 年的SolidDB和 2015 年的Informatica。PE 收购可能会逆转那些数据库公司的发展趋势,它们在被控股公司收购后发展陷入停滞,而那些控股公司则通过榨取维护费持续获利(如 Actian、Rocket)。即使是 Oracle,也依然在从 30 年前收购的RDB/VMS上获利!

     

    最后,向Nikita Shamgunov致敬。据我所知,他是唯一一位与人联合创立两家数据库公司(SingleStoreNeon)且两家公司在同一年被收购的人。就像已故说唱歌手 DMX 在一年内推出两张冠军专辑(It's Dark and Hell Is HotFlesh of My Flesh)那样,我认为短期内无人能打破 Nikita 的纪录。

     

    数据库元老的表现

    我们来看看数据库元老拉里·埃里森的辉煌之年。这位 81 岁的老人在这一年间取得的成就,远超常人毕生所为。我将按时间顺序逐一梳理。

     

    拉里年初时位列全球富豪榜第三。想到自己身价可能不及马克·扎克伯格,他夜不能寐。有人说拉里的失眠源于饮食变化——自从买下英国的一家著名酒吧后,他馅饼吃多了。但我可以向各位保证,拉里坚持三十年的“素食水瓶座饮食法”从未改变。直到 2025 年 4 月,我们得知拉里重登全球富豪榜次席。他的睡眠质量稍有好转,但仍然远未达标。生活中的诸多烦忧仍在持续地折磨他——比如他终于决定出售那辆稀有的半合法迈凯伦F1超跑,车内手套箱里还完好地保存着原厂车主手册。

     

    2025 年 7 月,拉里在 13 年内发布了他的第三条推文(拉里迷们称之为“#3”)。这条推文介绍了他在牛津大学附近创立的埃里森技术研究院(EIT)的近况。以 EIT 命名且与牛津大学关联,听起来像是纯研究性的非营利机构,类似于斯坦福的SRI或卡内基梅隆的SEI。但实际情况是,这是一家总部位于加州的有限责任公司旗下的多家营利性公司的统称。当然,不少怪咖在第 3 条的评论区说承诺提供基于区块链的低温冷冻技术室温超导体。拉里告诉我他根本不理会这些。不过也有人像这位网友一样真正理解其中的奥妙。

     

    今年(可能是本世纪)最大的数据库新闻出现在 9 月 10 日星期三美国东部时间大约下午 3:00。经过几十年的等待,拉里·约瑟夫·埃里森终于成了世界上最富有的人。那天早上,$ORCL的股价上涨了 40%,由于拉里仍然拥有公司 40%的股份,所以他的总身价估计是3930亿美元。从这个角度来看,这不仅使拉里成为世界上最富有的人,而且也是整个人类历史上最富有的人。约翰·D·洛克菲勒和安德鲁·卡内基(是的,CMU 中的“C”)的峰值净资产,根据通货膨胀调整后,分别只有3400亿美元3100亿美元

     

    在拉里登上世界之巅的同时,Oracle 还参与了收购控制TikTok的美国公司,拉里资助派拉蒙(由他第四次婚姻的儿子控制)竞购华纳兄弟。美国总统甚至嘲笑拉里接管CNN新闻部门,因为拉里是派拉蒙的大股东。

     

    Andy 的观点

    我甚至不知道从哪里开始。当然,当我得知拉里·埃里森因数据库而成为世界上最富有的人时,我感到由衷地欣慰,我们的生活终于发生了一些积极的事情。我不在乎 Oracle 的股价,因为那些旨在构建 AI 数据中心而非传统软件业务的高调交易而被人为炒高了。我也不在乎他两个月内个人损失1300亿美元导致排名下滑。这就像你我把一个月的薪水全砸在了FortuneCoins上——虽然有点心疼,还得靠从 Taco Bell 买来的过期辣酱拌豆子米饭撑两周,但总会好起来的。

     

    有些人说拉里与普通民众脱节,或者说他因为参与和数据库无直接关系的事情而迷失了方向。他们列举了多个例子,比如他在夏威夷的机器人农场以每磅 24 美元(每公斤 41 欧元)的价格出售生菜,又比如 81 岁的男人不可能天生拥有金发

     

    事实是,拉里·埃里森已经征服了企业级数据库领域、竞技帆船科技兄弟健康水疗中心。下一步显然是接管一个每天被成千上万在机场等待的人观看的有线电视频道。每次我和拉里交谈,他都清楚地表明他一点也不在乎人们对他的看法。他知道他的粉丝爱他他的(新)妻子爱他。毕竟,那才是最重要的。

     

    结论

    在结束本次回顾之前,我想快速地说出几个名字并提点建议。首先是 PT,他在监禁期间仍在有条不紊地参与Turso数据库的开发(外面见)。然后是对 JT 的遭遇表示遗憾,他因为经常在社交媒体上分享与KevoDB数据库开发有关的信息而丢掉了工作。务必只在测试用数据库中放入假数据,不要因为以1750万美元的价格出售自己的初创公司换得七年的监禁。

     

    我和我的博士生们也成立了一家新的初创公司。希望很快就能有更多的信息带给大家。一言为定。

     

    声明:本文为 InfoQ 翻译,未经许可禁止转载。

     

    原文链接:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html

    近日,多家机器人公司宣布成为 2026 年央视春晚合作伙伴,这种密集的集体登场,也成为产业加速寻求公众认知与市场突破的强烈信号。行业报告显示,我国具身智能产业规模正以超 50% 的增速跨越发展,整体已迈入全球第一梯队。在“十五五”规划等顶层设计推动下,产业正从技术探索迈向规模应用的关键阶段。

    在这一关键节点,原力灵机举办了其首次技术开放日,并完整推出了全球首个具身原生大模型 DM0、具身原生开发框架 Dexbotic 2.0 以及具身应用的量产工作流 DFOL,分别从智能基座、开发效率与场景进化三个层面,为产业提供了新的落地范式。

    应对泛化瓶颈,让智能“通用”

    具身智能目前面临的核心挑战,集中体现在数据与泛化能力上。许多在受控实验室环境中训练出来的模型,一旦部署于开放的真实场景或适配不同的硬件平台,其性能往往出现显著衰减。而这种泛化能力的缺失,将行业限制在了昂贵的定制化开发循环中。

    我们观察主流技术路线发现,许多研究通常默认通过互联网图文数据训练获得的“认知”,足以指导物理世界的行动。因此,大量研究重点便转向了如何将这种已有“认知”能力,有效迁移并适配到实体机器人系统上。

    然而,物理交互有其特殊性。真实环境中的摩擦力、重量感和空间关系等关键信息很难仅从二维图像中完全掌握。于是,“具身原生”这一路径被提出。原力灵机认为,具身智能从诞生之初就需立足真实世界,聚焦“复杂环境中精准完成人类任务”,这也是此次发布具身原生大模型 DM0 的底层设计逻辑。

    这一设计逻辑,首先体现为向物理世界要数据的范式转变。原力灵机合伙人周而进介绍,DM0 本质上是一个从头训练的多模态大模型,它的数据采集方案遵循了“熵在哪里,数据就投向哪里”的原则,除了提供通用语义的互联网图文,它更关键地纳入了体现复杂时空决策的自动驾驶序列数据,以及来自多种机器人平台的真实交互数据。这种融合为构建模型关于空间、力学与因果的认知框架,实现稳定泛化的动作执行能力提供基础。

    具体实现上,DM0 模型采用的多任务与跨机型协同的训练方法进一步提升了强跨机型的泛化和迁移能力。DM0 技术报告显示,DM0 在预训练阶段就被置于一个多样环境中,同步学习抓取、导航、全身控制 3 类核心任务,并覆盖 UR、Franka、ARX、UMI、Aloha、R1-Lite、Realman、DOS-W1 等 8 种差异显著的机型。这种设计迫使模型剥离对特定硬件参数的机械记忆,转而学习通用逻辑与物理规律。

    在这一设计路径下,DM0 模型在真机测试中获得了关键验证。DM0 在 RoboChallenge 平台的“Table 30”任务中取得了综合最高分,而其参数量仅为 2.4B,这意味着它的智能密度非常高。

    此外,为了满足工业级精细操作,DM0 专门设计了 728×728 的高分辨率视觉输入,使其能在 720p的视频中捕捉细微的空间差异,显著提升精密装配等任务的定位可靠性。更具突破性的是,DM0 将机器人的“动作”从关节控制扩展为包含“拍照、扫码”等抽象指令的广义集合。这让机器人能够以连续、类人的作业逻辑,自主完成“抓取-调整-识别-扫码”的端到端流程。

    目前,DM0 2.4B 版本已全面开源,支持在消费级显卡上微调。周而进介绍道,此举意在降低开发与科研门槛,让更多研究者能够基于 DM0 做二次开发或训练,从而推动产业共同验证并丰富“具身原生”这一技术范式。这或将为行业突破当前规模化落地的关键瓶颈,提供一条可供协作与迭代的开放路径。

    破解效率困境,让研发“自由”

    DM0 模型为产业提供了一个更强的泛化起点,但要将这类前沿模型转化为现实生产力,还需克服工程落地的重重障碍。高度碎片化的开发环境是核心痛点,数据格式、仿真平台与硬件接口的标准不一,使得从算法研究到真机部署的链条冗长而低效,大量创新精力被消耗在重复的适配工作中。

    为了系统性地破解这一效率瓶颈,原力灵机将其开源框架 Dexbotic 升级至 2.0 版本。原力灵机合伙人汪天才阐述了此次重构的目的,“我们想通过这次重构进一步扩大 Dexbotic 在整个具身生态下的职能范围,让更多用户能够用它进行算法的开发,降低进行具身算法开发的门槛。” 其最核心的革新是采用了模块化架构,将机器人策略解耦为 V(Vision encoder)、L(LLM)、A(Action Expert)三个可自由组合的独立模块。开发者能通过像搭乐高一样,自由组合、快速验证新想法并适配不同硬件。更关键的突破是,这一设计统一了机器人长期以来相互割裂的操作与导航能力,推动其最终迈向全身协同控制的更高阶段。

    框架的另一个特征是支撑多源异构数据的混合训练。这直接服务于如 DM0 这类“具身原生”模型的训练需求,能够无缝协调处理来自互联网、自动驾驶和机器人本体的不同性质数据,让模型在完整的统一流程中同步学习通用知识与专用技能。

    为支撑这一复杂的多源训练范式并使其能够高效、可复现地转化为实际能力,Dexbotic 2.0 构建了一套从“数据—训练—评测—硬件”四个环节的标准化具身开发全流程。它定义了统一的数据规范以消除格式壁垒,集成了主流仿真评测工具以简化验证环节,并原生适配了多种机器人硬件平台,彻底将开发者从繁复的环境配置与适配工作中解放,提供了一条从算法原型直达真机验证的清晰路径。

    伴随此次升级,Dexbotic 2.0 的开源生态建设也取得了实质进展。其与 RLinf 达成战略合作,目前已初步完成环境层面对接,并计划通过仿真复现与真机演示共同验证这套协同系统在复杂物理场景中形成有效生产力的潜力。

    对于此次合作,汪天才的期望远超工具层面的对接。他认为,大语言模型之所以能爆发,关键在于找到了“SFT 和 RLHF”这套让模型与人类价值对齐的方法论。而现在,具身智能正站在相似的历史节点前。“我们期望与 RLinf 的合作能够复现并建立起这一已被验证的范式,最终形成覆盖具身智能全开发流程的‘SFT+RLHF’生态。”

    填补进化缺口,让生产力“持续”

    在原力灵机 CEO 唐文斌看来,“所有的价值是可以被衡量和计算的,如果不能的话,那这个东西是不能长期存续的。”当智能模型与开发工具就绪,如何让机器人在千差万别的真实场景中持续创造可靠价值,成为检验技术的最终标尺。

    作为本次开放日的第三项重要发布,具身应用的量产工作流 DFOL(Distributed Field Online Learning)是原力灵机让具身智能从“展品”变为“产品”最具现实意义的一环。据介绍,DFOL 采用“硬件通用+模型智能”模式,构建了一套链接云端与现场的数据进化闭环。部署在产线或仓库中的机器人,能将作业过程中产生的训练片段(episode)与负样本块(negative chunk)实时反馈至云端。这些来自真实场景的数据经过处理,持续优化模型策略,并再次部署到所有机器人。这使得系统能够在实际运行中自主学习,应对物料差异、环境变化等不确定性,从而将固定程式转变为可持续进化的生产力。

    值得关注的是,这一方案的有效运转,与 DM0 与 Dexbotic 2.0 两项技术基座的成熟度密切相关。DM0 模型所提供的强泛化能力,是系统能够快速理解新任务、获得可靠初始策略的智能前提;而 Dexbotic 2.0 框架及其标准化工具链,则为海量现场数据的高效回流、处理与迭代更新提供了工程化路径。三者共同构建了一个从“通用能力储备”到“高效开发部署”,最终实现“持续价值创造”的增强循环。

    面对这种深度技术耦合可能带来的风险,DFOL 的设计逻辑本身便是应对之道。通过将现场运行数据实时反馈用于模型迭代,它将风险考量从依赖某一静态模块的“完美性”,转化为依赖整个系统“动态进化能力”的健康度。这意味着,对其商业落地的评估,将不再仅仅是评估一个固定版本模型的好坏,而是评估一套系统的学习与适应效率。

    由此来看,此次相继发布的模型、框架与方案,是一条贯穿“能力构建-效率提升-价值闭环”的连贯路径。它们共同呈现了原力灵机的技术纵深,更展示了其对“具身智能规模化落地”的系统性思考。其“具身原生”的范式探索,不仅关乎企业的自身发展,也为整个产业如何打通从技术研发到规模商业化的路径,提供了一个值得深入观察的范例。

    2月9日 GitHub 确实出现了一波 通知延迟,并且伴随 多个核心服务的性能降级:包括 Actions、Git Operations、Issues、Pull Requests、Webhooks、Packages、Pages、Codespaces,甚至还波及到 Copilot、Dependabot 等相关能力。最后官方宣布恢复正常,并表示后续会发布更详细的 RCA(根因分析)。官方事件报告如下:
    image

    好,信息面上就这些,但小D作为每天在 GitHub 上“搬砖”的工程师,真正关心的通常是三件事:

    1)到底发生了什么,会影响我哪些流程?
    2)我现在遇到的问题,是 GitHub 的锅还是我的锅?
    3)怎么快速自救,避免今晚继续加班?


    1)这次异常的两条主线:通知慢 + 服务抖成筛子

    A. 通知延迟(Notifications are delayed)

    GitHub 官方描述很直白:通知出现积压,平均延迟从 约 50 分钟一路飙到 约 1 小时 20 分钟,随后逐步回落到 约 1 小时 → 30 分钟 → 15 分钟,最终宣布完全恢复。

    image

    人话:你的通知确实可能“晚到”,但不是不到。更扎心的是——通知这种东西晚到就等于失效。

    • PR reviewer 迟迟收不到提醒,review 节奏断了
    • code owner 迟到半小时才看到变更,合并窗口错过
    • oncall 收到告警关联通知晚一拍,排障黄金时间直接蒸发

    B. 多服务降级(Issues / Actions / Git 操作等)

    另一条线更“硬核”:一堆核心服务出现 degraded performance / degraded availability。官方过程里提到的影响包括:

    • 请求变慢、失败率上升
    • Actions 任务延迟、排队
    • 多个产品线(Actions、Issues、PR、Webhooks 等)不同程度受影响
      后续官方声明服务恢复正常。

    一句人话总结:不只是“通知慢”,而是“系统整体有点喘不过气”。[惊恐]


    2)最容易踩的坑

    你以为是流程问题,其实是平台波动

    这类事故最烦人的地方在于:它不会把你电脑蓝屏,也不会直接报一个“GitHub 崩了”。

    • PR 已合并,但通知迟迟不到 → 你以为 webhook/机器人挂了
    • Actions 状态卡住不动 → 你以为 YAML 写炸了,开始疯狂改 pipeline
    • Issue 评论发出去了,但订阅者没收到提醒 → 你以为权限/订阅设置有问题
    • git push 偶发失败或慢 → 你以为公司网络抖了,开始怀疑人生

    于是,程序猿最经典的场景也是最擅长的事情出现了:
    平台抖 1 小时,你排查 3 小时。(加班就是这么来的😭)


    3)一份“自救排查清单”

    当你发现 GitHub “不太对劲”,建议按这个顺序来——能省命:

    ✅ Step 1:先看 Status Page(别自虐)

    先打开:

    如果状态页正在 Investigating / Identified / Monitoring,恭喜:你可以先把“自责模式”关掉。

    ✅ Step 2:判断影响面(通知 vs 业务链路)

    • 只是通知慢:PR/Issue 可能还能用,只是“提醒晚到”
    • Actions/Git 操作也慢:CI/CD、合并、发版链路可能整体变慢或失败

    这一步很关键:
    通知慢 → 别急着改系统
    链路慢/失败 → 先保交付,别做大手术

    ✅ Step 3:把“重试”变聪明

    事故期间最怕的不是失败,而是“你和平台一起抽风式重试”,把积压越堆越大:

    • Actions:避免手动狂点 Re-run all jobs(尤其是高并发仓库)
    • Webhooks:如果你有自建 webhook consumer,确认重试策略是指数退避(exponential backoff),别 1 秒 1 次硬刚
    • Bot/Automation:临时降低触发频率或加熔断(例如只处理关键事件)

    ✅ Step 4:关键业务兜底(临时“人工模式”)

    当自动化链路不稳定时,短期最有效的是“降级”:

    • 重要发布:临时人工确认 PR 状态、手动触发必要任务
    • 关键告警:别完全依赖 GitHub 通知,转到 Slack/邮件/监控系统的主通道
    • 依赖更新(Dependabot):如果受影响,先暂停自动合并,避免“卡住时乱合”

    ✅ Step 5:事故恢复后做一次“事后清算”

    官方说会出 RCA,但团队内部也建议做两件事:

    • 回看事故窗口内的失败任务/遗漏通知(尤其是 oncall / 安全相关)
    • 把“平台波动”纳入你的工程弹性设计:

      • webhook 事件幂等
      • 重试退避 + 死信队列
      • 关键流程可手动兜底
      • 不把单点平台当永远 100% 可用(这点很重要)

    4)结语

    GitHub 抖动不是罕见事件,罕见的是你没准备

    平台级服务再稳,也会有“咳嗽”的时候。真正决定你今晚能不能准点下班的,不是平台有没有事故,而是你的系统有没有“抗事故的姿势”:

    • 你有没有把通知当成唯一信号?
    • 你有没有把 CI 当成唯一门禁?
    • 你有没有把 webhook 当成永不丢的消息?
    • 你有没有给自动化加退避、熔断、幂等、降级?

    这些看起来像“架构洁癖”,但事故来时,它就是救命稻草。

    下次再遇到“PR 没人回、CI 卡住、通知消失”,先别慌,先看状态页,再决定要不要开干——工程师的体力要用在刀刃上,不要用在跟平台对线🤝


    喜欢就奖励一个“👍”和“在看”呗~

    image

    借助 Coding Agent 等工具,如今构建一个 AI 产品的技术门槛和启动成本已急剧降低。一夜之间,将想法变为可交互的原型变得前所未有的容易。但一个刺眼的矛盾也随之浮现:大多数 AI 产品仍在走向失败。如果技术实现不再是瓶颈,那么问题究竟出在哪里?

    Aishwarya Naresh Reganti 和 Kiriti Badam 曾在 OpenAI、Google、Amazon、Databricks 等公司参与构建并成功推出了 50 多个企业级 AI 产品。最近,他们在播客节目中,与主持人 Lenny 细致分享了当前 AI 产品开发中的常见陷阱与成功路径。基于该播客视频,InfoQ 进行了部分删改。

    核心观点如下:

    • 今天构建的成本已经非常低了,真正昂贵的是设计,是你是否真正想清楚了产品要解决什么痛点。对问题本身和产品设计的执着,是被低估的,而单纯追求“快点做出来”,是被高估的。

    • AI 不是答案,而是解决问题的工具。

    • 领导者需要重新回到“亲自上手”的状态,并不是要他们亲自实现系统,而是为了重建判断力,接受“我的直觉可能不再完全正确”这一事实。

    • “忙碌但无效”的工作时代正在结束,你不可能再躲在角落里做对公司没有实质影响的事,而必须思考端到端的流程,以及如何创造更大的影响。

    • 在这个数据随时告诉你“你大概率会失败”的时代,保留一点愚蠢的勇气很重要。

     

    AI 产品构建中的挑战

    Lenny:目前 AI 产品构建的情况是怎样的?哪些进展顺利,哪些地方问题依旧明显?

     

    Aishwarya:首先,怀疑态度明显减少。2024 年还有很多领导者认为 AI 可能只是又一波“加密货币式”的泡沫,因此迟迟不愿真正投入。当时我看到的很多所谓“AI 用例”,更像仅仅是“在你自己的数据上套一层 Snapchat 滤镜”。

     

    而 2025 年,很多公司开始真正反思用户体验和业务流程,逐渐意识到:如果想构建成功的 AI 产品,必须先拆解现有流程,再重新构建。而消极的一面在于,执行依然非常混乱。这个领域只有三年左右的历史,没有成熟的方法论,也没有教材,大家基本都是边走边学。

     

    同时,AI 产品的生命周期与传统软件截然不同。这导致了以往在 PM、工程师、数据团队之间形成的分工被打破。过去,PM、工程师各自优化各自的指标;现在,大家可能需要坐在同一间会议室里,一起看 agent 的执行轨迹,共同决定产品应该如何表现。这种协作更紧密,也更复杂。

     

    Lenny:你之前说构建 AI 产品与构建非 AI 产品本质上非常不同,能具体谈谈吗?

     

    Aishwarya:构建 AI 系统和传统软件系统之间确实存在大量相似之处,但也有一些根本性的差异,足以改变你构建产品的方式。其中一个经常被忽视的核心差异,是“非确定性”。

     

    与传统软件相比,你几乎是在与一个非确定性的 API 打交道。在传统软件中,决策引擎和流程往往是清晰、可预测的。以 Booking.com 为例:你有一个明确意图,比如在旧金山订两晚酒店,系统通过一系列按钮、选项和表单,把你的意图转化为具体操作,最终完成目标。

     

    但在 AI 产品中,这一层被一种高度流动的、以自然语言为主的界面所取代。用户可以用无数种方式表达同一个意图,这意味着你无法预判用户的输入行为。而在输出端,你面对的是一个概率性的、非确定性的 LLM,它对提示词极其敏感,本质上还是一个黑箱。你既无法完全预测用户会如何使用产品,也无法确定模型会给出怎样的回应。

     

    因此,你同时面对输入、输出和中间过程三方面的不确定性,只能在有限理解的基础上去预判行为并进行设计。到了 Agent 系统,这种复杂性会进一步放大。

     

    这也引出了第二个关键差异:代理性与控制权之间的权衡。很多人执着于构建高度自治的系统,希望 Agent 能替人完成所有工作。但每当你把决策权交给 AI,你就必然放弃一部分控制权。因此,只有当系统足够可靠、足以赢得信任时,才值得赋予它更高的自治能力。这正是“代理性—控制权权衡”的核心:自治越高,控制越少,而信任必须通过时间和表现来积累。

    Kiriti:类比登山:如果你的目标是攀登一座高峰,你不会第一天就直接冲顶,而是先进行基础训练,逐步提升能力,最终才接近目标。

     

    构建 AI 产品也是如此。你不应该在第一天就打造一个拥有公司全部工具和上下文的全能 Agent,并期待它能正常工作。正确的做法,是刻意从影响范围小、人工控制强的场景开始,逐步理解当前能力边界,再慢慢增加自治性、减少人工干预。

     

    这样做的好处在于,你会逐渐建立信心,清楚 AI 能解决问题的哪一部分,以及接下来需要引入哪些上下文和工具来改进体验。好的一面是,你不必一开始就面对复杂而炫目的 Agent 体系;挑战在于,你必须接受“循序渐进”的现实。但几乎所有成功的案例,都是从极简结构起步,再不断演化而来的。

     

    Lenny:你们一直强调“从低自治、高控制开始”,再逐步升级。能否用一个具体例子说明这种路径?

     

    Kiriti:客户支持是一个非常典型的场景。我们在发布产品时也经历过类似情况,随着新功能上线,支持请求会突然激增,而且问题类型非常多样。

     

    一开始,并不是把所有支持中心文章一股脑塞进 Agent 就完事了。更合理的第一步,是让 AI 为人工客服提供建议,由人类判断哪些建议是有用的、哪些是无效的。通过这个反馈回路,你可以识别系统的盲点并进行修正。

     

    当你建立起足够信心后,才可以让 AI 直接向用户展示答案。接着,再逐步增加复杂能力,例如自动退款、创建功能请求等。如果在第一天就把这些能力全部交给 Agent,系统复杂度会迅速失控。因此,我们始终建议按阶段构建,逐步提升自治水平。

     

    Lenny:一开始是高控制、低自治,AI 只给建议,最终决策仍由人来做;当系统被验证可靠后,逐渐赋予更多自治权,同时减少人工干预。只要这一阶段进展顺利,就可以继续向前推进。

     

    Aishwarya:从更宏观的角度看,AI 系统的核心在于“行为校准”。你几乎不可能在一开始就准确预测系统行为,因此关键在于避免破坏用户体验和信任。做法是,在不影响体验的前提下,逐步减少人工控制,并以不同方式约束自治边界。

     

    以医疗保险预授权为例,某些低风险项目,比如血液检测或 MRI,只要患者信息齐全,就可以由 AI 自动审批;而高风险项目,如侵入性手术,则必须保留人工审核。在这个过程中,你还需要持续记录人类的决策行为,构建反馈飞轮,用于不断优化系统。这样既不会损害用户体验,也不会削弱信任,同时还能让系统持续进化。

     

    Lenny:你还给出过一些很好的分阶段示例,比如 Coding Agent:第一阶段只做行内补全和样板代码建议;第二阶段生成测试或重构代码供人审查;第三阶段则可以自动提交 PR。营销助手也是类似路径:从文案草稿,到完整活动执行,再到自动 A/B 测试和跨渠道优化。

     

    Aishwarya:换个角度看,这种非确定性其实也是 AI 最迷人的地方。相比点击复杂的按钮,人类更习惯用语言交流,这大大降低了使用门槛。但问题在于,人类表达意图的方式极其多样,而你往往需要在非确定性的技术之上,达成确定性的业务结果,这正是复杂性的来源。

     

    Lenny:所以,当人们一上来就想直接跳到第三阶段,往往会陷入困境:系统既难以构建,也不可靠,最终只能被判定为失败。

     

    Kiriti:在达到高度自治之前,你需要对系统能力建立足够信心。如果一开始就从错误的切入点出发,你会面对成百上千种错误,却根本无从修复。

     

    从小规模、低自治开始,不仅降低风险,也会迫使你认真思考“我要解决的到底是什么问题”。在 AI 快速发展的环境下,人们很容易沉迷于复杂解法,而忽视真正的问题本身。通过逐步提高自治层级,你可以清晰地拆解问题,并为未来扩展做好准备。

     

    Aishwarya:我最近读到一篇研究指出,约 75% 的企业认为“可靠性”是他们在 AI 项目中面临的最大问题,这也是他们迟迟不敢将 AI 产品直接面向用户的重要原因。正因如此,目前很多 AI 产品更多集中在提升生产力,而不是彻底替代端到端流程。

     

    Lenny:在这期节目之前,我们还录了一期,专门深入讨论了提示注入(prompt injection)和越狱(jailbreaking)。在那期讨论里,我们意识到这对 AI 产品来说几乎是一个“生存级风险”:它可能既没有成熟解法,甚至在理论上也很难被彻底解决。

     

    Aishwarya:一旦 AI 系统真正进入主流应用,这会成为一个非常严重的问题。现在大家还忙着把 AI 产品做出来,很少有人认真对待安全性,但这迟早会爆发。尤其是在面对非确定性 API 的情况下,你几乎无法完全防范。

     

    Lenny:我们当时聊到的一个核心问题是:要诱导 AI 去做“不该做的事”,其实并不难。虽然大家都在构建各种护栏系统,但事实证明,这些护栏并不牢靠,总能被绕过。而正如你所说,当 Agent 越来越自治、甚至进入机器人系统时,这种风险会被成倍放大,确实让人感到不安。

     

    Kiriti:我同意这是一个真实存在的问题。不过从当前 AI 在企业中的采用阶段来看,大多数公司甚至还没真正走到能充分获益的程度。2025 年确实是 AI Agent 和企业尝试落地 AI 的一个高峰期,但整体渗透率依然不高,很多流程还远未被真正改造。

     

    在这种情况下,只要在关键节点引入“人在回路”(human-in-the-loop),其实可以规避相当一部分风险。我个人更偏向乐观的一侧:与其一开始就被潜在的负面场景吓退,不如先尝试去落地、去使用。我们在 OpenAI 接触过的企业中,几乎没有人会说“AI 在这里完全帮不上忙”,更多是发现它能在某些具体环节上带来优化,然后再思考如何逐步采用。

     

    Lenny:有哪些成功构建 AI 产品的模式和工作方式?

     

    Aishwarya:我们合作过的成功公司,通常都具备三个维度:优秀的领导者、健康的文化,以及持续推进的技术能力。

     

    首先是领导者。我们参与过不少企业的 AI 转型、培训和战略制定。很多领导者过去十到十五年积累的直觉,正是他们成功的基础,但在 AI 出现之后,这些直觉往往需要被重新学习。领导者必须愿意承认这一点,甚至需要一定程度的“脆弱感”。我曾和 Rackspace 现任 CEO Gajen 共事。他每天清晨都会预留一个固定时段,专门用来“补课 AI”——听播客、看最新资料,甚至在周末做白板推演。领导者需要重新回到“亲自上手”的状态,并不是要他们亲自实现系统,而是为了重建判断力,接受“我的直觉可能不再完全正确”这一事实。很多真正成功的团队,正是从这种自上而下的转变开始的。AI 几乎不可能靠纯粹的自下而上推动,如果领导层对技术缺乏信任,或者对能力边界有误判,整个组织都会受限。

     

    第二个维度是文化。在传统企业中,AI 往往不是核心业务,但因为竞争对手在用、因为确实存在可行用例,企业不得不引入 AI。在这个过程中,恐慌文化非常常见,比如“FOMO”“你会被 AI 取代”等说法。问题在于,真正做出好 AI 产品,极度依赖领域专家;但很多专家却拒绝参与,因为他们担心自己的岗位被替代。这时,领导者需要建立一种“赋能型文化”,强调 AI 是用来增强个人能力、放大产出的工具,而不是威胁。只有这样,组织才会形成合力,而不是人人自危。事实上,AI 往往会创造更多机会,让员工做更多、更高价值的事情。

     

    第三个维度才是技术本身。成功的团队通常对自身工作流有近乎执念般的理解,清楚哪些环节适合 AI,哪些地方必须有人参与。几乎不存在“一个 AI Agent 解决一切”的情况。通常是机器学习模型负责一部分,确定性代码负责另一部分。因此,关键不在于迷信技术,而在于为每个问题选择合适的工具。

     

    此外,这些团队也非常清楚自己在和一个非确定性的 API 打交道,因此会以完全不同的节奏推进开发。他们迭代得非常快,但前提是不破坏用户体验,同时快速建立反馈飞轮。如今的竞争焦点,并不是谁最早上线 Agent,而是谁最早构建起持续改进的机制。凡是有人告诉我,“一个 Agent,两三天就能在你系统里跑出显著收益”,我都会非常怀疑。这不是模型能力的问题,而是企业数据和基础设施本身就极其混乱。大量技术债、混乱的接口和命名方式,都需要时间去消化。真正能产生显著 ROI,通常至少需要四到六个月,即便你拥有最好的数据和基础设施。

     

    Lenny:有些人认为评测(eval)是解决 AI 问题的关键,有些人则觉得它被严重高估,只要“感觉对了”就行。你们怎么看 eval?它在多大程度上真的能解决你们提到的那些问题?

     

    Kiriti:我觉得大家陷入了一种错误的二元对立:要么 eval 能解决一切,要么线上监控能解决一切。eval 本质上,是把你对产品的理解、你的价值判断,编码进一组数据集:什么是重要的,什么是绝对不能发生的。而生产环境监控,则是在产品上线后,通过关键指标和用户行为,反馈真实使用情况。

     

    这种监控并不新鲜,但在 AI Agent 场景下,颗粒度变得更细了。除了显式反馈,比如点赞、点踩,还有大量隐式信号。例如用户不点踩,但反复要求重新生成回答,这本身就是强烈的负面反馈。

     

    真正的问题不在于“选哪个”,而在于你想解决什么。如果你的目标是构建一个可靠系统,那么上线前必须有底线测试,这可以是一小组关键问题,确保无论如何都不能出错。上线之后,你不可能人工检查所有交互轨迹,这时就需要监控来提示你哪里出了问题。当你发现新的失败模式,再反过来构建新的 eval 集。这个循环缺一不可。认为“只靠其中一种就够了”,在我看来是站不住脚的。

     

    Aishwarya:我想稍微退一步,谈谈为什么“eval”这个词在 2025 年下半年被赋予了如此沉重的含义。你去找数据标注公司,他们说专家在写 eval;有人说 PM 应该写 eval,它们就是新的 PRD;还有人说 eval 本身就是产品改进所需的完整反馈回路。对初学者来说,这非常混乱。

     

    事实上,大家说的都不完全错,但指向的是不同层面的事情。律师和医生写的“评估”,并不等于他们在构建 LLM judge;PM 写 eval,也不意味着要写一个可直接上线的评判模型。很多时候,你事前根本无法判断是否需要 LLM judge,还是只依赖生产环境的用户信号。

     

    Martin Fowler 曾提出过“语义扩散”这个概念:一个词被发明出来,随后被不断滥用,最终失去精确定义。我认为 eval 正处在这个阶段。不同人看到的是它的不同侧面。但如果你让一群实践者坐在一起问:“AI 产品是否需要一个可执行的反馈回路?”他们一定都会点头。至于怎么做,完全取决于具体场景。复杂用例下,盲目构建评判模型往往得不偿失,这时回到用户信号、快速修复、确认是否回退,反而更有效。最终,所有资深从业者都会告诉你一句话:一切取决于上下文,不要迷信固定方法论。

     

    Lenny:现在“eval”已经变成一个可以指代无数不同东西的词,既包括标注、基准测试,也包括反馈机制,讨论起来反而更混乱了。

     

    Aishwarya:我最近就遇到一个客户,说他们“在做 eval”。我问能不能看看数据集,他们说只是看了 LLM Arena 和一些第三方榜单,就选了模型。我只能说,那不是 eval,那只是模型对比。

     

    Lenny:Claude Code 的负责人 Boris 曾公开表示:“我们在 Claude Code 里不做 eval,一切靠感觉(vibes)。”能不能请你分享一下,Codex 以及 Codex 团队在 eval 这件事上的具体做法?

     

    Kiriti:在 Codex,我们采取的是一种相对平衡的方式:eval 是必要的,但同时必须高度重视用户反馈。我们在产品上极度强调“把正确的产品做出来”,而其中非常重要的一部分,就是认真倾听用户的声音。

     

    Coding Agent 和其他领域的 Agent 有一个本质差异:它们是为“可定制性”和“工程师”而生的。Coding Agent 并不是只解决五六个固定工作流的产品,而是需要以多种方式被定制和扩展。这意味着,产品会被嵌入到各种不同的集成环境、工具链和使用场景中。在这种前提下,几乎不可能为用户的所有交互方式提前构建一个完备的 eval 数据集。

     

    但与此同时,你仍然需要确保,每一次改动至少不会破坏产品中那些最核心的能力。因此,我们确实会用 eval 来守住这些“底线”。同时,我们也投入大量精力去理解用户真实的使用方式。举个例子,我们最近推出了一个代码审查产品,增长非常快,既帮 OpenAI 内部发现了大量问题,也被外部客户广泛使用。如果我对代码审查相关的模型、或训练时采用的强化学习机制做了调整,在上线之前,我一定会通过 A/B 测试来验证:它是否还能准确找出关键问题,用户对结果的反应如何。

     

    有时,用户一旦被错误的代码提示反复打扰,甚至会直接关闭这个功能。你需要确保,新版本确实在“做对的事情”。但老实说,很多这类场景在事前是很难预判的,也很难提前为它们构建对应的 eval 数据集。因此,这里面既有一定的“vibes 判断”,也有大量来自真实用户的反馈。我们会非常主动地关注社交媒体,看看是否有人遇到特定问题,并尽快修复。

     

    我并不认为有一套万无一失的 eval 指标,可以完全依赖它,其他什么都不用管。每当我们要发布一个新模型,团队都会聚在一起做集中测试,每个人关注不同的重点。我们手里有一份“高难度问题清单”,会把这些问题交给新模型,观察它的表现。这更像是每位工程师都有一套针对自身关注点的定制 eval,用来帮助大家理解:在这个新模型下,产品到底发生了什么变化。

     

    CC/CD 框架

    Aishwarya:我们接触过大量公司,它们都承受着来自竞争对手的压力,因为“所有人都在做 Agent”,于是觉得自己也必须构建一个完全自治的 Agent。但很快发现一个问题:在一开始,你根本无法预知用户会如何与系统交互,也无法预判 AI 会给出哪些响应或采取哪些行动。当你的工作流包含四五个步骤、需要连续做出大量决策时,问题一旦出现,就会变得极其难以修复,结果往往是无休止的调试和热修复。

     

    我们曾为一个客服场景构建系统,后来,因为热修复多到失控,新的问题层出不穷,这个产品不得不被下线。与此同时,行业里也发生了不少令人警惕的事件,比如前段时间 Air Canada 的一个 Agent“臆造”了一条并不存在的退款政策,而公司因为法律原因不得不接受这个结果。这类案例让人意识到:如果设计不当,AI 系统可能会对企业本身造成非常严重的风险。

     

    正是在这样的背景下,我们开始思考:如何在不失去用户信任的前提下构建系统,同时又能形成一个持续改进的飞轮?这就是“CC/CD(Continuous Calibration, Continuous Development 持续校准、持续开发)”框架的出发点。

    循环的一侧是“持续开发”。你先界定能力边界,整理数据,明确系统的预期输入和预期输出。在真正动手之前,这一步本身就非常有价值,因为它常常会暴露出团队内部对“产品该如何表现”的理解并不一致。此时,产品经理和领域专家的参与尤为关键。你并不需要一个覆盖所有情况的数据集,而是一个“足够好”的起点。接下来,搭建应用,并设计评估维度。我刻意使用“评估指标”这个说法,而不是简单地说 eval,是因为评估是一种过程,而指标只是你在过程中重点关注的维度。

     

    另一侧是“持续校准”。当系统上线后,你一定会看到大量最初未曾预料到的用户行为模式。评估指标可以帮助你发现一部分问题,但很快你会意识到,它们同样不足以覆盖所有新出现的错误模式。这时,你需要分析真实行为,识别新的错误类型,一部分问题可以直接修复,而另一部分则需要催生新的评估指标。这并不意味着每一个错误都要转化为新的 eval 维度。有些只是偶发问题,比如工具定义不清导致的调用错误,修完即可继续前进。

     

    整体来看,这就是一个 AI 产品的典型生命周期。我们还特别强调,在迭代初期,应当采用“低自治、高控制”的方式:限制系统可做的决策数量,引入人在回路;随着理解加深,再逐步提高自治程度。这样做的本质,是在逐步建立对系统行为的认知飞轮。

     

    以客服 Agent 为例,我们通常会把演进过程拆成三个阶段。第一阶段只是“路由”,即判断工单该被分配到哪个部门。很多人会低估这个问题的复杂度,但在大型企业里,路由往往异常困难。层级混乱、分类标准失序的情况非常普遍,人类客服往往依赖大量隐性经验才能做出判断,而这些规则通常并未被文档化。如果直接把问题丢给 Agent,而不给足上下文,风险就会非常高。在路由阶段,即便 Agent 分错了部门,人类也可以介入纠正,控制风险。同时,这个阶段往往会暴露出大量数据问题,需要优先修复。

     

    等路由稳定之后,下一步是“副驾驶”:Agent 根据既有的标准操作流程生成回复草稿,由人工修改和确认。在这个过程中,你会自动记录人类的修改行为,从而几乎“免费”获得误差分析数据,并将其反馈到系统中。当你发现,大多数情况下人工已经不需要做太多修改时,才可以进入端到端的自动处理阶段,让 Agent 既生成回复,也完成问题的解决。这正是从低自治逐步走向高自治的过程。

     

    我们还整理了一张表,明确每个阶段你在做什么、能学到什么,以及这些信息如何被反馈回系统。需要强调的是,采用 CC/CD 并不意味着问题会一次性被解决。即便已经走到较高版本,你仍然可能遇到此前从未见过的数据分布。这个框架的意义,在于帮助你在完全自治之前,尽可能多地理解用户行为,从而降低整体风险。

     

    此外,它还隐含地帮你建立了一套行为日志体系。单纯依赖评估指标,只能捕捉你“已经知道”的错误,而大量新模式,只有在真实使用中才会显现出来。通过这种低风险、渐进式的方式,你可以理解用户,而不至于在问题全面爆发时手忙脚乱。最终,这一切的核心目标只有一个:在持续校准系统行为的同时,不断维护并增强用户对产品的信任。

     

    Lenny:这套方法的核心,在于把一切都设计成持续的、可迭代的过程,沿着“自治程度不断提高、控制逐步降低”的路径前进。“持续校准、持续开发”这个命名,本身就强调了它的迭代性。顺便说明一下,这个名字显然是在向 CI/CD(持续集成、持续部署)致敬,只不过这是 AI 时代的对应版本:不再只是不断跑单元测试、频繁部署,而是持续运行 eval、观察结果、调整关注的指标,找出系统失效的地方,再不断迭代优化。

     

    在这个框架本身上,还有没有什么你觉得特别重要、但我们还没提到的点?

     

    Aishwarya:我们最常被问到的问题之一是:我该如何判断,系统是否已经“校准得足够好”,可以进入下一个阶段?这件事并没有一套明确的规则手册,核心原则只有一个:尽量减少“意外”。比如说,如果你每一两天就做一次校准,而发现没有出现新的数据分布模式,用户的行为也相当稳定,那你从系统中获得的新信息就已经非常有限了。这往往就是一个信号,说明你可以考虑进入下一阶段了。到了这个时候,很大程度上其实是在凭经验判断:你是否感觉自己已经“准备好了”,是否还在持续获得新的洞察。

     

    当然,也要意识到,有些外部事件会彻底打乱原有的校准状态。比如 GPT-4.0 被弃用,API 层面逐步迁移到 GPT-5,而新模型的行为特性完全不同,这时你的校准就会再次失效,需要重新走一遍流程。用户行为本身也会随时间演化。即便是消费级产品,我们今天和 ChatGPT 的交互方式,也和两年前完全不同,一方面是模型能力提升了,另一方面是用户在某个任务上尝到甜头后,会自然地把系统用于更多新场景。

     

    我们曾为银行的核保人员构建过一个系统。核保本身是一项非常繁琐的工作,贷款申请文件往往有三四十页。这个系统的初衷,是帮助核保人员快速查找政策和内部信息,从而更高效地审批贷款。最初三四个月,反馈都非常积极,核保人员的效率显著提升。但随后我们发现,正是因为他们对系统产生了信任,开始提出一些我们从未预料到的深度问题,比如直接把整份申请材料丢给系统,问:“像这种情况,之前的核保人员通常是怎么处理的?”

     

    从用户角度看,这只是一个非常自然的延伸;但从产品构建角度看,底层逻辑却发生了质变。系统需要理解“类似情况”究竟指什么,再去检索历史案例、分析文档,最后给出综合判断。这已经远远超出了最初“查找某条政策”的设计范围。正是这种不断演化的用户行为,提醒你:是时候回到校准阶段,重新审视系统能力边界了。

    AI 的未来

    Lenny:当下 AI 领域里,哪些东西被高估了?哪些被低估了?

     

    Kiriti:与其说“被高估”,不如说有些概念被严重误解。一个典型例子是多 Agent 系统。很多人会觉得:我有一个复杂问题,只要拆成几个子任务,分别交给不同的 Agent,再把它们连起来,就能实现所谓的“Agent 乌托邦”。现实并非如此。当然,成功的多 Agent 系统确实存在,但关键在于,你如何限制系统偏离轨道的方式。

     

    例如,用一个监督型 Agent 来协调多个子 Agent,是一种非常成熟、有效的模式;但如果只是按功能拆分职责,期望这些 Agent 通过某种“点对点协作”自然形成整体能力,那在当前的模型能力和工程范式下,往往行不通。这并不是多 Agent 被高估,而是人们高估了它在现阶段能“自发协同”的程度。

     

    我觉得 Coding Agent 仍然被低估了。你在 Twitter 或 Reddit 上会看到大量讨论,但你会发现它的真实渗透率依然很低,而潜在价值却极大。我认为 2026 年会是集中优化这些流程、释放巨大生产力的一段时间。

     

    Lenny:相比预先设计一堆各司其职的 Agent,更现实的路径,可能是让一个更强的 Agent 自己完成任务拆解和协调?

     

    Kiriti:没错。你可以由人来编排多个 Agent,也可以由一个更大的 Agent 负责统筹。但如果让多个 Agent 以点对点的方式自由通信,尤其是在客服这类对输出高度敏感的场景中,几乎不可能精细地控制“到底是哪个 Agent 在对用户说话”,护栏成本会急剧上升。

     

    Aishwarya:我认为 eval 是被误解的概念。它当然重要,但“不断切换工具、学习新工具”这件事被高估了。我依然是比较传统的看法:真正值得投入精力的,是对你要解决的业务问题保持极度专注,AI 只是工具而已。你当然需要了解最新进展,但不要把“快速构建”本身当成目标。今天构建的成本已经非常低了,真正昂贵的是设计,是你是否真正想清楚了产品要解决什么痛点。对问题本身和产品设计的执着,是被低估的,而单纯追求“快点做出来”,是被高估的。

     

    Lenny:从产品视角看,你们觉得未来一年 AI 会走向哪里?

     

    Kiriti:我非常看好“后台型”或“主动型” Agent。当前 AI 难以持续创造价值,很大程度上是因为它缺乏上下文,而原因在于它还没有真正接入工作发生的地方。一旦 Agent 被更深地嵌入真实工作流,获得更丰富的上下文,它就能理解你在优化什么指标、试图完成哪些活动。接下来顺理成章的一步,就是由 Agent 主动反过来提示你。

     

    我们已经在 ChatGPT Pulse 这样的功能中看到雏形,它每天推送一些你可能关心的更新,帮助你“唤醒思路”。把这一模式扩展到更复杂的任务中,比如 Coding Agent 在你一天开始时告诉你:“我已经帮你修复了五个工单,这是补丁,看看就行。”我认为这会在 2026 年成为非常重要的产品方向。

     

    Aishwarya:我非常期待 2026 年的多模态体验。2025 年我们已经取得了不小进展,不只是生成能力,在理解层面也是如此。但到目前为止,LLM 仍然是最常用的模型形态,而人类本身是高度多模态的。语言其实是我们进化中相对靠后的表达方式。即便我们在对话中,也在不断接收视觉、表情、语气等信号,并据此调整表达。如果能构建真正丰富的多模态交互,将会更接近人类对话的真实复杂度。

     

    此外,还有大量“枯燥但重要”的任务等待被自动化。如今依然有无数手写文档、杂乱的 PDF,即便是最先进的模型也难以处理。一旦多模态理解能力真正成熟,我们就能解锁大量此前无法触及的数据资源。

     

    Lenny:如果有人想提升自己构建 AI 产品的能力,你认为最值得重点培养的一两项技能是什么?

     

    Aishwarya:从小处着手、快速迭代、建立正向飞轮等。但如果站在更高的视角来看,对于当下的产品构建者而言,实施成本在未来几年会变得极低,真正稀缺的将是设计能力、判断力和审美品位。无论是做产品还是规划职业路径,早期几年往往专注于执行层面的技术细节,而随着 AI 大幅降低上手门槛,几年之后,每个人的价值都会更多体现在品味、判断,以及那些“只属于你”的东西上。

     

    这种能力并不一定来自年龄或多年经验。我们最近招了一位同事,团队一直在用一款价格不菲的任务管理工具,他却直接带着自己手写的应用来开会,当场把我们全部拉进去开始用。那种主动性和主人翁意识,敢于重新思考既有体验,正是最能拉开差距的地方。当然,这类自建工具在规模化后可能有维护成本,需要替换或升级,但在小团队阶段,这种“先做出来再说”的态度让我非常震惊。很多在 AI 时代成长起来的人,对“构建”的心理成本极低,也更愿意尝试新工具。这或许也是为什么很多 AI 产品存在留存问题,大家都太容易被新工具吸引了。

     

    归根结底,真正重要的是主动性和责任感。“忙碌但无效”的工作时代正在结束,你不可能再躲在角落里做对公司没有实质影响的事,而必须思考端到端的流程,以及如何创造更大的影响。

     

    Lenny:这让我想到我之前请过 Jason Lemkin 上节目。他把整个销售团队几乎都替换成了 Agent:原来 10 个销售,现在是 2 个人加 20 个 Agent。结果有位销售直接辞职了,因为他发现自己“什么都没干”,很快就会被系统识别出来。这也印证了你的观点——混日子会越来越难。

     

    Kiriti:坚持和承受“痛苦”的能力同样被严重低估。如今信息触手可及,几乎任何人都可以在极短时间内学习新东西,但真正的差别在于,是否愿意经历反复试错的过程——学习、实现、失败、再调整,真正理解什么有效、什么无效。我常说“痛苦是新的护城河”,这种在实践中积累的经验,无论对个人还是公司,都会沉淀为难以复制的优势。

     

    很多成功的公司,并不是因为抢先进入市场,或拥有多么炫目的功能,而是因为他们经历了足够多的痛苦,搞清楚哪些是不可妥协的核心点,并在模型能力、功能取舍之间不断权衡。这没有标准答案,也没有教科书,只能靠一轮又一轮的迭代。正是这些过程中的“痛苦”,最终塑造了个人能力和公司的长期竞争力。

     

    Aishwarya:专注于问题本身。AI 只是工具,关键在于你是否真正理解自己的工作流。很多所谓的 AI 工程师和 AIPM,把大部分时间花在理解业务流程、用户行为和数据上,而不是追逐最炫的模型。真正的差异化,永远来自对用户和问题的深度理解。

    闪电问答

    Lenny:你们最常推荐的书是什么?

     

    Aishwarya:《当呼吸化为空气》。作者 Paul Kalanithi 是一位神经外科医生,在三十出头被诊断出肺癌。这本书让我意识到,我们是否花太多时间“评估人生”,却忘了真正去生活。

     

    Kiriti:我更偏爱科幻,《三体》三部曲。它不仅讨论外星文明,也深入探讨科学、地缘政治与人类决策,对理解技术与文明的关系非常有启发。

     

    Lenny:如果喜欢科幻和 AI,我还强烈推荐《深渊上的火》(A Fire Upon the Deep)。

     

    Lenny:最近最喜欢的影视作品?

     

    Aishwarya:我在重刷《硅谷》,它出奇地不过时,如今的 AI 浪潮和当年的情景高度相似。

     

    Kiriti:我选一个游戏,《Expedition 33》。制作精良,故事、音乐和玩法都非常出色。

     

    Lenny:最近发现并非常喜欢的一款产品?

     

    Aishwarya:Whisper Flow。我没想到自己会这么依赖它,它能把语音自然地转化为指令,体验非常顺滑。

     

    Kiriti:我偏好效率工具,比如 Raycast 和 caffeinate,让我在本地跑长时间任务时效率更高。

     

    Lenny:你的人生信条?

     

    Aishwarya:“人们说这件事做不到,但那个傻子不知道,于是他做成了。”在这个数据随时告诉你“你大概率会失败”的时代,保留一点愚蠢的勇气很重要。

     

    Kiriti:乔布斯那句话:你只能回头看时,才能把点连成线。所以不断前进、持续尝试就好。

     

    Lenny:你最欣赏对方的一点是什么?

     

    Aishwarya:Kiriti 非常冷静、踏实,是我最重要的“回声板”,而且他是我见过最好的丈夫。

     

    Kiriti:Aishwarya 最大的特点是,她能把复杂问题讲得极其清楚,并且始终保持耐心和坚持,这在快速变化的 AI 时代非常珍贵。

     

    参考链接:https://www.youtube.com/watch?v=z7T1pCxgvlA

    引言

    只需一句“2025年公司内部新能源车电池技术突破的讨论纪要”,就能从堆积如山的公司文档、会议记录和研究报告中,瞬间定位到最相关的段落及其原始文件——这不再是科幻电影中的场景,而是今天每一家企业都应具备的“基础智能”。实现这种“基础智能”的关键,正是强大的检索能力,而依托 AI ready 原生架构与向量数据湖的统一存储能力,结合 RAG 与多模态技术,这份能力已成为企业数智化转型的核心支撑。

    MetaInsight,让 RAG 变成可轻松消费的云服务

    在过去,为你的应用赋予基于私有知识的问答能力,搭建一整个 RAG 应用,意味着你要启动一个「小型工程项目」。

    你需要做出一系列艰难的选择:该选用哪家向量数据库(Pinecone、Milvus、 Chroma 还是 Tencent Cloud VectorDB)?文本分块策略到底设成多大?重叠字符多少才合适?该用哪个嵌入模型?而后,你还需要投入持续的运维精力来维护这套系统。整个流程繁琐、专业且充满不确定性,大量精力耗费在基础设施的搭建和调试上,而非业务逻辑本身。

    而现在,腾讯云数据万象中 MetaInsight 能力全新升级, “文档检索”核心能力正式上线,以 AI ready 为核心定位,深度融合向量数据湖、RAG 与多模态技术,具备精准解析、高效定位与深度挖掘三大特性,为企业提供更强大、更智能的非结构化数据检索方案,真正降低 RAG 与多模态应用的落地门槛。

    1

    原本复杂的 RAG 检索模块调用,整个流程被压缩为几步清晰的 API 调用:

    • 「创建存储」:简单的接口调用,在云端创建一个专属的、全托管的文件搜索存储区;
    • 「上传文件」:将您的 PDF、DOCX、PPTX、TXT、MD 等文档直接上传到腾讯云对象存储 COS;
    • 「创建数据集」:从涵盖了“基础元数据检索”、“图片检索”与“文档检索”的丰富算子模板库中,选择一个适合您业务需要的算子模板,完成数据集的创建;
    • 「绑定存储与数据集」:将您的 COS 桶或桶路径与创建好的 MetaInsight 数据集进行绑定,MetaInsight 的内置模型便会对 COS 中存储的文件进行相应的 AI 处理(包括但不限于 Embedding,提取标签,总结描述等);不仅仅是存量文件,后续上传的文件也会自动执行相关的全自动处理;

    2

    • 「提问并获取答案」:在提问时,只需一个简单的接口调用,根据您选择好的算子模板,模型便会自动检索你的知识库,并快速找到基于事实、附带引用的答案。

    3

    为了更直观地展示由开发者手动搭建传统 RAG 检索模块与直接使用 MetaInsight 的差别,我们整理了一份详细的表格,展示了各种模块的处理难点与使用 MetaInsight 后的便捷。

    特性 / 步骤传统 RAG 检索模块 (手动搭建)MetaInsight(全托管)
    1. 文档解析 (Parsing)解析器配置、文本清洗、结构化提取、文档分块、格式适配、质量过滤自动处理,内置高效文档解析模块
    2. 文档分块 (Chunking)需手动设计策略 (如按段落、定长)自动处理,内置优化分块策略
    3. 查询改写(Rewriting)需手动处理改写方法、规则模板、模型参数、过滤约束、场景适配等问题自动处理,内置优化后的查询改写模块
    4. 向量化 (Embedding)自行选择和管理 Embedding 模型自动使用最新的腾讯云大语言模型进行向量化工作
    5. 向量数据库 (Vector DB)需自行部署、调优和扩展完全托管,无需管理数据库
    6. 检索策略 (Retrieval)需手动调优检索算法 (如相似度、MMR)内置最新向量检索技术
    7. 重排序 (Rerank)需手动调整模型 / 特征权重、候选数、多样性、融合策略等内容内置最新重排序相关能力,无需考虑复杂策略
    8. 引用与溯源 (Citations)需自行开发,关联 chunk 与原文档内置引用,自动返回答案来源和出处
    9. 工程运维 (Ops)高度复杂,需专人维护和扩展零运维 (Serverless),按需使用

    助力千行万业,MetaInsight 的场景应用

    腾讯云 MetaInsight 具备多种检索能力,可以广泛适配多个不同行业的多种复杂场景:

    • 文档检索:解决 “海量非结构化文本找不准、读不懂、用不上” 的痛点,实现全文、语义、条款级精准检索,适配法律、金融、医疗等知识密集型行业的核心文档需求;

    4

    • 图片检索:弥补文本检索的视觉信息缺口,适配电商、医疗、工程等 “图文混合” 场景,实现 “以文搜图、以图搜图”,提升视觉信息利用率;

    5

    • 基础检索:作为高效筛选入口,结合元数据实现快速分类、归档、定位,与前两种能力形成 “元数据 + 内容 + 视觉” 的三维检索体系,覆盖全类型信息管理需求。

    如下表格为您梳理了广泛适配场景,助您快速找到相关行业应用于落地机会:

    适配行业基础元数据检索文档检索图片检索
    法律行业按案件、部门、生效时间筛选检索合同、判决书、合规文档等,提取关键条款与案例核查证据照片、资质/印章扫描件
    金融行业按公司、客户等级、风险评级筛选检索研报、财报、征信等文档,提取核心数据与合规要点解析研报图表、核查证件/抵押物图片
    医疗健康行业按患者ID、病种、学科筛选检索电子病历、检查报告等,提取病史与诊疗要点查看 CT、病理切片、医学示意图
    政务与公共服务按部门、年代、事件类型筛选检索政策文件、档案等,提取工作要求与核心内容核查群众证明材料、历史照片
    企业知识管理按部门、项目、文档类型筛选检索内部制度、项目文档等,快速定位核心知识点查看产品示意图、流程图表、现场照片
    电商与零售行业按商品类目、供应商筛选检索商品说明书、质检报告等,提取参数与标准实现图文互搜,核查商品问题、资质图片
    教育与科研行业按学科、年级、项目筛选检索论文、教案等,提取研究结论与教学要点查看实验图片、课件图表、专利附图
    工程与制造行业按项目、产线、批次筛选检索施工图纸、技术规范等,提取技术参数查看图纸截图、设备故障、施工现场照片

    MetaInsight 与广大开发者携手,迈向智能化的未来

    对于绝大多数技术开发者而言,是一次巨大的「生产力解放」。MetaInsight 让使用者告别复杂基建,解放时间与精力,更好专注到核心业务。

    • 「应用开发者与中小团队」:他们是最大的赢家。以往被复杂技术栈和运维压力所阻挡的创新想法,现在得以快速验证。一个最小的可行产品(MVP)的开发周期可以从数周缩短至几天。他们可以真正“站在巨人的肩膀上”,将宝贵的研发资源聚焦于业务逻辑、用户体验和垂直行业的深度结合上。
    • 「企业内部的技术团队」:对于非核心 AI 研发的企业,MetaInsight 是降本增效的利器。法务、人力、客服、研发管理等团队,可以近乎零成本地搭建起高度专业的内部知识助手,极大提升了信息流转和决策效率。技术门槛的降低,使得AI应用得以在企业的毛细血管中迅速普及。
    • 「教育机构与个人学习者」:RAG 技术不再高不可攀。学生和个人开发者能够以极低的成本接触、实践并创造出功能完整的 AI 应用,这无疑将加速 AI 人才的培养和整个生态的繁荣。

    腾讯云 MetaInsight 最新功能“文档检索”已正式启动内测,尝试用更自然的方式探索数据,用更智能的工具创造价值。

    没人写代码,也没人看代码,软件照样交付?

     

    2026 年 2 月,一家专注于基础设施安全的公司 StrongDM 公开了一套“软件黑灯工厂”式的生产线成果。

     

    在这个生产线里,人类不再直接写代码、也不承担代码审查;开发从交互式协作变成“把 spec 和场景喂给系统”。随后由 Agent 自动生成代码、运行测试/评测 harness,并在反馈回路里反复迭代,直到结果收敛、可以交付为止。团队把这套玩法写进章程,最重要的只有一句话——No hand-coded software。

     

    StrongDM AI 还不寻常的开源了它们:

     

    其中一个仓库是:https://github.com/strongdm/attractor

     

    这是他们“软件工厂”体系中最核心的非交互式编码 Agent。不过,这个仓库本身一行代码都没有:里面只有三份 Markdown 文件,极其细致地描述了软件的完整规格说明(spec),以及 README 里的一句提示——把这些规格说明交给你选择的编码 Agent 去执行即可。

     

    另一个仓库https://github.com/strongdm/cxdb

     

    这个则更接近传统意义上的软件发布:包含 1.6 万行 Rust、9500 行 Go,以及 6700 行 TypeScript。这是他们的 “AI Context Store”——一个用于存储对话历史和工具输出的系统,数据以不可变 DAG 的形式组织。

     

    在 Hacker News 的讨论中,很快就有开发者按图索骥,实际跑了一遍这套流程。他表示,自己仔细阅读了 Attractor 仓库中的文档,并严格按照 StrongDM 提供的规范,让 Claude 基于 spec 构建了一个完整应用。最终生成的是一个可以直接使用 Claude API Key 的 AI 代理,其整体质量“明显好于让模型自由发挥时生成的结果”。

     

    让他印象最深的,是这套规格说明的体量和细节程度:整套 spec 大约6000–7000 行,覆盖了行为约束、接口语义以及系统边界。“我以前给代理布置项目时,规格说明最多也就一页纸,这次的细节密度让我非常震惊。”

     

    当然,这次开源并不是一个“打磨完毕”的展示版本。代码一经放出,Hacker News 上就有开发者迅速上手检查,指出其中存在疑似 bug、Rust 反模式,以及相对宽松的错误处理方式。对此,StrongDM AI 团队成员 Jay Taylor 在评论区回应称,这批项目“是最近几天才决定开源的”,尚未经过充分的技术优化,目前已经安排代理继续对 CXDB 进行清理和改进。

     

    这套实践也很快得到了学界的点名。沃顿商学院研究 AI 与组织变革的教授 Ethan Mollick 在转发 StrongDM 的公开内容时直言,这是一次“真正激进的软件开发方式”:“几乎没有任何人类介入。即便这种方式未必适用于大多数场景,我们也需要更多这样的跳级式设想,去重新设计流程,而不是只把 AI 塞进旧流程里。”

     

    在他看来,真正有价值的进步,不是在原有流程上“多加一点 AI”,而是围绕 AI,把流程本身重做一遍

     

    一条“禁止手写代码”的内部实验线

     

    StrongDM 是一家专注于基础设施访问与身份安全的公司,核心工作是管理人类与非人类身份如何安全地连接到数据库、云资源和各类内部系统。

     

    而他们的 AI 团队成立于半年前, 2025 年 7 月 14 日这天,Jay Taylor、Navan Chauhan 与 StrongDM 的联合创始人兼首席技术官 Justin McCarthy 一起,正式把一条原本分散在内部的探索工作,独立成一个专门的团队。

     

    新团队成立后,第一天的工作并不是写代码,而是写一份章程。Justin McCarthy 在回顾中提到,在团队成立的第一个小时,他们就先明确了一组接下来必须遵守的约束条件。

     

    代码不得由人类编写。

     

    代码不得由人类审查。

     

    如果你今天在每位人类工程师身上花费的 token 成本还不到 1000 美元,那么你的软件工厂还有很大的改进空间。

     

    在 StrongDM 自己的回顾里,这个决定并不是一时冲动。其背景要追溯到 2024 年末。随着 Claude 3.5 在 2024 年 10 月的第二次修订发布,团队开始观察到一个此前并不常见的变化:在长时序的 Agentic 编程任务中,结果开始叠加正确性,而不再只是不断叠加错误。

     

    到了 2024 年 12 月,这一变化已经可以通过 Cursor 的 YOLO 模式清晰地观察到。

     

    StrongDM 在博客中写道,在此之前,将 LLM 反复用于编码任务,往往会累积误解、幻觉、语法错误、依赖不兼容等问题,最终让系统“慢慢坏掉”;而结合 YOLO 模式,Anthropic 的更新模型第一次展现出他们后来在内部称之为“非交互式开发”或“成长型软件”的雏形

     

    在这样的背景下,新成立的团队从一开始就确立了一条极端的实验前提:不允许任何手写代码。在 2025 年 7 月,这听起来依然相当激进。

     

    其中最耐人寻味的,是第二条规则:代码不得由人类审查。毕竟大家都很清楚,大语言模型极其容易犯下一些“非人类式”的错误;在这样的前提下,彻底放弃人工 code review,本身就显得反直觉。

     

    更何况,安全软件向来是最不愿意交给“未经人工审查的 LLM 代码”去支撑的一类系统。

     

    规则落地后,问题也随之出现:如果什么都不手写,怎么确保代码真的能跑?让 Agent 自己写测试,只在一个前提下有用——它们不会“作弊”,比如直接写个 assert true。

     

    这也迅速被他们提炼成一个更根本的问题:当实现和测试都由编码 Agent 生成时,你要如何证明自己交付的软件是可工作的?StrongDM 的答案,受到了场景测试(Scenario Testing,Cem Kaner,2003) 的启发。他们是这样描述的:

    我们重新定义了“场景(scenario)”这个词,用它来表示一个端到端的“用户故事”。这些场景通常存放在代码库之外(类似模型训练中的“留出集”),既能被 LLM 直观理解,又可以灵活地进行验证。

     

    由于他们构建的软件本身往往就包含 Agentic 组件,StrongDM 也随之放弃了“测试全绿”这种布尔式成功定义,转而采用一种更接近真实体验的度量方式。他们引入了“满意度(satisfaction)”这个概念,用来量化验证结果:在所有场景中观察到的执行轨迹里,有多大比例可能令用户满意?

     

    他们把这些场景当作“隔离集”,不存放在编码 Agent 能直接访问的地方,用来评估系统整体行为。这个设计本身就很有意思,它在某种程度上,模拟的是传统软件工程中一种极其昂贵、但也极其有效的做法——由外部 QA 团队执行的强力端到端测试。

     

    合成场景策划与塑造界面

     

    从软件工厂的整体原则来看,StrongDM 把这一切总结为一条清晰的流程:“种子 → 验证 → 反馈回路”。系统先接收一个最小起点——几句话、截图,或一个已有代码库;然后在尽量贴近真实世界的验证环境中跑场景,把输出持续反馈回输入,让系统在闭环中自我纠错、不断叠加正确性;循环会一直运行,直到所有被隔离出来的场景不仅通过,而且能持续通过。token 被他们形容为这条生产线的燃料。

     

    将“验收”交给 spec?

     

    在 StrongDM 的软件工厂里,spec 并不是用来给人看的设计说明书,而是整个系统能够启动、纠偏和收敛的核心输入。

     

    在传统开发流程中,spec 更多是一种“对齐工具”:它帮助工程师理解要做什么,但真正的实现细节、权衡和妥协,往往发生在代码和 code review 过程中。而在 StrongDM 的设定下,当“人不写代码、人不看代码”成为前提,spec 的角色被彻底前移——它不再是参考材料,而是事实上的控制面。

     

    团队要求系统能够“从层层递进的自然语言规范中生长”,并且必须能够在“不对源代码做语义层面检查的情况下完成验证”。在这种设定下,“验收”本身也被重写了。spec 与场景(scenario)一起,构成一个不断运行的评测基准:模型生成的行为是否符合规范,不是靠人去读代码判断,而是靠它在这些场景中跑出来的结果是否持续满足预期。

     

    换句话说,StrongDM 的方法把覆盖率从“人为写了多少测试”这一维度转向了“规范/场景是否足够多与足够准确”+“验证生态能否在闭环中捕获异常”这一维度。

     

    基于这一理念,StrongDM 还进一步提出了他们的另一个关键概念:数字孪生宇宙(Digital Twin Universe, DTU)。

     

    StrongDM 的定义是:数字孪生宇宙是一组对第三方服务的行为级克隆体。他们构建了 Okta、Jira、Slack、Google Docs、Google Drive 和 Google Sheets 的孪生系统,复刻这些服务的 API、边界情况以及可观察到的行为。

     

    有了 DTU,他们就能在远超生产环境限制的规模和速率下做验证:既能测试那些在真实服务上危险、甚至根本不可能尝试的失败模式,也能每小时运行成千上万个场景,而不必担心触及限流、触发滥用检测,或累积 API 成本。

     

    那这些 Okta、Jira、Slack 的关键行为是怎么“克隆”出来的?答案是:用编码 Agent。

     

    有人将这套做法概括为一条可复用流水线:把某个服务的完整公开 API 文档直接喂进 Agent harness,让它生成一个自包含的 Go 二进制程序去模拟这些 API;然后在此基础上再快速搭一个简化 UI,方便把整套仿真跑通、跑顺。

     

    随后,DTU 的创建者 Jay Taylor 在 Hacker News 上补充了一些背景,分享了一条关键的提示策略:

    我最初有一个关键洞察,最终形成了一套可重复的方法,用来确保 DTU 与官方 SaaS 服务之间具有高度一致性:以最流行、公开可用的官方 SDK 客户端库作为兼容性目标,始终追求 100% 兼容。

     

    当这些不受限流和配额约束的服务克隆体跑起来后,一整支“模拟测试 Agent”队伍也就能彻底放开手脚。场景测试不再是一锤子买卖的验收环节,而是变成了 Agent 会反复、持续执行的脚本:系统一边搭建,一边就被不停拉出来跑场景、做验证。

     

    他们的 Slack 孪生系统截图也直观展示了这种测试方式:一批模拟的 Okta 用户不断出现,并分别去申请访问不同的模拟系统。

     

    问题依然是:太烧钱了?

    在惊艳之外,这次实验也迅速暴露出一个无法回避的现实问题:成本。

     

    在 Hacker News 的实操反馈中,有开发者提到,按照 StrongDM 提供的 spec,让 Claude 构建完整应用时,TypeScript 路线的 token 消耗极高,不得不中途给账户充值,才能在一个晚上把流程跑完。他甚至计划改用 Rust 或 Go 再试一次,只是为了看看是否能把成本压下来。

     

    这个反馈并非个例,也不是枝节问题。StrongDM 团队在内部曾提出过一个颇具冲击力的衡量标准:如果你今天在每位人类工程师身上花费的 token 成本还不到 1000 美元,那么你的软件工厂还有很大的改进空间。

     

    这句话一旦落到现实,就更像是一个商业模式的探讨:你能否打造出一条足够盈利的产品线,从而负担得起以这种方式开发软件所带来的巨大成本?当任何竞争对手只需几个小时的编码代理工作就能克隆你的最新功能时,构建可持续的软件业务也变得截然不同。

     

    另外,正如 StrongDM 团队在回顾中所说,其实这一切技术上是可行的,只是以前从经济上来说不划算:

     

    “构建一个高保真 SaaS 应用的克隆在技术上一直可行,但在经济上从未现实过。几代工程师都可能想过,做一个完整、内存级的 CRM 副本来测试,但最终往往会在心里把这个提案按下去——‘算了,太不划算了’。”

     

    即使对于那些不打算在 token 成本上一次性投入数千美元的团队和个人来说,StrongDM 这种做法依然有很多值得思考的地方,尤其是在人力成本和个人投入回报这一层面。对程序员个人而言,真正的问题或许不只是“现在贵不贵”,而是:当算力成本持续下降几乎成为共识时,你是否已经开始为新的角色和分工做技能投资——还是仍然把全部价值押在“写代码本身”上。

     

    这是个很有意思的观点,不过我想从另一个角度补充一下:如果按每个月 20 个工作日来算,那就是 2 万 × 12 = 24 万美元一年,差不多等于一个 FANG 新毕业生的总包(TC)

    我和不少初级到中初级的软件工程师(SDE)共事过,说实话,其中 80% 的表现并不比 Claude 好。(我也见过一些 staff 级别的工程师写出的代码比 AI 还差,但他们通常会用领域知识和技术负责人职责把短板补回来。)

     

    我确实看到,AI 正在把软件工程进一步推向一种金字塔结构顶层只有极少数人类,其余大量工作由 AI 承担。

     

    虽然从按现在的成本算,AI“还没便宜到值得完全替代人”,但有网友认为成本下降也许能够预期:“我在想,这会不会只是软件工厂还处在非常早期、效率极低阶段的副产品。Yegge 和 Huntley 都承认,他们在做的自治工厂实验既昂贵又浪费。从制造业的历史经验来看,我反而会预期:随着方法逐渐成熟、流程被不断优化,成本会慢慢降下来。”

     

    而在博客中的最后,他们给出的结论,也为这条实验线画上了一个颇具警示意义的注脚:“我们这些构建软件工厂的人,必须刻意保持一种天真:主动识别并移除软件 1.0 时代留下的习惯、惯例和限制。数字孪生宇宙(DTU)就是最好的证明——六个月前还不可想象的事情,如今已经成了日常。”

     

    参考链接:

    https://factory.strongdm.ai/

    https://simonwillison.net/2026/Feb/7/software-factory/

    https://news.ycombinator.com/item?id=46924426#46931812