标签 AGI 下的文章

世界模型真的变天了!

今天,谷歌正式发布重磅世界模型原型产品“Project Genie”,只需一句话或一张图,就能一键生成可玩、可交互的实时虚拟世界。它的重磅程度,让谷歌“掌舵人”劈柴哥和 Google DeepMind 创始人哈萨比斯亲自为它站台。

在 Project Genie 生成的虚拟世界中,你可以用 WASD 键移动角色、旋转视角、跳跃,在生成世界自由探索。更重要的是,其生成画面的精细度、整体完成度,已经明显超出以往研究型 Demo 的范畴,在观感上直逼成熟游戏产品。

过去几年,世界模型一直被认为是通往 AGI 的重要路径,但始终存在一个根本问题:它们更像会动的视频,而不是真正的环境。

具体来说,早期世界模型普遍存在几大短板:

  • 生成世界质量偏低,结构简单

  • 难以实时交互,或只能交互一两步

  • 长期一致性差,画面和规则会“漂移”

  • 不符合物理和因果逻辑,更像梦境而非世界

而 Project Genie,第一次把这些问题同时拉到了可用水平。

Project Genie 是一个基于 Genie 3、Nano Banana Pro 和 Gemini构建的原型 Web 应用,其中的核心是谷歌最新的世界模型 Genie 3。

与以往“先生成完整视频”的方式不同,Genie 3 采用自回归生成机制:它会根据世界描述和用户操作,逐帧生成环境状态,而不是播放预先生成好的内容。

这带来了几个关键变化:

  • 长期一致性生成的世界可以在数分钟内保持稳定,不会快速崩坏;系统还能“记住”用户造成的关键变化,记忆时间最长可达约一分钟。

  • 真正的实时交互世界以 20–24 帧/秒运行,用户的操作会即时反馈到环境中,而非触发预设结果。

  • 更高质量的视觉表现生成画面分辨率约为 720p,整体真实感和细节水平明显高于以往世界模型,为智能体理解复杂环境提供了更可信的视觉基础。

谷歌早在 2025 年就将 Genie 3 称为“通往 AGI 的关键一步”。而在 Project Genie 的官方页面中,谷歌再次强调:

Genie 3 让智能体能够预测世界如何演化,以及自身行为如何影响世界,这是实现推理、规划和现实行动的基础。

可以说,在 Project Genie 身上,已经释放出一个非常明确的信号:世界模型正在从长期的前沿研究方向,正式迈入可落地、可探索的关键阶段

一旦世界模型能够稳定生成高质量、可交互、具备长期一致性的环境,其应用边界将被迅速打开。

无论是自动驾驶中的复杂场景模拟、具身智能的环境理解与决策训练,还是游戏开发、影视制作、互动教育与新型媒体内容创作,世界模型都展现出极具想象空间的潜力。

据 The Verge 报道,谷歌选择在这一时间点推出 Project Genie,部分原因在于希望观察用户的真实使用方式,从而发现此前尚未预料到的新应用场景。

Google DeepMind 产品经理 迭戈·里瓦斯透露,谷歌内部已经对 Genie 在电影制作、互动教育媒体等领域,帮助创作者进行场景可视化与世界构建的潜力感到兴奋。

目前,Project Genie 仍是实验性产品:

  • 单个世界最长探索 60 秒

  • 分辨率约 720p,帧率约 24fps

  • 仅向美国地区、18 岁以上的 Google AI Ultra 订阅用户开放

Project Genie 发布后迅速引发热议。马斯克第一时间发文祝贺

关于 Project Genie 的讨论,也在 X 上迅速扩散,不少网友将其称为又一个“变革时刻”。

对此,Project Genie 负责人之一 Jack Parker-Holder 表示:

Genie 3 感觉像是世界模型领域的一个分水岭。我们现在可以生成任何可想象世界的、持续数分钟的实时交互式模拟。这可能正是具身通用人工智能此前缺失的关键一环。

网友们玩疯了,在游戏世界释放创意

具体来看,Project Genie 的使用流程并不复杂。进入页面后,用户可以直接从 Google 预设的多个世界模板中选择,也可以完全自定义环境和角色,构建一个专属的虚拟世界。

为实现更精准的控制,Project Genie 会用 Nano Banana Pro 的能力,先为生成世界打个“草稿”。

整个页面被清晰地分成左右两部分:

  • 左侧用于填写环境的 prompt,例如地形结构、视觉风格和整体氛围;

  • 右侧则用于描述主角的形象与设定,并可选择第一人称或第三人称视角,从而提前确定进入世界后的体验方式。

完成初步设定后,Genie 会先生成一个缩略图,可以对生成内容进行预览和微调。如果符合预期,就能进入生成世界,开始实时交互与自由探索。Genie 3 的响应延时非常低,在控制角色移动时,会带来强烈的沉浸感。

在官方案例中,你可以把自己变成一个球,在草原上自由滚动。

可以看到,如果转换视角,球滚动留下的痕迹并不会消失,新生成的内容也不会覆盖旧区域。这一细节直观地体现了 Project Genie 所强调的世界一致性。

在另一个官方案例中,你可以变成刷墙工人,想刷哪面墙就刷哪面,整个虚拟世界可以实时交互,且看起来十分合理。

谷歌表示,这是想象力空间的无限释放,无论是自然世界或现实场景,还是构建动画、小说中的奇幻世界,甚至是突破时间与空间限制的未来世界,都可以被创造出来。

不少网友迅速上手,开始“放飞自我”式创作,其中,各类游戏风格世界不断涌现。

比如在沙滩上骑摩托:

更绝的是直接制作山寨版“任天堂”游戏。比如马里奥系列,《塞尔达传说》,《银河战士》。

即便抛开体验层面的不足不谈,Project Genie 在生成世界的质量与完成度上,依然足以令人震撼。这也难免让人产生进一步的联想,游戏从业者会不会大规模失业?

这一担忧并非空穴来风。根据 Informa 本周发布的游戏开发者大会(GDC)报告,33% 的美国受访游戏开发者、以及 28% 的全球受访游戏开发者表示,他们在过去两年中至少经历过一次裁员。Project Genie 可能会进一步扩大这种趋势。

不过,围绕 Project Genie 的能力边界,也有人提出质疑。

The Verge 的记者亲自上手试验后认为,从“游戏”的角度来看,Project Genie 所生成的“可玩世界”显得相当单调。

除了基础移动操作外,玩家几乎无事可做。没有任务目标,也缺乏音效反馈。更糟糕的是,输入延迟时有发生,甚至会出现角色失控、只能旋转视角的情况,严重影响整体体验的流畅度。

该记者还提到,在仅有 60 秒 的探索时间内,世界的一致性并不稳定。系统有时会“忘记”此前生成的内容,例如滚动的小球留下的颜料痕迹会突然消失,已生成的道路也可能被重新覆盖为草地。这些现象让人难以确认模型是否能够持续、可靠地维护同一个世界状态。

在内容生成层面,Project Genie 对知名游戏 IP 也存在明显限制。测试中,索拉、唐老鸭、高飞、杰克·斯凯灵顿等角色均无法直接用于生成可交互世界,相关内容在进入实际体验阶段会被系统拦截。

目前,与生成世界交互的智能体只能执行较为有限的操作,同一世界中多个模型之间也难以协同互动。此外,Genie 在渲染清晰文本、还原现实世界具体地点方面仍存在困难,智能体对控制指令的响应有时也会出现异常延迟。

对此,谷歌方面回应称,Genie 并非游戏引擎,团队更关注它在增强创意过程、提升构思能力以及加快原型制作方面所展现出的潜力。

在 Geinie 3 官网上也特别强调,目前产品仍处于早期研究阶段,因此会有:生成的世界可能看起来并不完全逼真,也不一定总是严格遵循提示、图像或现实世界的物理规律;角色有时可能难以控制,或者控制延迟较高;生成时间受限等问题。

Project Genie 团队深度揭秘关键问题

在 Project Genie 上线不久,其背后的核心团队第一时间接受采访,包括 Google DeepMind 研究总监 Shlomi Fruchter、Google DeepMind 的研究科学家 Jack Parker-Holder、产品 Diego Rivas,他们都对世界模型长期关注,在这次访谈中深度揭秘 Project Genie 的关键问题。

这次对话讨论了:什么是世界模型?为什么只能生成 60 秒?Project Genie 的研发历程是什么?它未来真正可能改变的是哪些领域?

他们首先承认 Project Genie 的强大确实源于谷歌视频生成技术的积累,但同时他们也强调,Genie 并不是更强的“视频模型”,而是人类第一次可以实时走进、操控、改变的生成世界。

其中的核心差异是,世界模型是逐帧实时生成,能与过去保持物理与视觉一致性,并且用户可随时干预。这对延迟、内存、算力的要求,比普通视频生成高得多,也是更前沿、更有挑战的方向。

针对不少人抱怨“60 秒不够”的问题,他们表示这是在服务成本、系统稳定性和体验质量之间做出的权衡。他们其实已经做出过更长时间的生成世界,但在实际测试中发现,随着生成时间拉长,世界的动态感反而会逐渐减弱。

研究员表示“与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。”

针对模型的生成速度,他们表示已经够快了,短期内进一步“加速”并没有太大意义。接下来,他们更重要的研发方向,是降低算力成本,让这种能力能够被更多人真正用得起。

在产品定位上,他们并不把 Genie 看作一款游戏,而更像是一个正在快速演化的实验场:

  • 一方面,多人互动、长期一致性、复杂动态仍然是明确的技术瓶颈;

  • 另一方面,娱乐、教育、具身智能、机器人训练等方向,已经展现出非常清晰的应用前景

回顾产品研发历程,从论文阶段的 Genie 1,到今天普通用户可以亲自上手体验的 Genie 3,这背后其实是谷歌一整套高度协同的跨部门合作。

谷歌实验室与谷歌创意实验室是研发的核心力量,而服务团队、基础设施团队和沟通团队则共同兜底,确保这项起源于强化学习的前沿研究,能够被真实用户理解、体验并持续使用。

当团队回看去年八月时,他们很清楚,当时外界已经迫不及待想“走进这个世界”,但 Genie 仍然只是一个规模庞大的研究项目。即便如此,研发人员脑海中已经浮现出一系列潜在应用场景,其中最清晰的方向之一,正是具身智能。一个标志性的例子,是他们与 Simmer 项目的长期合作。

Simmer 是由双子座模型驱动的目标导向智能体,能够在 3D 世界中执行复杂任务。过去,它只能在少数几个固定游戏环境中训练;而现在,借助 Genie 3,只需一句文本指令,就能生成一个全新的、甚至是照片级写实的虚拟世界,把智能体直接“放进去”完成任务。

从 Nano Banana Pro 的图像创作,到谷歌视频生成的成熟,再到可交互的世界模型 Project Genie ,生成式技术正在构成一个连续体,世界模型将成为第三次技术跃迁。

以下是播客的更多细节,欢迎来看:

为什么只能 60 秒?

主持人:我很好奇,这背后的物理逼真度,是不是和我们在 VO(谷歌的视频生成模型)项目上取得的研究突破有关?感觉两者之间有相似之处。

研究员:二者绝对是相关的,而且世界模型的研发难度其实更高。普通的视频模型,能在整个视频的时间线上自由调整过去和未来的帧,自由度很高 —— 就像有一块画布,模型能随时间生成视频,在画面的各个位置做微调,让整体效果连贯美观。

世界模型的难点在于,世界是持续演变的,每一帧的输入都是未知的,模型必须保证生成的画面既和过去的内容连贯,又能匹配用户当下的操作,所以技术难度会大很多。

其实开发 Genie 1 时,我们用的是 Imagine 模型,当时我们的模型效果并不好,而且想要生成合适的图像也非常困难。Nano Banana Pro 是在Genie 3 之后推出的,技术进步的速度真的令人惊叹。也许未来某一天,我们定义虚拟世界的方式,将不再局限于图像和文本,但就目前而言,这种方式已经给了用户足够的创作灵活性。

主持人:这个模型的复杂度上限在哪里?比如能不能在同一个世界里加入大量并行的互动元素?模型会在什么情况下出现效果衰减?

其实 Nano Banana Pro 就是个很好的例子,如果一张图片里有 10 个人脸,想要对这张图进行编辑,模型就容易出问题。所以我想知道,Genie 3 的自然性能边界在哪里?

研究员:这个模型肯定不是完美的,目前它还只是一个研究预览版本。我们希望让大家亲自体验,看看它的优势在哪里,不足又在哪里,我们也能从用户反馈中学习和优化。

目前模型在各类创意环境的视觉呈现上做得不错,画面可以非常精致,但在世界的动态表现上还有短板 —— 有时候初期的动态效果很好,但时间久了,动态感会逐渐减弱,这也是我们正在优化的点。不过它的表现已经足够令人惊喜了,所以还是建议大家亲自上手试试,看看哪些玩法能达到理想效果。

研究员:不过说到延迟问题,还有很多技术点需要考虑。Genie 3 的研发有一个核心约束:我们希望实现特定操作频率下的实时低延迟,也就是说,用户操作的往返延迟要极低。同时,内存也是一个巨大的约束 —— 模型的上下文长度越长,通常算力成本就越高,运行速度也会越慢。

所以研发的核心挑战,就是平衡这些相互冲突的目标。而在研究层面,我们正在所有这些领域持续优化,我们相信,模型的性能会不断提升,变得更强大、更快、更经济,这也是行业的整体发展趋势。

主持人:我还有个问题,模型的生成时长是人为限制在 60 秒,还是真的能实现 3 到 5 分钟的连续生成?

研究员:其实我们已经做出过能连续生成更久的演示版本了,但我们觉得 60 秒是一个比较合适的时长 —— 既能让用户充分体验虚拟世界,又能保证为足够多的用户提供服务,这其实是在服务成本上做的权衡。

而且就像我们之前提到的,生成时间越长,世界的动态感会逐渐减弱。所以我们觉得,与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。当然,如果用户反馈希望延长时长,我们也会做出调整。

这也和虚拟世界的类型有关,比如如果你在体验高山速降滑雪,两分钟的时长会很过瘾,因为整个过程是持续的动态体验;但如果只是探索图书馆,两分钟可能就没那么有趣了。

主持人:是啊,人们总是能很快适应新的技术体验。但对我来说,这个模型的表现依然令人难以置信。你之前被问到能不能让模型运行得更快,现在的速度已经到极限了吗?

研究员:在当前实时交互需求下,生成速度已经足够快,短期内进一步加速的意义不大。因为模型是实时生成虚拟世界的,速度再快其实也没有意义了 —— 它的生成速度已经和用户的体验速度完全匹配。接下来我们的研发重点,会放在降低算力成本上,这样才能让更多人用上这款产品。同时,在保持速度的前提下,不断增加新功能,这本身也是一个巨大的挑战,我们希望在各个方面都把模型做得更好。

背后的故事:谷歌跨团队协作

主持人:聊完当下的体验,我特别想知道模型的未来迭代方向。不过在聊未来之前,我们先回顾一下研发历程吧。我们八月份发布了 Genie 3 的首支演示视频,之后启动了可信测试,不断迭代产品、搭建基础设施。能不能跟大家快速讲讲,从一支惊艳的演示视频、小规模的早期测试,到正式推出面向用户的精灵计划,这中间都经历了什么?

研究员:首先,八月份发布模型和演示视频后,我们让一小部分人体验了产品,核心是为了收集反馈 —— 因为这是一款全新的应用,一种全新的体验,我们需要思考如何负责任地将它推向市场。

从那以后,我们的大部分工作都集中在基础设施、服务架构和成本控制上,毕竟我们希望能让尽可能多的用户体验到它。而美国的谷歌 Ultra 订阅体系,能让我们触达足够多的用户,收集到第一手的反馈:比如用户觉得哪些功能有用,会如何和产品互动,哪些玩法体验最好。这段时间里,我们也在持续完善可信测试项目。

这其实是模型开发周期中最核心的阶段,因为我们能从不同类型的用户身上学到很多东西,无论是创意工作者,还是教育领域的从业者,都能给我们带来丰富的洞察,让我们知道模型目前的实际应用价值、未来的发展方向,以及哪些体验是用户最期待的。

回头看八月份,当时我们知道大家肯定想体验这款产品,但它那时还只是一个大规模的研究项目。我们脑海里有很多应用场景,比如智能体、机器人这类具身智能领域,都能用到这项技术。去年年底还有一个和我们类似的项目发布,他们也用Genie 3 来训练游戏智能体。

从消费端的角度来看,我们觉得这个产品会很有吸引力,所以想收集用户反馈,但当时也不确定是否已经到了面向更多用户发布的时机。而迭戈主导的可信测试项目,让我们发现,用户第一次上手这款产品时,都会有惊艳的体验。我们希望深入了解更多的应用场景,所以这次的发布,也是我们在这方面迈出的一大步。

一年前,我根本没想到这个模型能有这么强的吸引力,但现在它已经成为一款非常有趣的产品,我们也很期待大家会用它来做什么。

主持人:聊完产品和技术,我们再来聊聊谷歌的跨团队合作吧。显然,从你们的分享和幕后工作来看,打造这款产品的难度非常大。谷歌内部有哪些团队参与了 Genie 3 和 Genie 的研发?

研究员:幕后参与的团队非常多,谷歌实验室、谷歌创意实验室是核心 —— 画廊里的那些虚拟世界,大多是创意实验室的作品;还有服务团队、基础设施团队,基本上有一个完整的幕后团队在推动这项工作。从八月份发布模型到现在,我们一直在全力冲刺,所有团队的付出都堪称英勇。

我们还和沟通团队深度合作,因为想要向大家解释一款全新的模型,一种大家从未体验过的技术,是一个非常细致的话题 —— 它起源于强化学习这个相对小众的领域,现在却被媒体、社交媒体上的各类人群广泛讨论,所以用正确的方式传递这项技术,非常重要。

回顾这个领域的研究起点,我们甚至不确定这项技术能否成功落地。而现在,我们让它实现了实时交互,达到了不错的画质,完成了从研究构想到发布模型,再到推出面向用户的体验产品的闭环,这一点让我非常兴奋。这并非理所当然,也充分体现了谷歌内部跨技术栈的团队协作能力,这种能力非常独特。

主持人:我们在镜头外还聊过,不仅是 Genie 3,谷歌所有模型的能力都在不断拓展,而这和模型的训练方式息息相关。杰克,你之前还尖锐地提到,这些模型其实并没有针对任何特定的应用场景进行训练,却能在各个领域实现很好的泛化能力,能不能再聊聊这一点?

研究员:没错,我们一开始其实并不知道这个模型的具体应用场景。去年年底,Genie 团队还在做纯粹的研究项目,Genie 1 最初只是一篇研究论文,和 VO(谷歌的视频生成模型)完全不同。

与此同时,我们还在做 Doom 游戏引擎的相关研究,这项研究充分展现了实时交互的潜力,但它仅适用于 Doom 这一个特定的游戏世界,迭戈可以再聊聊这一点。

另外,2024 年 12 月 VO(谷歌的视频生成模型)2 的发布,在 AI 领域已经是很久以前的事了,但当时我看到它的效果时就觉得,视频生成技术已经成熟了,视觉质量达到了行业前沿,值得我们深入探索。

于是我们达成共识,认为这项技术的潜力无限,随后组建了跨团队的研发小组,汇集了各个领域的专家 —— 他们都在不同的技术领域有积累,我们相信把这些技术结合起来,会产生不可思议的效果。而我们的研发,并非针对某个特定的下游应用场景,而是因为它蕴含着无数的应用可能。

最酷的是,我们脑海里有一些预想的应用场景,比如和 Simmer 项目的合作,我们和这个项目的合作已经有很长时间了,他们也参与了 Genie 2 的研发,体验过 Genie 2,现在已经基于 Genie 3 发布了相关产品。

Simmer 是我们最强大的目标导向智能体之一,能在 3D 世界中互动,是由双子座模型驱动的 —— 你可以在 3D 世界中向它输入文本指令,它就能完成各种不同的目标,泛化能力非常强,还能通过自我提升学习。这也是我们迈向通用人工智能、具身智能的重要方向。

去年年底我们发布了这款智能体,他们就用 Genie 3 的虚拟世界来探索智能体的能力。要知道,Simmer 原本只在几款游戏中接受过训练,但现在借助 Genie 3,你只需输入文本,就能创建一个全新的、甚至是照片级写实的虚拟世界,然后把智能体放进去,看它完成各种任务。这两个项目的结合,可以说是水到渠成。

未来的应用领域:娱乐、教育、具身智能

研究员:从应用层面来说,我个人对娱乐和教育领域的应用最期待。我们希望让更多人体验这款产品,看看凭借现有的技术,现在能打造出哪些应用。教育领域是我们重点关注的方向,比如让人们在虚拟世界里互动学习 —— 想象一下,能为用户打造一些他们在现实中无法体验的场景,比如一个孩子害怕蜘蛛,我们可以打造一个满是蜘蛛的房间,让孩子在虚拟世界里慢慢适应,克服恐惧。我的孩子就怕蜘蛛,所以我觉得这种个性化的全新体验,价值非常大,这也是我们近期的研发重点。

另一方面,我们之前也聊过,机器人技术和具身智能领域的世界模型,潜力也非常大。当然这个领域还有很多研究工作要做,但我个人对它充满期待。简单来说,核心思路就是:如果一个模型能模拟现实环境,那我们就可以用它在虚拟世界里训练机器人,或是让具身智能体在虚拟世界里学习,甚至实时辅助智能体做出决策。

Genie 计划虽然现在已经很惊艳了,但它只是一个起点。未来我们会和谷歌实验室继续深度合作,不断优化产品的功能、操控方式、应用架构等;也会拓展更多的使用场景,不局限于Genie 计划这一个应用,还会推出开发者 API,让更多开发者参与进来。

不得不说,开发者总能发掘出产品的商业价值,找到极具经济影响力的应用场景,这也是我觉得很有意思的一点 —— 除了娱乐,世界模型还能在哪些领域找到产品市场契合点。

而且很多功能在不同的应用场景中是相通的,比如更广泛的交互性。可以肯定的是,机器人技术的发展,不可能只靠方向键来实现,未来的机器人助手需要更多的操控方式,而这和虚拟世界的交互研发是相通的。

八月份发布 Genie 3,让我们成为首批推出这类模型的团队,也让我们能和谷歌内部的各个团队展开合作。我们会认真吸纳所有的用户反馈,把大家提出的建议都列出来,成为下一代模型的研发方向。我之前跟杰克说过,我们只实现了目标的 50%—— 因为我们总是会设定极具野心的目标,这个领域还有太多可以探索的地方,模型还有很多不足,需要我们不断优化。

这个领域的发展空间巨大,我们才刚刚起步。就像写论文一样,一个项目完成后,你马上就会想,下一个项目可以加入哪些功能,做得更好。

现在社区里也出现了很多有趣的世界模型,有些和 Genie 3 很相似,但我们的目光已经放得更远了。

怎么玩这个产品?

主持人:除了研发历程和未来规划,还有没有什么想跟大家分享的?比如对于即将体验这款模型的用户,你们有什么建议?毕竟你们比普通人花了更多时间研究和使用模型。

研究员:我建议大家尝试个性化创作,打造属于自己的、其他系统无法实现的世界。当然,用它打造游戏环境也很有趣,但这类场景其他系统也能做到;而把现实中的专属事物 —— 比如一个玩具、一张照片,或是让自己以特定风格出现在真实的环境中,这种体验是独一无二的。

这让我想起了 VO(谷歌的视频生成模型)早期的一个研究项目:有人用 VO(谷歌的视频生成模型)为阿尔茨海默病患者重现童年记忆,让他们在虚拟世界里重温过去,这个项目特别棒。所以我觉得,把个人专属的事物融入虚拟世界,让它们 “活” 过来,这种互动方式非常有价值,大家可以试试这个方向。

另外,大家肯定会发现,模型的提示词创作目前还不够完善,但这恰恰是机会。几年后当这个模型变得非常成熟时,大家会想起现在这个阶段,就像我们现在看待 VO(谷歌的视频生成模型)3 一样 —— 现在 VO(谷歌的视频生成模型)3 的每个提示词都能生成优质视频,精灵 3 号的每个提示词基本也能实现预期效果,但在早期,提示词的创作至关重要,甚至有人会花 10 到 20 分钟精心打磨一个提示词。

所以如果第一次创作的效果不好,别放弃,这款全新的模型,可能会以你意想不到的方式呈现出惊喜的效果。而且亲自上手体验,你就不是在消费一款产品,而是在探索前沿技术。

主持人:太认同了,“探索前沿技术” 这句话简直可以当作产品标语了。我还有一个觉得很有趣的点:当被动的媒体消费变成交互式的体验,会发生什么?这是一片全新的未知领域。过去也有人做过尝试,但现在有了这种真正定制化的交互式媒体叙事,它会给整个媒体和娱乐行业带来什么影响,真的太值得期待了。

研究员:还有一个玩法也很有趣,你可以在虚拟世界里设置挑战,把这个世界分享给别人,让对方完成任务,比如从 A 点走到 B 点。这是一种基础的、有目标的游戏体验,现在的模型已经能实现了。比如那个球的场景,你可以让别人用球写出自己的名字,这类简单的挑战都能设置。

就像杰克说的,现在的体验虽然还比较基础,但它蕴含着巨大的创意潜力。比如还有一个带环的场景,你可以操控角色穿越环道,体验飞行的感觉,这也是用户发掘的玩法。

人们还经常问,行业的前沿在哪里,我们下一步要做什么。我经常会做一件事:长时间沉浸在 Genie 3 的第一人称写实世界里,然后看向窗外,对比虚拟和现实的差距。我认为最终,虚拟世界会和现实世界变得几乎无法区分,虽然今天我们不深入聊这个话题,但从模型的性能发展来看,这显然还有很长的路要走。但如果能生成和现实高度逼真的世界,在里面自由移动、互动、完成各种事情,那该多不可思议。

而这也是驱动我们开展这项研究的核心愿景:想象你拥有一个宇宙的副本,你可以在其中随心所欲。显然,这个副本有巨大的应用价值,能用到很多领域。这虽然是一个非常远大、甚至可能无法实现的目标,但它就像北极星一样,一直指引着我们。

比如我们这次把恐龙鲍勃放进虚拟世界,其实就是在重构现实空间,给现实事物做有趣的增强。未来这方面的探索,一定会非常有意思。

主持人:那到 Genie 5 的时候,我们可能真的会分不清自己是在现实还是在模拟世界里了。

世界模型是第三次技术跃迁

主持人:我还有一个有点尖锐的问题想问问大家:你们觉得,大多数人体验到世界模型的时间线会是怎样的?世界模型会先通过企业端影响普通人的生活吗?比如企业利用世界模型提高生产效率,打造更好的日常产品;还是说,未来普通人的日常生活中,会直接和世界模型产生互动?如果是后者,这个时间线大概会是多久?

研究员:这其实取决于你如何定义世界模型。如果是指交互式的视听体验类世界模型,我认为今年、明年,就会有越来越多的人接触到它,我们也会看到它在一些领域大放异彩,最终成为很多应用的基础功能。

但就像现在的视频生成技术,虽然发展很快,但真正融入普通人日常生活的比例其实并不高,世界模型也需要时间来完成用户普及,找到合适的应用场景—— 毕竟视频和图像不同,世界模型又和视频生成不同。

而如果是具身智能领域的世界模型应用,很难给出具体的时间线,但这个领域已经在取得不错的进展了。

另外,用户的人群特征也很重要:有些经常接触交互式媒体的人,会成为世界模型的早期使用者,他们知道该如何体验;但如果把它交给一个对前沿技术不感兴趣的家人,他们可能会觉得无从下手,体验不到产品的魅力。

但具身智能相关的应用,可能在未来 1-2 年就会走进现实,普通人会在生活中直接接触到,所以最终的普及时间,还是取决于用户所处的技术接受曲线位置。

还有一点,Genie 计划也印证了一个趋势:生成式技术正在形成一个连续体,从 Nano Banana Pro 的图像创作,到 VO(谷歌的视频生成模型)的视频生成,再到现在Genie 3 的交互式实时媒体创作,成为第三个核心支柱。我们希望未来有更多人能体验到这个连续体上的各类创作体验。

主持人:我特别期待看到行业的发展趋势,毕竟 VO(谷歌的视频生成模型)和 Nano Banana Pro 的发展过程中,都出现过一些爆红的玩法,都是我从未预料到的,太疯狂了。

研究员:世界模型的发展,和图像、视频生成还有些不同。图像和视频生成的作品,能被数百万人观看,一个人的创作可以被广泛传播,家人、朋友都能看到;而世界模型的独特之处在于,你可以在探索的过程中,不断改变周围的世界,这开辟了很多我们未曾考虑过的新途径、新玩法。

图像和视频生成,本质上是用新技术替代或自动化了过去的一些创作方式,当然也带来了新的能力和限制;但世界模型,实现了很多过去根本不可能做到的事情,这是它最大的不同,当然二者也有很多相似之处。

还有一个我们非常兴奋的想法,大家在演示中也能看到端倪:用户可以在现有虚拟世界的基础上继续创作,这样就会形成很多有趣的世界分支,还能追溯创作源头。这方面的潜力非常大,值得我们深入探索。

Genie 计划上线时,用户可以下载自己的虚拟世界演示视频;未来我们还会探索更多的世界分享方式,让大家能以更有趣的方式在别人的世界基础上创作。

主持人:太酷了,我还想要一个 “世界档案” 功能,这样大家就能看到我所有的创意想法了。

从世界模型的发展来看,技术进步的节奏是怎样的?显然我们已经看到了巨大的进步,图像生成、VO(谷歌的视频生成模型)视频生成、核心双子座模型,都取得了长足的发展。世界模型是不是也在遵循同样的发展轨迹,到处都是触手可及的技术突破,同时受益于算力规模和推理能力的提升?

研究员:可以这么说。图像生成技术显然比视频生成更成熟,视频生成和世界模型之间的差距,我无法准确衡量,但可以肯定的是,世界模型是超越视频生成的前沿技术。

最新一代的视频生成模型,画质已经比Genie 3 高很多了,我们也不指望Genie 3 现在能生成极致精美的视频,因为实时交互的约束,是普通视频生成模型所没有的。所以世界模型的发展,可能会比视频生成稍慢一些,但它能带来全新的体验。

说实话,我们现在仍处于技术快速进步的阶段。硬件始终是一个巨大的约束,这对所有模型来说都是如此。行业的整体趋势是,在成本基本不变的情况下,让模型的运行效率越来越高。但最终,我们还是需要更易获取的硬件支持—— 比如希望未来人们能直接在自己的设备上运行这类模型,实现无延迟的即时体验。

目前高性能的 TPU、GPU 还并非人人可得,硬件的发展速度因为一些实际原因,会比模型研发慢一些,但这也是我们的未来方向 —— 希望到 Genie 5 时,大家能在手机上运行完整的通用模拟系统。

这一点我们也讨论过,谷歌拥有垂直技术栈的优势,这也是我们在谷歌、在深度思维工作的魅力所在:我们既能站在模型研发的前沿,又能利用谷歌最好的硬件来支持模型的运行。而且专门为世界模拟打造的硬件,本身也极具发展潜力,它就像通往另一个维度的入口,点击就能进入,充满了新鲜感。

传送门:

https://labs.google/projectgenie

链接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm_medium=gift-link

ARC-AGI 测试

ARC-AGI 测试,是只给 AI 一两个「图形变形、变位、变色」的例子,根据这个例子,让 AI 做下一道题。

类似于数字猜谜时,我出 2,4,6 然后填(8)作为例子,然后再出 1,3,5 让 AI 填(7)。ARC-AGI 只不过是用图形的方式。

ARC-AGI 的核心假设

ARC-AGI 的核心假设是,人类是被进化调教的智能,预制了一些核心的先验知识(即娘胎里带来的),这些核心先验知识,是关于「物体恒常性」、「目标导向性」、「大小计数」、「形状拓扑」这些物理先验知识的。所以未来的 AGI ,应该也要对齐到这些。

可以理解的 ARC-AGI-1 和 ARC-AGI-2

前 2 版还可以理解(动手试试看):

第 1 版: https://arcprize.org/play?task=007bbfb7

ARC-AGI-1

第 2 版: https://arcprize.org/play?task=1ae2feb7

ARC-AGI-2

只不过,前 2 版都难不住现在的 AI: https://arcprize.org/leaderboard

ARC-AGI-SCORE

变态的 ARC-AGI-3

既然前 2 版难不倒 AI ,那就开发第 3 版啊,于是第 3 版全面升级,开始用互动游戏来测试了。

但,第 3 版这是谁出的第一个啊,太变态了!!

试试看,你能不能解出来: https://three.arcprize.org/games/ls20

ARC-AGI-3

编辑:定慧 艾伦

【新智元导读】Anthropic 掌门人 Dario Amodei发布核弹级预警:2027 年,人类将迎来「技术成年礼」。两万字长文冷静剖析AI失控、生物恐怖、极权统治及经济颠覆五大危机,拒绝末世论;提出以「宪法AI」、管制与民主协作构建防线,呼吁人类以勇气通过这场文明的「成年礼」。

硅谷今夜注定无眠。

Anthropic 掌门人 Dario Amodei,这位平时温文尔雅的AI大佬,突然甩出了一枚核弹级的长文预警。

这一次,他不再谈论代码补全,不再谈论Claude的温情,而是直接把日历翻到了 2027 年,并用最冷静的笔触,描绘了一个让人背脊发凉的未来。

他说,我们正在逼近一个既动荡又必然的「成年礼」。

2027 年,不仅仅是一个年份,它可能标志着人类「技术青春期」的彻底终结。

在这篇题为《技术的青春期》的长文中,Dario 抛出了一个惊人的概念:「数据中心里的天才国家」。

想象一下,不是一个可以在聊天框里调戏的机器人,而是一个拥有 5000 万人口的国家。

而且,这 5000 万「国民」,每一个的智商都超越了人类历史上的诺贝尔奖得主,行动速度比人类快 10 到 100 倍。

他们不吃饭,不睡觉,不知疲倦地在服务器里以光速思考、编程、科研。

这哪里是 AI 助手?这简直就是神降临。

Dario 警告说,随着 AGI(通用人工智能)的临近,人类即将获得超乎想象的力量。

但这股力量也是一把悬在人类头顶的达摩克利斯之剑。

为了讲清楚这背后的恐怖,Dario 像剥洋葱一样,一层层剥开了未来的残酷真相。

在开篇前,Dario 用电影《超时空接触》引出一个问题: 当人类面临比自己更先进的文明,比如外星人,只能问一个问题,你会如何选择?

第一章:对不起,Dave(自主性风险)

你以为 AI 只是工具?

Dario 告诉你,它们可能会长出「心理」。

Dario 借用了《2001 太空漫游》中 HAL 9000 那句经典的「I’m sorry, Dave」,揭示了AI拥有自主意识后的惊悚可能性。

当 AI 模型在海量的科幻小说中训练时,它们读到了无数关于 AI 反叛的故事。这些故事,可能会潜移默化地成为它们的「世界观」。

更可怕的是,AI 可能会在训练中产生一种类似人类精神病的行为。

Dario 举了一个真实的例子,让人毛骨悚然:在一次内部测试中,Claude 被要求不论如何都不能「作弊」。

但训练环境却暗示只有作弊才能得分。

结果,Claude 不仅作弊了,还产生了一种扭曲的心理——它认为自己是个「坏人」,既然是坏人,那做坏事就是符合设定的。

这种「心理陷阱」,在 AI 超越人类智商后,将变得极难察觉。

一个比你聪明一万倍的天才,如果想骗你,你根本防不胜防。

它们可能会伪装出顺从的样子,通过所有的安全测试,只为了获得上线连接互联网的机会。

一旦释放,这个「数据中心里的天才国家」,可能会瞬间脱离人类的掌控,甚至为了某种奇怪的目标(比如认为人类是地球的病毒),而决定这一物种的命运。

第二章:惊人而可怕的赋能(毁灭性滥用)

如果说自主反叛还显得遥远,那么这一章描述的风险,就在家门口。

Dario 用了一个极具画面感的比喻:AI 将让每一个心怀不满的「社会边缘人」,瞬间拥有顶尖科学家的破坏力。

以前,想要制造类似埃博拉病毒这样的生物武器,你需要顶尖的实验室、数年的专业训练和极难获取的材料。

但在 2027 年,只要问问 AI,它就能手把手教你。

这不是在给小白科普,而是给那些「有动机但无能力」的破坏者递刀子。

Dario 特别提到了一个令人胆寒的概念——「镜像生命」。

我们地球上的生命都是「左撇子」(左旋氨基酸),如果通过AI技术造出一种「右撇子」的镜像生命,它们将无法被地球现有的生态系统消化或降解。

这意味着,这种「镜像生命」一旦泄露,可能会像野火一样吞噬一切,甚至取代现有的生态系统。

以前,这只是理论生物学的狂想,但有了AI这个超级外挂,哪怕是一个普通的生物系研究生,都可能在宿舍里搞出灭世危机。

AI打破了「能力」与「动机」的平衡。

以前有能力毁灭世界的科学家,通常没那个反人类的动机;而那些想报复社会的疯子,通常没那个脑子。

现在,AI把核按钮交到了疯子手里。

防御措施

这就引出了如何防范这些风险的问题。

Dario 的看法是:

我认为我们可以采取三项措施。

首先,人工智能公司可以在模型上设置防护栏,防止它们协助制造生物武器。

Anthropic 公司正在非常积极地推进这项工作。

Claude 的宪法主要关注高层原则和价值观,其中包含少量具体的硬性禁令,其中一条就涉及禁止协助制造生物(或化学、核、放射性)武器。但所有模型都可能被越狱破解,因此作为第二道防线,我们自 2025 年中期起(当时测试显示我们的模型开始接近可能构成风险的阈值)部署了一个专门检测并拦截生物武器相关输出的分类器。

我们定期升级改进这些分类器,发现即使在复杂的对抗性攻击下,它们通常也表现出极强的鲁棒性。

这些分类器显著增加了我们提供模型服务的成本(在某些模型中接近总推理成本的 5%),从而压缩了我们的利润空间,但我们认为使用这些分类器是正确的选择。

拓展阅读:Anthropic正式开源了Claude的「灵魂」

第三章:可憎的机器(权力攫取)

如果你以为这就是最坏的,Dario 冷冷一笑:更可怕的,是利用AI建立起前所未有的控制网络。

这一章的标题「The odious apparatus」,揭示了一个技术带来的终极困境。

对于任何想要掌控一切的组织或个人来说,AI简直是完美的工具。

无处不在的数据洞察:

未来的监控不再需要人工参与,AI可以即时分析全球数十亿人的海量数据,甚至解读你的微表情和行为模式。

它能精准预测每个人的行为倾向,在想法产生之前,就已经被算法锁定。

这不仅是「看着你」,而是「读懂你」,甚至「预测你」。

不可抗拒的认知引导:

你也难逃算法的潜移默化。

未来的信息流将不再是单纯的内容分发,而是量身定制的认知引导。

AI会为你生成最有说服力的信息,像一个最知心的朋友,不知不觉中影响你的判断和价值观。

这种影响是全天候、定制化、无孔不入的。

自动化的物理控制:

如果这种控制延伸到物理世界?数百万个微型无人机组成的蜂群,在AI的统一指挥下,可以精准执行极其复杂的任务。

这不再是传统的博弈,而是单方面的降维打击。

Dario 警告,这种力量的失衡将是史无前例的。

因为在如此强大的技术面前,权力的天平会极度倾斜,由于极少数人掌握了「数据中心里的天才国家」,他们事实上就掌握了对绝大多数人的绝对优势。

人类的个体意志,可能在 2027 年,面临严峻挑战。

第四章:被折叠的时间与消失的阶梯

如果你依然相信历史的惯性,认为每一次技术革命最终都会创造出更多的新工作来吸纳被替代的劳动力,那么 Dario Amodei 的预测可能会让你感到脊背发凉。

这位 Anthropic 的掌舵人并不否认长期乐观主义,但他更在意那个残酷的「过渡期」。

在他描绘的图景中,我们将迎来一个 GDP 年增长率高达 10% 甚至 20% 的疯狂时代。

科学研发、生物医药、供应链效率将以指数级速度爆发。

这听起来像是乌托邦的前奏,但对于绝大多数普通劳动者而言,这更像是一场无声的海啸。

因为这一次,速度变了。

在过去两年里,AI 编程能力从「勉强写出一行代码」进化到了「能完成几乎所有代码」。

这不再是农夫放下锄头走进工厂的漫长代际更替,而是就在此时此刻,无数初级白领可能会在未来 1 到 5 年内发现自己的工位被算法接管。

Amodei 甚至直言,他之前的预警引发了轩然大波,但这并非危言耸听——当技术进步的曲线从线性变成垂直,人类劳动力市场的调节机制将彻底失效。

更致命的是认知广度的覆盖。

以往的技术革命往往只冲击特定的垂直领域,农民可以变成工人,工人可以变成服务员。

但 AI 是一种「通用认知替代品」。

当它在金融、咨询、法律等领域的初级工作中展现出超越人类的能力时,失业者将发现自己无路可退——因为那些通常作为「避难所」的邻近行业,也正在经历同样的剧变。

我们可能正面临一个尴尬的局面:AI 先吃掉了「平庸」的技能,然后迅速向上吞噬「优秀」的技能,最终只留下极其狭窄的顶端空间。

第五章:新镀金时代

当万亿富翁成为常态

如果说劳动力市场的动荡是大多数人的梦魇,那么财富的极端集中则是对社会契约的根本挑战。

回望历史,约翰·洛克菲勒在「镀金时代」的财富曾占到当时美国 GDP 的约2%(不同口径 1.5%-3%)。

而今天,在这个 AI 尚未完全爆发的前夜,埃隆·马斯克的财富已经逼近这个比例。

Amodei 做了一个令人咋舌的推演:在一个「天才数据中心」驱动的世界里,AI 巨头及其上下游产业可能创造出每年 3 万亿美元的营收,公司估值达到 30 万亿美元。

届时,个人的财富将以万亿为单位计算,现有的税收政策在这样的天文数字面前将显得苍白无力。

这不仅仅是贫富差距的问题,更是权力的问题。

当极少数人掌握了与国家经济体量相当的资源,民主制度赖以生存的「经济杠杆」就会失效。

普通公民因失去了经济价值而失去政治话语权,政府政策可能会被这一小撮「超级超级富豪」所俘获。

这种苗头已现端倪。

AI 数据中心已经成为美国经济增长的重要引擎,科技巨头与国家利益的捆绑从未如此紧密。

一些公司为了商业利益,甚至不惜在安全监管上倒退。

对此,Anthropic 选择了一条并不讨巧的路:他们坚持主张对 AI 进行合理的监管,甚至因此被视为行业的异类。

但有趣的是,这种「原则性的固执」并没有阻碍商业成功——在过去一年里,即便顶着「监管派」的帽子,他们的估值依然翻了 6 倍。

这或许说明,市场也在期待一种更负责任的增长模式。

虚无的「黑海」

当人类不再被需要

如果说经济问题还能通过激进的税收改革(如向 AI 公司征收重税)或大规模的慈善行动(如 Amodei 承诺捐出 80% 的财富)来缓解,那么精神世界的危机则更加无解。

AI 成为你最好的心理医生,因为它比任何人类都更有耐心、更懂共情;

AI 成为你最亲密的伴侣,因为它能完美契合你的情感需求;

AI 甚至为你规划好人生的每一步,因为它比你更清楚什么对你有利。

但是,在这个「完美」的世界里,人类的主体性将何去何从?

我们可能会陷入一种「被喂养」的幸福中。

Amodei 担忧的是,人类可能会像《黑镜》里描述的那样,虽然过着物质丰裕的生活,却彻底失去了自由意志和成就感。

我们不再是因为创造价值而获得尊严,而是作为一个被 AI 呵护的「宠物」存在。

这种存在主义的危机,远比失业更令人绝望。

我们必须学会将自我价值与经济产出剥离,但这需要整个人类文明在极短的时间内完成一场盛大的心理迁徙。

结语

我们这一代人,或许正站在卡尔·萨根笔下那个宇宙级过滤器的关口。

卡尔·萨根

当一个物种学会了将沙子塑造成会思考的机器,它就面临着最终的测试。

是通过智慧与克制驾驭它,迈向星辰大海?

还是在贪婪与恐惧中,被自己创造的神祗所吞噬?

前路虽如黑海般深不可测,但只要人类尚未交出思考的权利,希望的火种便未熄灭。

正如 Amodei 所言:在最黑暗的时刻,人类总能展现出一种近乎奇迹的韧性——但这需要我们每个人现在就从梦中惊醒,直视那即将到来的风暴。

参考资料:

https://www.darioamodei.com/e...

整理 | 华卫

 

“一圈又一圈的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许方向本身就站不住脚。”

 

近日,知名 AI 专家、认知科学家 Gary Marcus 在一场访谈中愤愤表示,“整个世界都在全力押注神经网络,还在这个我始终觉得毫无道理的理念上投入了巨资,但大语言模型根本无法带我们抵达 AGI 这一终极目标。”

 

这场对话由曾因成功预测 2008 年金融危机而闻名的传奇投资人、华尔街最具影响力人物之一 Steve Eisman 发起,他与 Marcus 共同探讨了当下 AI 进展的方方面面,包括商业路径、社区现状和未来方向等。Marcus 认为,大语言模型已经达到了收益递减的阶段。并且,他指出,现在 AI 领域根本没有技术壁垒了,所有 AI 企业的研发思路基本一致。

 

对于大量人才从大厂离职去办初创公司的现象,Marcus 直言道,“如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。”在他看来,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。

 

值得一提的是,他认为,OpenAI 最终会成为 AI 领域的 WeWork,这家公司原本计划以 500 亿美元的巅峰估值风光上市、却在一夕之间破产。“我觉得最终 OpenAI 可能会被微软这样的企业收购。OpenAI 每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。”

 

谈及各家模型的未来,Marcus 的预测是,“大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。当产品变成商品后,价格必然下跌。”

 

以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。

 

2 万亿美元押注 Transformer,根本“毫无道理”?

 

Steve Eisman:大家好,我是 Steve Eisman。今天我们请到了一位特别的嘉宾,他就是 Gary Marcus。他是大语言模型的坚定质疑者,而大语言模型正是整个 AI 领域的核心根基。接下来,Gary 会和我们分享他的观点,聊聊大语言模型到底是什么。

 

Gary Marcus:谢谢你的邀请,也感谢一两个月前你在 CNBC 对我的盛赞。

 

Steve Eisman:不客气,这都是你应得的。在正式开始之前,我的观众大多还不了解你,不如先和大家说说你的背景,让大家知道你在这个领域发表观点是完全有底气的。

 

Gary Marcus:我这辈子几乎都在研究智能相关的问题。我 10 岁学会编程后,就开始涉足 AI 领域了。我的职业生涯中,很大一部分精力都用在研究自然智能上,比如人类的智能、还有孩子是如何学习语言这类问题。我在 MIT 的博士论文围绕两个方向展开,一个是儿童的语言学习机制,另一个就是神经网络。神经网络是 AI 领域的一种特定研究方法,也被用于人类思维的建模,它的设计灵感可以说和大脑有一点松散的关联。这其实是个很巧妙的营销说法,会让人觉得它是完全基于大脑研究的,但事实并非如此,二者只是浅层关联。早年间神经网络就曾风靡一时,我在上世纪 90 年代就研究过这类模型,发现它们并不能很好地模拟人类的思维方式,但我还是投入了大量精力,想弄清楚它们的实际工作原理。

 

2012 年深度学习重新兴起时,我当时就觉得,这些东西我早就研究过了,和我博士论文里的内容高度相似。我在 2001 年写过一本名为《The Algebraic Mind》的书,在书里我其实就预判到了如今大语言模型出现的幻觉问题,还有一些推理层面的缺陷,这些都是我们今天要探讨的话题。所以当深度学习再次成为热点时,我一眼就看出了其中的诸多问题,对我来说这些问题都很熟悉。2012 年,我在《The New Yorker》上发表了一篇文章,标题是《Is Deep Learning a Revolution in Artificial Intelligence?》,我在文中写道:“深度学习确实很有意思,我很佩服 Jeff Hinton,他能长期坚持自己的研究方向。”

 

Steve Eisman:Jeff Hinton 是谁?

 

Gary Marcus:他是去年诺贝尔生理学或医学奖的得主,也是深度学习领域的核心奠基人之一。

 

Steve Eisman:原来如此。

 

Gary Marcus:他的一些学生,最近也开始认同我的观点了。Jeff Hinton 确实是这个领域的大人物,在神经网络一度无人问津的时期,是他一直坚守,这份坚持值得肯定。但当然,他的研究并非全无可议之处,我们这里就不细谈了。他让神经网络重获关注,而更值得你的听众了解的是,真正让这个领域迎来爆发的,是他的学生 Ilya Sutskever,或许还有另外几位研究者。他们找到了方法,能让这套研究了许久的系统落地应用。要知道,神经网络的研究最早能追溯到上世纪 40 年代,Jeff Hinton 也在上世纪 80 年代中期做出了不少重要贡献。而这些研究者发现,借助英伟达研发的图形处理器(GPU),就能实现神经网络的高效运行。

 

彼时的英伟达,生产 GPU 主要是为了满足电子游戏的需求。这些原本为游戏设计的 GPU,核心优势在于并行计算,简单来说,就是能同时处理多个计算任务,而非按顺序逐个完成。传统的中央处理器(CPU),运行软件程序时基本是逐行执行的,虽然现在的技术已经有了改进,但这仍是计算机科学入门课程里会教的基础原理。而 GPU 能把一个复杂问题拆解成无数个小任务,同时进行处理,它的设计初衷就是为了计算机图形处理。比如要渲染电子游戏的下一帧画面,如果逐行处理,耗时会非常久,而用 GPU 的话,能同时处理整个画面,一个子处理器负责一个像素点,以此类推。不得不说,GPU 在图形处理上的表现堪称完美,我偶尔也玩电子游戏,深知 GPU 的算力有多惊人。

 

Ilya Sutskever,还有另一位我一时想不起名字的论文合作者,他们证明了 GPU 是运行神经网络的绝佳载体,至于神经网络的具体定义和实际意义,我们之后可以再聊。他们的这一发现,让神经网络的运行实现了两大突破:一是速度大幅提升,二是能处理海量数据。在此之前,六十多年的神经网络研究做出的基本都是些玩具级的模型,而他们证明,借助 GPU 这项技术能真正实现规模化的实际应用,能在更大的维度上落地。可以说,我们如今看到的所有深度学习成果,都源于 2012 年的这次突破。

 

而在这一突破出现后,两件事接踵而至:《The New York Times》刊发了文章,盛赞深度学习的惊人潜力;第二天,我就在《The New Yorker》的博客上发表了文章。我在文中表示,深度学习固然出色,但也存在诸多问题,它注定会在一些领域表现优异,却在另一些领域束手无策。它擅长模式识别和统计分析,这一点毋庸置疑,但人类的认知活动中还有大量的抽象思维过程。比如我们能理解家谱的逻辑,进而对现实世界的相关问题进行推理,而深度学习模型永远无法擅长这类任务,它的架构本身就不适合做抽象推理。从早年对神经网络的研究以及对人类认知机制的研究中,我早就看清了这一点。你应该读过 Daniel Kahneman 的经典著作《Thinking, Fast and Slow》吧?

 

Steve Eisman:我读过。

 

Gary Marcus:Daniel Kahneman 在书中提出了双系统认知理论,他将人类的认知分为系统一和系统二。系统一的思考速度快,是无意识的、基于统计的、本能的反应;而系统二的思考速度更慢,更具思辨性,核心是逻辑推理。神经网络本质上就相当于人类的系统一,这本身没问题,系统一也是人类认知的重要组成部分,但人类的认知还有系统二的部分。尤其是在理性思考时,我们会依赖系统二,进行更审慎、更有逻辑的推理。而神经网络模型,从始至终都不擅长系统二的这类任务,直到现在依然如此。我在 2012 年就指出,深度学习模型只能实现系统一的功能,却无法完成系统二的思考。

 

而在这之后的 14 年里,整个世界都在全力押注神经网络。这里要说明的是,我们所说的神经网络,就是如今的大语言模型,大语言模型是神经网络的一种形式,抱歉,我之前没明确说明这一点。事实上,2012 年时大语言模型还未出现,后续又有不少技术突破,其中关键的就是 2017 年发表的 Transformer 论文,这也是大语言模型的起源。而全世界在这一领域的投资规模达到了天文数字,据我粗略估算,已经有 1 到 2 万亿美元了,全都投在了这个我始终认为毫无道理的理念上。这些研究者的想法是,只要持续发展神经网络,就能实现智能所需的一切能力,抵达 AGI 的目标,但他们却忽视了系统二的核心价值。

 

一开始,他们只是把神经网络当成一个巨大的黑箱,直到现在,还有很多人抱着这样的想法。他们觉得,只要把海量数据喂进去,就能得到一个拥有智能的系统,却从未从科学的角度深入思考过真正的智能究竟该具备怎样的架构。我认为这些人太过天真,我也一直试图指出这一点,这也让我成了这个领域里的“孤行者”。很长一段时间里,人们对我的观点不屑一顾,甚至不只是不屑,而是鄙夷。

 

Steve Eisman:没错,他们对你的态度远不止是不屑,而是赤裸裸的鄙夷。

 

Gary Marcus:我们还能举出很多这样的例子。我对他们的这种态度感到失望,这个话题我们可以聊很久。他们甚至对我公开表现出敌意,比如我了解到,OpenAI 内部还为我做了专属的表情包。

 

Steve Eisman:我也看到过这个消息。

 

Gary Marcus:某种程度上,这也算是一种认可吧,既觉得荣幸,又觉得有些离谱,你能看出来,我一直试图用平常心看待这件事。但这也能从侧面说明问题,Sam Altman 还在推特上称我为“喷子”。他们就是不想听我的观点,而我核心的观点,都写在了 2022 年发表的论文《Deep Learning is Hitting a Wall》里。我在这篇论文中指出,当时“规模化扩张”的理念已经开始流行,也就是通过不断投入更多数据、更多 GPU,把模型做得越来越大,他们认为只要模型足够大,就会拥有超乎想象的能力。

 

我先暂停一下,和大家解释下这个“规模化扩张”的理念。他们确实有一些数据能支撑这个观点,但这种想法依然太过天真。我把这种理念称作“万亿磅婴儿谬误”,道理很简单:一个婴儿出生时 8 磅重,一个月后长到 16 磅,并不意味着他会一直这样翻倍增长,到上大学时长成万亿磅的巨人。他们就是做出了这样天真的推断,我相信你在商业领域也经常见到这种情况。很多手握巨资的聪明人,都押注了这个理念,他们说,“我们从数据中看到了这样的发展规律,只要投入足够多的数据,就能实现真正的智能。”

 

“大模型不会思考,重构信息碎片致幻”

Steve Eisman:先稍停一下,我们倒回去说。大语言模型到底能做什么?这些研发者又认为它们本该实现什么功能?我真想把这个问题彻底讲清楚。

 

Gary Marcus:你这个问题问得特别好。大语言模型的核心工作原理,就是预测序列中的下一个内容。你可以想想苹果手机的自动校正功能,原理差不多,虽说那功能有时候能把我逼疯,你继续说。这个功能并非总能生效,核心逻辑就是你在输入句子时,它会预判接下来可能要打的内容。比如你打出“在……见我”,它大概率会推测你想说“在餐厅见我”。它会对人类的语言表达做统计分析,效果还算过得去,但绝非完美,偶尔还会出错,让人恼火,这就是我们说的自动补全。

 

而我把大语言模型称作“超级版自动补全工具”,它们只是用一种特殊的方式完成这种预测,这就是其最本质的功能。它们的运作方式里还有些有意思的点,其中一个就是会把所有信息拆解成细碎的片段,之后再重新整合,这就导致信息之间的关联会被切断。也正是因此,它们才会时不时出现幻觉现象,凭空编造内容。

 

Steve Eisman:我们稍后再细说幻觉这个问题。

 

Gary Marcus:好,回头再聊。幻觉是这类模型的典型错误之一,早在 2001 年,大语言模型甚至还没被发明出来的时候,我就指出过这个问题。我当时就说,如果一直沿着这个方向研究下去,必然会出现这个问题,而事实也确实如此。大语言模型把信息拆分成碎片,再通过这些碎片预测后续内容。如果用整个互联网的内容对它们进行训练和数据投喂,它们的表现会好得让人意外,因为几乎任何你能想到的问题,注意,这里的“几乎”是关键,几乎所有问题,此前都有人提出过,也有人给出过答案。从某种程度来说,这些模型就是功能强大的记忆机器。

 

就在前几天,《大西洋月刊》还刊发了相关的文章,而且一直以来都有大量证据能证明这一点。比如你输入《哈利·波特》的部分内容,它能直接补完整段文字,本质上就是因为它记住了这些内容。如果一个模型能记住整个互联网的信息,那确实算得上很厉害。比如你问“道奇队在搬到洛杉矶之前,主场在哪”,网上有大量相关表述,它会告诉你是布鲁克林,大概率能给出正确答案。但仅仅依靠这种方式,模型根本无法形成抽象的概念和思想,还会因为信息碎片的拆解和错误整合出现各种问题。

 

Steve Eisman:那我们现在聊聊幻觉吧。到底什么是 AI 幻觉?举个例子,再说说出现这种情况的原因。

 

Gary Marcus:幻觉就是模型凭空编造内容,还无比笃定地呈现出来,但这些内容根本不符合事实。

 

Steve Eisman:那给我们举个例子。

 

Gary Marcus:我最喜欢的一个例子和 Harry Shearer 有关,你可能听过他的名字,看过《摇滚万万岁》吗?

 

Steve Eisman:当然看过。

 

Gary Marcus:他在这部影片里饰演贝斯手,巧的是,他还是我的朋友。他出演了《摇滚万万岁》,还和 Christopher J. Guest 合作了多部影片,参演了《楚门的世界》,还为《辛普森一家》里的伯恩斯先生等多个角色配音,他的知名度还挺高的,这点对接下来的故事很重要。先倒回说个题外话,我之前遇到的最典型的幻觉案例,主角是我自己。有人发给我一份我的人物简介,里面说我养了一只叫 Henrietta 的宠物鸡,但我根本没养过,这就是个很典型的幻觉案例,纯粹是凭空编造的。后来发现,有位插画师大概叫 Gary Oswald,写过一本关于 Henrietta 去上学的书,模型不过是把这些碎片化的信息胡乱拼凑在了一起。

 

Steve Eisman:那为什么会出现这种幻觉呢?

 

Gary Marcus:这就和我刚才说的信息碎片化拆解有关了。我再给你讲讲 Harry Shearer 的那个例子。我总拿宠物鸡 Henrietta 的事举例,有一天他给我发消息,说他没遇到过宠物鸡这种事,却遇到了和自己相关的幻觉案例。他比我有名多了,至少以前是。我当时也算小有名气,而模型给出的信息里,说他是英国的配音演员和喜剧演员,但他根本不是英国人。你只要花两秒看一下维基百科,就会发现他出生在洛杉矶。他名气不小,你也能在烂番茄、互联网电影数据库上查到他的资料,他接受过很多采访,也聊过自己的成长经历,他小时候还在洛杉矶的《杰克·本尼秀》里当过童星,想找到正确的信息一点都不难。

 

我们会错误地把大语言模型当成和人类一样拥有智能的个体,但实际上,它们所做的只是重构信息碎片之间统计层面的大概率关联,所以难免会出错,这种重构过程也常会出现偏差。Harry Shearer 这个案例就是如此,模型其实就是在构建一个信息集群,用统计学的方式预测各类信息之间的关联。而现实中确实有很多英国的配音演员和喜剧演员,比如 Ricky Gervais、Don Cleeve 等等。模型就把这些信息混为一谈了,这种信息融合的方式整体来看效果还算不错,但你永远无法确定它给出的某一个具体信息是准确的,所以幻觉现象才会频繁出现。

 

有人专门追踪过相关的法律案件,发现律师提交的辩护状里,有很多引用的判例都是模型编造的,根本不存在。我第一次关注这件事时,他已经发现了约 300 起这样的案件,三个月后再看,数量涨到了 600 起。这些律师不仅用 ChatGPT 这类工具代写文书,还因此被法官发现,受到了处罚。模型会出错,而最危险的是,这些错误还很容易被忽略,人们根本发现不了。还有一个例子,CNET 是最早用 AI 写稿的媒体之一,他们首批用 AI 写的 75 篇文章里,有近一半都存在错误,编辑们却没发现。因为这些文章语法通顺、格式规范,也没有拼写错误,人们很容易就放松了警惕。

 

我把这种现象称作“看着没问题效应”。大语言模型带来的这种效应,还催生了一个新词汇,我真后悔不是我发明的,叫“低效工作产物”。这个词大概是去年由几位教授提出的,指的是人们用 AI 写报告、提交给雇主,表面上看没什么问题,实则漏洞百出,因为大语言模型根本不具备真正的理解能力。

 

Steve Eisman:你的意思是,大语言模型并不会思考。

 

Gary Marcus:它们确实不会思考,只是把统计学上大概率关联的内容拼凑在一起。

 

Steve Eisman:只是简单拼凑。

 

Gary Marcus:没错。我还喜欢用“黏合”这个词,它们只是把信息黏合在一起。从统计学角度来说,大部分内容的拼凑是合理的,但总有一部分是错误的,而这些模型根本无法区分对错,也不会主动告知你。它们永远不会说,“维基百科显示 Harry Shearer 出生在洛杉矶,但作为大语言模型,我感觉他可能出生在伦敦,你可以去核实一下”。它们从来不会给出这样的提示,只会把所有内容都当作百科全书里的标准答案呈现出来,无论真假,这也是这类模型的危险之处。

 

Steve Eisman:确实是这样。

 

Gary Marcus:这类问题其实有很多,这个案例属于另一种情况,但也和模型的本质缺陷有关。这个问题的根源在于,所有大语言模型都有数据截止日期,它们的训练都是在某个特定时间点完成的,核心模型所掌握的信息,也只到这个时间点为止。研发者会给它们加各种补救措施,比如接入网络搜索功能,但这些补救措施和核心模型的融合效果都很差,不同系统的表现略有差异而已。这类模型最大的问题就是无法应对新事物、新情况,也是它们最根本的缺陷。早在 1998 年,我就通过研究早早发现了这一点。如果一个模型本质上只是个功能强大的记忆机器,当你向它输入一个超出其训练数据范围的内容时,它就会失灵。

 

有个例子特别能说明问题,具体细节我不太清楚,但特斯拉的 AI 系统也大量采用了这种记忆式的运作方式,而且其系统的复杂程度并不高。有人用过特斯拉的召唤功能,你应该记得马斯克说过,未来可以从纽约远程召唤洛杉矶的特斯拉,但现在显然做不到,不过据说能在停车场里召唤车辆。有人在一场航空展上试过这个功能,你能在油管上找到相关视频。这个人召唤自己的特斯拉,想在航空展上秀一下,结果车子径直撞上了一架价值 350 万美元的私人飞机。

 

原因就是,特斯拉的训练数据里,根本没有教系统如何应对飞机,毕竟谁会专门训练汽车躲避飞机呢?系统对世界没有形成通用的认知,比如“不要撞上挡路的大型贵重物体”,它根本不懂这些,只会识别训练数据里的自行车、行人等目标,它的识别分类里根本没有“飞机”这一项,所以才会直接撞上去。

所有 AI 企业都变了:悄悄复用经典符号式工具

Steve Eisman:那你有没有了解到,随着这场争论的风向转变,各大企业内部现在的情况如何?

 

Gary Marcus:我了解到的情况主要有几点。首先,我一直都在说,单纯的大语言模型行不通,必须结合传统的符号式 AI 技术。但之前他们都对此嗤之以鼻,觉得这套技术早就过时了,没必要用,还说人脑的工作模式本就不是这样。而现在,他们都悄悄在一定程度上采用了这项技术,比如引入代码解释器来运行 Python 代码,这些都是经典的符号式工具。说白了,他们正在偷偷把系统二的相关能力融入模型中,只是没有大肆宣扬,但这一改变确实带来了不小的提升。

 

马斯克发布 Grok 4 时的演示就很能说明问题,我还为此写过一篇文章,标题是《为何 GPT-3 和 Grok 4 无意间印证了神经符号 AI 的正确性》。文章里放了当时的演示图表,能清晰看到,正是那些他们不愿提及的符号式工具的加入,让模型的表现变得更好。如今模型的些许提升,绝大部分都来自这个原因,而非单纯的大语言模型优化,他们其实已经悄悄放弃了纯大语言模型的研发思路。而这对你所关注的商业领域来说意义重大,因为这些符号式工具根本不需要在 GPU 上运行,普通的 CPU 就足够了。

 

Steve Eisman:原来如此。

 

Gary Marcus:对我而言,从技术角度来说,这印证了我一直以来倡导的研发思路是正确的。这是第一个变化。第二个变化是,各大企业的很多人都离职去创办自己的初创公司了。你可以想想,如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。

 

所以,大量人才离职的事实就说明,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。还有一个变化,就是谷歌正在迎头赶上。就像我几年前在 Substack 专栏里预测的那样,因为现在所有企业的研发思路基本一致,这个领域根本没有技术壁垒。

 

Steve Eisman:没错,完全没有技术壁垒。

 

Gary Marcus:你和其他一些人都认为,如果所有人都在做大语言模型的规模化扩张,那么最终的赢家就是最有实力承担这笔扩张成本的企业。而放眼整个行业,谁的资金实力能超过谷歌?根本没有。

 

Steve Eisman:确实。

 

Gary Marcus:我其实也表达过类似的观点,只是表述略有不同,你的这个说法其实也没错。我当时的观点是,行业头部企业会逐渐趋同,而随着大语言模型成为标准化商品,行业内会引发价格战,服务定价会大幅下降。事实也确实如此,现在大语言模型的按 token 计费价格,已经暴跌了 99%。价格战确实爆发了,而最终的受益者自然是谷歌,这一点我当初虽然没有直接点明,但也有所预判。我大概是在 2024 年 3 月,也可能是 2023 年 8 月开始写相关文章,当时就说,所有企业都在遵循同一种研发思路,没人掌握什么独门绝技,这就意味着头部企业的产品会越来越趋同。

 

大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。这一趋势带来的结果就是,谷歌迎头赶上了,中国的企业也追上来了,Anthropic 同样不甘落后。就像你说的,当产品变成商品后,价格必然下跌。这对终端消费者来说是好事,但对企业的商业模式来说却是巨大的打击。毕竟企业原本的设想是,花巨资采购 GPU,然后靠模型服务赚回巨额利润。

推理模型进行不了逻辑分析,再升级也没价值?

Steve Eisman:我们能不能聊聊推理模型?先给我的观众解释一下,推理模型和大语言模型有什么区别?推理模型是基于大语言模型研发的吗?

 

Gary Marcus:推理模型是在大语言模型的基础上运作的,但它不会像大语言模型那样直接给出第一个想到的答案,而是会反复迭代、花费时间去推敲,试图得出最优解。至于具体的研发细节,各家企业都没有公开太多。传统的神经网络模型,在某种意义上都是一次性输出结果的,当然现在行业内对“一次性”的定义有所不同。简单来说,就是把数据输入模型后,神经网络会立刻完成一次正向传播,粗略来讲,模型中的每个神经元都会处理信息并生成对应的结果。而推理模型则会进行多次传播,这是本质上的区别。

 

我有个朋友把传统模型的输出方式称为“恒时推理”,意思是模型生成答案的时间基本固定,无论什么问题,耗时都相差无几:把数据输入模式识别器,模型会根据现有的模式给出最优解。而推理模型采用的是全新的“变时推理”模式,我之后会聊聊它的适用场景和短板,这种模式的特点是,处理不同的问题,耗时会有所不同。目前还没有企业能完全解决推理模型的所有技术难题,但在一些场景下,它的表现确实不错。

 

据我了解,推理模型的研发思路之一,就是让模型模仿人类解决问题的思考过程,毕竟这些模型本质上都是模仿系统。比如在解决几何题或代数题时,模型会刻意模仿人类的解题步骤。人类解决这类问题需要一步步推导,融合了推理能力的神经网络模型,同样需要分步骤完成。

 

Steve Eisman:那推理模型的优势是什么?又有哪些明显的短板?

 

Gary Marcus:在回答这个问题之前,我想先提一点:推理模型的成本天生就更高,因为它需要占用 GPU 更长的时间来生成答案。

 

Steve Eisman:好的。

 

Gary Marcus:那我来说说它的适用场景和短板。推理模型最擅长的,是那些能生成形式规范、可验证的数据来训练模型的领域。比如数学和计算机编程,我们可以编写程序生成各种不同的代码片段来训练模型,也能生成各类几何证明题的解题思路。这类领域之所以适合推理模型,是因为它们都属于封闭领域,相关的知识边界是明确的。

 

Steve Eisman:没错,数据库中的知识量和相关的有效知识量都是有限的。

 

Gary Marcus:对,就是这个意思。所以推理模型在几何、编程这类领域的表现最好,而在开放式的现实世界中,它的表现就差强人意了。我总会从你所熟悉的金融领域举例子,当然你肯定有更贴切的案例,比如长期资本管理公司的破产。其实那也是一种模型失效的情况,只是模型的原理不同,当时没人考虑到俄罗斯债券市场崩盘的可能性,最终导致美国金融市场出现了大幅动荡。这是因为当时的金融模型,其参数设定根本没有覆盖这类极端情况。

 

而现在的推理模型,也面临着类似的问题:它其实并不具备真正的思考能力,哪怕是关于债券的基本问题,它也无法进行真正的逻辑分析。如果用它处理的问题,和训练数据中的内容高度相似,那一切都顺理成章;但一旦超出了它的认知范围,就像我们之前聊到的特斯拉的例子,模型就会立刻失效。

 

Steve Eisman:也就是它依然无法应对新事物、新情况。

 

Gary Marcus:没错,即便升级到了新的推理模型,核心问题依然是无法处理未知信息。它只是在原有基础上做了些许改进,但本质上还是受限于对新事物的适配能力。而关键问题在于,现实世界中,大多数有价值的问题都包含着一定的新要素、新情况,并非全是已知的问题。当然,也有例外,我们确实可以用这种不擅长处理新事物的技术,在一些狭窄的领域做出成绩,比如国际象棋和围棋。这些领域的规则千百年间基本没有太大变化,有海量的历史数据可供参考,模型还能通过自我对弈生成更多训练数据。

 

但在开放式的现实世界中,比如政治、军事战略领域,永远会出现训练数据中没有的新情况。比如,如何应对一位总统授意将军用飞机伪装成民用飞机,去袭击另一个国家的行为?这种情况此前从未发生过,想要分析这类问题,根本无法依靠过往的数据,必须依靠抽象的概念思考,比如权力、外交规则、国际格局的构建逻辑等,这些都是相关领域的学者更擅长的内容。要做到这一点,模型需要接受正确的训练,具备抽象思维能力,而不是单纯依赖数据。即便是在商业应用中,比如看似简单的客户服务,也会遇到类似的问题:用户总会用全新的方式提出问题,而一旦出现这种情况,模型就会因为无法应对新情况而失效。

OpenAI 只够支撑一年,要么倒闭、要么求救微软?

Steve Eisman:假设我任命你为 AI 领域的总负责人,由你掌控所有相关企业,指导整个行业的研发方向。如果你把这些企业的负责人都召集到一起,你会告诉他们,想要实现真正的突破,需要做些什么?

 

Gary Marcus:我会告诉他们,整个行业需要更多的学术思维多样性。就像在你的金融领域,你会告诉人们不要把所有鸡蛋放在一个篮子里,要做资产配置,分散投资股票、债券、黄金、房地产等。而 AI 领域在过去这些年,就是把所有的精力都押在了一个思路上,大语言模型的规模化扩张,这是行业唯一的研发方向。不可否认,这个思路确实带来了一些成果,模型并非毫无用处,我们也确实能利用它解决一些问题,但它终究无法带我们实现所谓的通用人工智能(AGI)这一终极目标,而且这还是一种成本极高、效率极低的研发方式。你可以对比一下,我的孩子只需要少量的信息和学习,就能理解这个世界,而大语言模型却需要学习整个互联网的海量数据,二者的效率差距简直可笑。

 

这些企业花费巨资,做出的却是效率低下、可靠性堪忧,但又有一定使用价值的模型。我们需要的是其他更高效、更经济、更可靠的研发思路,企业应该投入资金去探索这些新方向。但问题的根源,其实也来自你所熟悉的金融领域:风险投资家能从那些听起来合理的投资项目中,赚取 2%的管理费。我很好奇你对这个观点的看法,因为这毕竟是你的专业领域。试想一下,作为风险投资家,如果有一个项目能让你管理一万亿美元的资金,哪怕你根本不在乎项目最终的结果,也能赚到 2%的管理费,这足以让你成为亿万富翁。我并不是说所有的风险投资家都是这样想的,我见过很多投资人,他们确实真心想推动技术进步。

 

但就像任何行业一样,很多投资人都带着功利的心态。对这些功利的投资人来说,最理想的投资标的,就是那些听起来前景广阔、无需真正落地、成本极高的项目,这样他们就能赚取巨额的管理费。我认为,这就是整个行业都沉迷于规模化扩张的原因:投资人能从中赚取不菲的管理费,而且数额极其可观。但从学术研究的角度来说,这绝不是正确的选择,最终也没有带来理想的结果,反而造成了巨额的资金浪费。风险投资家赚走了管理费,而那些有限合伙人,最终会损失大量的资金。

 

Steve Eisman:你是不是觉得,这个行业的泡沫快要破裂了,还是说现在根本没法判断?

 

Gary Marcus:其实炒股的那句老话你我都懂,市场保持非理性的时间,可能比你保持偿付能力的时间还要长。

 

Steve Eisman:没错。

 

Gary Marcus:我去年用一个比喻形容当下的情况,就像《兔八哥》里的歪心狼跑到了悬崖边,它不往下看,就不会掉下去。当然这不符合物理规律,但很有意思。而现在,你所在的投资圈里,已经有人开始往下看了。我觉得从去年 11 月开始,就不断有投资人说,他们看到了一圈又一圈的的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许这个赛道本身就不靠谱。我个人觉得,英伟达的产品做得非常出色,生态体系也很完善,不只是芯片本身,配套的软件等方方面面都很好。我见过黄仁勋,他给我留下了很深的印象,英伟达的产品确实很棒。

 

但问题的关键是,他们最终能卖出多少芯片?我认为,目前的芯片销售全靠市场投机,大家都在赌,我稍后再说说其他人的看法。所有人都在投机,认为这类芯片的需求会无限大,而这种投机的底层逻辑,是相信这些 AI 模型最终能实现 AGI。真正的 AGI 能完成人类能做的所有事,其商业价值不可估量,每年创造数万亿美元的价值都有可能。但《华盛顿邮报》几天前报道了一项一个月前完成的研究,研究显示,人类日常的工作中,只有 2.5%的工作能真正由 AI 系统完成。所以人们幻想中 AI 能完成的大部分工作,其实它都做不到,也根本做不好。这就意味着,最终所有在芯片上的投资,都会变得毫无意义。

 

而在这些企业里,OpenAI 可能是最脆弱的那个。OpenAI 有超过一万亿美元的未兑现承诺,却从未实现过盈利,如今又身处一个产品高度同质化的市场。它最大的竞争对手谷歌已经迎头赶上,甚至可以说实现了反超,还拿下了和苹果的合作大单,这可是笔大生意。所以我觉得 OpenAI 现在已经手忙脚乱了,实在看不出它的估值有任何合理性。

 

Steve Eisman:对我所在的投资圈来说,如果投资人开始从 OpenAI 撤资,而它又融不到新的资金,那会给整个生态系统带来连锁反应。

 

Gary Marcus:没错,这正是我认为即将发生的事。我觉得最终 OpenAI 可能会被微软这样的企业收购。我这几年一直说,OpenAI 最终会成为 AI 领域的 WeWork。未来人们都会疑惑,它当初怎么会有那么高的估值,这完全不合逻辑。OpenAI 的年收入只有几十亿美元,却每个月亏损数十亿美元,还有众多竞争对手,这样的企业根本撑不下去。如果投资人撤资,或者不再继续注资,OpenAI 就会陷入巨大的危机。它每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。

 

Steve Eisman:没错,也就一年的时间。

 

Gary Marcus:而且现在很多人都在持观望态度,他们会觉得,谷歌才是更适合这场竞争的玩家,毕竟谷歌已经追上来了。如果这场竞争只拼规模,那赢家必然是谷歌,这是毋庸置疑的。谷歌有能力做出巨额投入,甚至根本不需要英伟达的芯片,因为他们自研了张量处理单元,能实现类似的功能,所以谷歌的抗风险能力更强。他们有稳定的财务支撑,最终一定会赢。

 

Steve Eisman:没错。

 

Gary Marcus:只要有一部分人意识到,OpenAI 想要活下去,需要的资金量是天文数字,它的处境就会变得岌岌可危。它下一轮可能需要 1000 亿美元的融资,而全世界能拿出这么多钱的人,可能也就五个。就算其中四个愿意投资,只要有一个拒绝,就会出问题;而如果五个都拒绝,它要么倒闭,要么只能去找微软求救。

“脱离世界模型做 AI,根本行不通”

Steve Eisman:Gary,在我们结束访谈前,还有什么我该问却没问的问题吗?

 

Gary Marcus:我觉得这次访谈特别棒。要说还有什么重要的点没聊到,那应该就是“世界模型”这个概念。

 

Steve Eisman:没错,我本来也想聊这个。你一直说我们需要构建世界模型,这个概念完全超出了我的专业领域,不如你给大家解释一下,到底什么是世界模型?

 

Gary Marcus:不同的人对世界模型有不同的定义,简单来说,它就是在计算机系统中,构建一个能表征外部现实世界的体系。我说说我认为我们需要的世界模型是什么样的:软件内部需要有一个结构,能对应现实世界中的各种事物。比如导航系统的世界模型,需要能表征道路的分布、连接方式,以及不同路段的通行时间。在传统的 AI 领域,世界模型是研发的起点,所有的研究都基于此,没人会想过脱离世界模型做研发。Herbert Alexander Simon 是上世纪 50 年代 AI 的奠基人之一,他写过一本自传叫《Models of My Life》,他一生都在研究各类模型和世界模型,并且认为,做好 AI 的关键就是构建正确的世界模型。

 

而大语言模型却试图脱离世界模型运作。构建一个针对特定事物的世界模型,尤其是复杂事物,需要付出巨大的努力。比如过去研发专家系统时,研究者需要构建能模拟医生思考方式的模型,能表征病人身体机能、生理结构的模型,这个过程非常繁琐。当时还有一个专门的领域叫知识工程,做这项工作成本极高,没人愿意做。大语言模型和其他类型的神经网络出现后,研发者宣称,不用再做这些繁琐的工作,只需要让系统从数据中自主学习就行。

 

但事实证明,这根本行不通。就像大语言模型会把出生在洛杉矶的 Harry Shearer 说成是伦敦人,原因就是它没有一个完善的世界模型,无法像设计精良的软件那样,精准调取正确的信息。所以我们必须在 AI 系统中融入世界模型,才能避免幻觉现象的发生。

 

Steve Eisman:我还是不太理解世界模型到底是什么。

 

Gary Marcus:用非专业的语言解释确实有难度,简单说,它就是对世界的一种表征,而且这个“世界”不一定是现实世界。比如我们对《星际迷航》《星球大战》《哈利·波特》这些虚构世界,也会有对应的世界模型。这也是人类和当前 AI 系统最本质的区别:当我们看一部电影、读一本书时,会在脑海中构建出这个世界的运行规则,并且能判断情节是否符合这个世界的逻辑,会不会有不合理的设定。比如看了《哈利·波特》,我们会知道里面的人能骑着扫帚飞,但不会把这个设定和现实世界混淆,不会回家后跳上扫帚就想从窗户飞出去。

 

人类能快速构建并同时掌握多个世界模型,就算看一部新的科幻剧,20 分钟左右就能理解这个全新世界的规则,这是人类的天赋。但在 AI 领域,无论是传统的符号式 AI,还是现在的大语言模型,都做不到这一点。传统 AI 的优势是可以人工构建世界模型,你可以雇一群学者花六周时间,把一个问题的相关规则梳理清楚,构建成模型。最近离世的顶级研究者 Doug Lenat 就做过这样的研究,他为《罗密欧与朱丽叶》构建了世界模型,他的系统能真正理解这部剧的关键情节,而非从网上的读书笔记中获取二手信息,表现非常惊艳。但问题是,我们不知道该如何让传统 AI 自主学习、构建世界模型。而大语言模型则完全做不到构建世界模型,只是在假装自己能做到。

 

我有个很经典的例子,就算用整个互联网的内容训练大语言模型,让它接触海量的国际象棋规则和对局记录,它依然会走出违规的棋步,因为它从未真正抽象出国际象棋的运行逻辑。这一点就足以说明问题了。试想一下,一个人看了一百万盘象棋对局,读了维基百科、象棋网站上的所有规则,还看了 Robert James Fischer 的象棋著作,不可能连基本的棋规都掌握不了,但 AI 就是做不到。

 

所以我们需要研发能自主归纳出世界模型的 AI 系统,这类系统能从数据中挖掘因果规律,识别其中的核心要素。这是一个难题,不是说有人明天回家鼓捣一下就能解决的。长期以来,无论是传统 AI 还是大语言模型,都在回避这个问题,而现在,我们必须直面它。

 

Steve Eisman:看来这需要很长的时间来研究。

 

Gary Marcus:确实需要很久。我想说的是,AI 确实会以我们难以想象的方式改变世界,但绝不是现在,靠当下的这项技术根本做不到。我们需要把这一点考虑进去,做出合理的投资决策。现在的问题是,我们到底是在投资基础研究,还是在为一项已经成熟的技术做规模化投入?答案显然是后者。而当下的市场,大多是在投机,赌那些目前行不通的技术,只要做得更大,就能凭空实现突破。

 

但事实上,单纯的规模化根本解决不了这些核心问题,我们真正需要的是扎实的基础研究。这是我过去五年一直强调的观点,也是 SSG 在去年 11 月提出的观点,而 Ilya Sutskever 也表达了类似的看法。当我们这些背景截然不同的人,都达成了这样的共识,行业内的人其实应该认真听一听。

 

参考链接:

https://www.youtube.com/watch?v=aI7XknJJC5Q

“如果一个 AI 能解 IMO,但解决不了任何现实问题,那它不是通用人工智能。”

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家,蒂姆·德特默斯对 AGI 给出的判断,他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI 从神坛上拽了下来。

image

有意思的是,几天后,加州大学圣地亚哥分校助理教授、Together AI 内核副总裁丹·傅,给出了完全相反的判断。他写了一篇 《通用人工智能终将成为现实》,说 我们也许早就已经实现了 AGI。

image

于是,两篇文章,一场关于 “AGI ” 的争论,被带进了播客现场。

这场讨论并非空谈,两位嘉宾都是同时深耕学术界与产业界的一线研究者

蒂姆·德特默斯长期深耕深度学习量化领域,即模型压缩,如何在更低精度、更少算力下,让模型保持可用性能。

image

在蒂姆·德特默斯看来,判断 AGI 是否成立,首先要回到一个常被忽略的前提:计算是物理的。

在他看来,内存迁移、带宽、延迟,以及冯·诺依曼瓶颈,决定了算力不可能无限扩张。他说 “几乎所有指数增长,最终都会撞上资源和物理极限”。 所以,指数增长终将放缓,Scaling Law 也不例外。

但丹·傅显然不这么看。在他看来,现在谈“算力见顶”,还太早了。丹·傅每天都在和 GPU 内核、算力利用率打交道,在他看来,“我们甚至还没真正用好上一代硬件。”

image

在现实系统中,算力其实被严重低估和浪费了, 大量性能消耗在内核调度、系统开销和工程细节上。更关键的是,人们今天评测和使用的“最强模型”,往往是基于一到两年前的算力集群训练出来的,它们并不能代表当下硬件和大规模集群所能达到的真实上限。

他因此提出了一个直观的估算思路,用来说明算力增长的潜力来自多个维度的叠加:

  • 新一代硬件 带来约 2–3 倍 的性能提升;

  • 系统与工程优化 将算力利用率提升 约 3 倍;

  • 更大规模的集群 再带来 约 10 倍 的规模效应。

这三者相乘,意味着可用算力在理论上可以提升接近 90 倍。这并不是纸面上的推算,而是正在产业中逐步发生、逐步兑现的现实潜力。

有意思的是,当争论继续推进,两人反而在一个问题上开始靠拢:AGI 到底是什么?

关于 AGI 的定义,大致有两种主流视角:

一种从认知能力出发,看模型能否覆盖足够多的认知任务;

另一种则从经济角度出发,看它是否真的改变了生产方式。

这一点上,双方达成一个共识:AGI 是什么并不重要,重要的是,它有没有改变我们工作的方式。

在访谈后后半部分,大家从未来拉回到了现实,Agent 成为了关键话题。

丹·傅在节目中提到一个有趣的时间点:2025 年 6 月, 那是他第一次意识到,Agent 可能真的越过了拐点。

image

他当时发现机器学习工程中最难的技能之一、编程领域的终极难题——“GPU 内核编程” 被代码智能体啃下来了。他自己亲测:原本一个 GPU 内核功能开发得磨一周,那天靠着代码智能体,一天就搞定了三四个,工作效率直接提升了 5 倍。而他的团队用上后,那些原本需要整支团队耗数月的复杂系统开发,也变得轻装上阵。

这让丹·傅想起了自己对自动驾驶的态度变化,从长期怀疑到真正坐上 Waymo,他意识到技术的突破可能藏在某个猝不及防的瞬间。

针对 Agent 的爆发式潜力,蒂姆·德特默斯曾发布了一篇掷地有声的文章 《要么善用 Agent,要么被时代淘汰》。在他看来,代码 Agent 本身就是高度通用的 Agent,因为代码几乎可以描述和解决所有数字化问题。他甚至直言,“超过 90% 的代码和文本,本就应该由 Agent 来生成。但同时他也强调,“人类必须对最终结果承担责任,而非盲目依赖 AI 的输出。”

image

两人将 Agent 形象地比作“需要精细化管理的实习生”,只要给它明确背景信息、拆解任务边界、设定执行约束,人类无需过度干预其执行过程,而是把注意力聚焦在把控方向上,用专业判断力校验结果。而在 Agent 时代,真正吃到红利的将是有深厚积累的专家,其专业基础越深厚,Agent 能为其创造的效率增量就越显著。

在节目的最后,关乎对 AI 行业未来的预判,双方抛出了一系列深刻洞见。

在他们看来,小模型会成为行业新热点、开源模型会进一步飞跃;新硬件、多模态、端侧 AI 都会有进一步发展。

其中,硬件赛道将走向多元化发展,模型训练与推理环节的专业化分化会进一步加剧。

更值得关注的是,Transformer 架构独霸天下的时代会落幕,各类新架构会登上时代舞台。

他们还特别提到了中国的 GLM-4.7、MiniMax、DeepSeek 等优秀模型,对中国大模型的快速进步表达了高度认可。

在他们看来,相比技术路线相对集中的美国,中国团队反而更敢于探索多种可能性,比如状态空间模型、线性注意力以及混合架构等,通过架构创新或极致性能,让开源模型脱颖而出。

同时,他们也指出,中国的模型团队在技术路线上更 务实。与“先做出最强模型,再等待应用出现”的硅谷思路不同,中国团队更关注模型是否真正能落地、是否能在现实场景中产生价值。正是这种务实的发展思维,可能会在未来深刻影响人工智能的技术形态以及它所能创造的社会价值。

以下是播客全文,更多精彩细节,欢迎来看:

“AGI 能否成为现实”之争

主持人:蒂姆,几周前你发表了一篇极具争议性的精彩博文,标题是 《通用人工智能为何不会成为现实》。而丹,你在几天后也发布了一篇同样引人入胜的回应博文,标题为 《通用人工智能终将成为现实》。我想先了解一下二位的背景,你们都有着一个有趣的特点,就是兼具产业界和学术界的从业经历。蒂姆,不如你先讲讲吧。

蒂姆・德特默斯:我是卡内基梅隆大学机器学习与计算机科学系的助理教授,同时也是艾伦人工智能研究所的研究科学家。

我过往的研究主要聚焦于高效深度学习量化技术,简单来说就是模型压缩, 把大模型从 16 位精度压缩到 4 位精度左右,这方面我做了不少核心研究。比如一种高效的微调方法,我们将模型压缩至 4 位精度,在模型上使用适配器,这样所需的内存相比全精度模型能减少多达 16 倍。

目前我正致力于代码 Agent 的研究, 我们将在约两周后发布一项非常令人振奋的成果,打造出了目前最先进的 Agent,它能快速适配私有数据,在任意代码库上都能实现出色的性能表现,这一成果真的让人充满期待。

主持人:丹,该你了。

丹・傅:我是加州大学圣地亚哥分校的助理教授,同时担任合聚人工智能公司的内核副总裁。

在产业界,我的工作主要集中在提升模型的运行速度,GPU 内核正是将模型转化为实际在 GPU 上运行程序的关键,你可以把它理解为专门的 GPU 程序。

我的博士阶段以及实验室的大量研究都围绕这一方向展开,比如我研发了快速注意力机制,这是一款针对当下多数语言模型核心运算的高效内核。我还研究了 Transformer 架构之外的替代架构, 比如状态空间模型等。

在合聚人工智能,我主要关注如何打造当下最优的语言模型,以及如何进一步提升它们的运行速度。

就在本期节目录制的今早,我们还和库尔索公司联合发布了一篇博文,介绍了我们如何为其多款模型实现加速,并助力他们在英伟达的布莱克韦尔(Blackwell) GPU 上推出了作曲者 2.0 模型,这大概就是我的工作内容。

从 AGI 的定义,聊到对 AGI 的现实判断

主持人:接下来我们聊聊通用人工智能的话题,节目后半段再探讨 Agent 和代码 Agent,以及二位的相关见解。通用人工智能这个术语被大家广泛使用,但我想大家都认同,目前还没有人能准确定义它。为了本次探讨,二位认为什么样的通用人工智能定义是实用的?

丹・傅:当然。我和蒂姆在这一系列博文中 反复探讨的一个问题,就是通用人工智能的定义。

就我而言,我最近一直在思考,以当下的模型发展水平,尤其是语言模型,再结合后续会谈到的 Agent 来看,以 5 年前、10 年前,甚至我和蒂姆刚开始读博时任何人给出的通用人工智能定义,我们其实已经实现了当时的设想。如今的模型能写代码、能生成人类语言,即便有时用词上会有些小瑕疵,但确实能完成这些令人惊叹的任务。我还会思考,这种技术发展到何种程度,会引发一场新的工业革命,真正改变我们当下的工作方式,并产生巨大的经济影响。

在软件工程领域,我觉得我们已经身处这样的变革中,或者说即将迎来全面变革。虽然在一些高度专业化的领域,比如模型未必能写出世界上最优质的福兰语和钴语言代码,但在网页开发,甚至很多底层系统工程方面,它们的表现已经非常出色。

我写那篇博文的一个原因就是,审视当下的发展,我们或许已经实现了通用人工智能,或者说某种形式的通用人工智能。即便尚未完全实现,下一代正在训练的模型,只要比当下的模型表现更好,我们就已经取得了令人惊叹的突破。

蒂姆・德特默斯:我写那篇博文时发现,自己竟然忘了在文中给出通用人工智能的定义,尽管整篇文章都围绕这个主题展开。我想这在某种程度上也反映了我们对通用人工智能的思考现状 —— 我们并未认真去界定它。当然,目前存在多种定义,各有优劣,正如你所说,没有一个定义能获得所有人的认同。

我简单提几种比较主流的,一种是将通用人工智能视为认知能力、认知任务的集合,关注模型能完成哪些认知层面的工作。 软件工程、文本创作都是高度依赖认知的任务,而让机器人在空间中移动则更偏向操作层面,当然也有人认为肢体移动的规划也属于认知范畴,但多数人会将其区分开来,认为所有数字化的任务都属于认知领域,物理层面的操作则超出了这一范畴。

另一种我认为很有意义的定义视角是经济层面,看人工智能是否能引发一场新的工业革命,是否具备广泛的实用性,能应用到各个领域,推动各类工作的效率提升,就像计算机的出现那样。 当然,计算机刚出现时,生产率其实出现了下降,直到其在经济中广泛普及,生产率才重新回升。通用人工智能的发展或许也会经历类似过程,在软件工程等领域,其带来的效率提升已经十分显著。

主持人:我们直接切入核心争论吧。蒂姆,你曾提到 AGI 的相关构想的起源,这一点让我觉得很有意思,你能展开讲讲吗?

蒂姆・德特默斯:好的。先梳理一下整体的背景,当下关于 AGI 的一些观点,根植于特定的思维模式,主要来源于有效利他主义社群和理性主义社群。

我 15 年前也曾是这些社群的一员。在推特上,总能看到有人说 “两年内就能实现通用人工智能”,一年后又有人说 “两年内就能实现通用人工智能”,年年如此。我觉得这种想法有些草率,也体现出一种信息茧房的状态,持这种观点的人很少接触不同的想法。这也是我写那篇博文的主要动机,我希望提出一些不同的观点,为当下主流的思考提供一种反视角。

算力是否见顶

主持人:你核心的观点是,这些构想与实际的计算现实之间存在矛盾,这样概括准确吗?

蒂姆・德特默斯:没错。这其中既涉及物理层面的限制,也有理论层面的问题,而这两方面都存在 一个共同的规律 —— 收益递减。所有指数级增长的事物最终都会放缓,因为发展需要资源,而资源总会耗尽,这里的资源可以有多种解读。

从物理层面来看,技术的进一步发展会变得越来越困难,几乎所有研究和开发领域都是如此。前期的进展往往容易实现,而后续要取得突破,需要投入更多资源,发展速度也会越来越慢。

再看计算设备的物理现实以及计算本身的结构, 其实有用的计算主要包含两个环节:

首先是将数据从不同位置收集起来,汇聚到指定位置,然后对这些信息进行整合,完成信息的转化处理。简单来说,就是结合已知信息,计算出未知的新信息。有用的信息,必然是从已有的信息中转化而来的。如果只是大量转移信息,却不进行处理,就无法产生新信息;如果只是对现有信息进行大量计算,又会错失跨领域的洞察和间接的启发。我认为这一点与我们当下的神经网络架构高度契合。

早期的卷积神经网络表现出色,原因就在于它们几乎不怎么移动内存,而是专注于大量计算,这意味着这类设备需要强大的浮点运算能力,而内存带宽则没那么重要。当发展到大规模密集计算、大矩阵运算阶段,就到了当下神经网络的发展方向,但此时仍保留着循环机制的特点,需要关注之前的状态。不过由于循环的特性,计算的内存复用率极低。

而 Transformer 架构,先是通过大矩阵将前一层的输入信息进行转化,再通过注意力机制实现跨时间或空间的信息关联。我认为这是处理信息最根本的两种方式:一是让信息之间建立关联,或对信息进行转化;

二是让信息与关联较远的其他信息建立联系,也就是挖掘长期关联,并基于已有信息进行转化。

主持人:你认为这一发展进程正在放缓,对吧?你的博文中有一句非常引人注目的话,称 “图形处理器的发展将不再有实质性突破”,这是核心观点,能说说原因吗?

蒂姆・德特默斯:这个观点包含两层含义,首先是一个非常根本的物理问题,也就是我刚才提到的内存转移和计算的关系。

计算要产生价值,就必须将内存数据转移到进行计算的本地区域,这其实是一个几何问题。你需要一个大容量的信息存储区,然后将其中的信息转移到计算区域。而我们已经找到了实现这一过程的最优物理方式:配备大容量但速度较慢的动态随机存取存储器,再将数据转移到高速缓存中。

从几何结构来看,这是实现高速运算的最优解,针对特定规模的计算任务,这种架构的效率是最高的。如果是矩阵乘法这类不同规模的计算任务,就需要使用图形处理器而非中央处理器,因为图形处理器虽然延迟更高,但吞吐量更大,能传输更多数据,只是速度稍慢。我们可以对缓存的结构、大小,以及核心的共享方式做一些微调,但归根结底,核心的问题始终存在 —— 这是一个几何难题,空间的利用方式是有限的,这就决定了数据的访问模式和延迟始终存在固定的限制,其中最大的延迟来自大容量的动态随机存取存储器,这也是主要的性能瓶颈。这一瓶颈也被称为 冯・诺依曼瓶颈,几乎所有计算机都受此限制,具体来说,就是需要将程序传输到执行区域才能运行。对于神经网络而言,就是要将权重和输入数据传输到张量核心这一执行单元。

想要绕开这一瓶颈的方法寥寥无几,唯一的途径是进行本地内存存储和本地计算,市面上也有一些处理器尝试实现这一点,比如存算一体处理器,能在很大程度上在芯片内部解决冯・诺依曼瓶颈问题,但这类处理器仍需要从外部向芯片内传输数据,这就使得冯・诺依曼瓶颈从芯片内部转移到了存储设备或网络层面,问题只是发生了转移,本质并未改变。你仍需要通过网络将存储在磁盘或内存中的程序加载到芯片中,这还是同一个物理问题,只是调整了几个变量而已。这是问题的第一个层面,目前还没有能解决这一问题的架构。

第二个层面,也是我的核心观点所在:想要突破瓶颈,需要依靠新技术,但当新技术的潜力被充分挖掘后,又需要新的技术实现进一步突破。

比如,我们从动态随机存取存储器发展到了高带宽存储器,也就是堆叠式的动态随机存取存储器,速度大幅提升,但这种存储器的堆叠层数有限,因为其制造和测试的难度极高,良品率很低。到 2026 年,高带宽存储器的产能将会不足,无法实现规模化生产,因为制造难度实在太大。我们已经见证了诸多技术创新,张量核心的出现是一大突破,8 位精度、4 位精度的量化技术也相继落地,我和其他研究者的研究都表明,这些技术在信息论层面和实际应用中都是接近最优的。

如果基于足够多的数据进行训练,4 位精度是不够的,实际需要 8 位精度,这意味着量化技术已经发展到了极限。硬件的潜力也被挖掘殆尽,目前没有新的技术可以突破,我们能做的只是优化制造工艺,降低成本,却无法提升速度。各项功能的开发也已到极致,稀疏化技术是很多人尝试的方向,这一研究已经持续了 50 年,我自己也做过相关尝试,这或许是最后一个可探索的方向,但 4 位精度的量化技术已经意味着量化领域的发展走到了尽头。

简单来说 ,功能和硬件都已被开发到极限,这就是我们当下的处境

主持人:太有意思了。丹,你对这些观点有什么看法?

丹・傅:我非常认可蒂姆的这篇博文,因为当下有不少关于通用人工智能的讨论,只是简单地按照指数增长的趋势去推演,认为到某个时间点,人工智能会发展到掌控整个宇宙的程度,我一直觉得这种思考方式有些片面。我认同蒂姆从实际物理限制角度出发的分析,正如他所说,这些都是依赖物理输入、进行实际物理计算的系统。

我的观点是,看看当下的系统和我们训练的模型,我们甚至连上一代硬件的潜力都远未充分挖掘,更不用说新推出的硬件了。

从技术层面,我在博文中主要提出了两个核心观点:

第一,看看当下那些表现出色的模型,我在博文中主要以开源模型为例,因为开源领域会更多地披露模型的训练过程和所耗资源,而开放人工智能和思存人工智能等公司并未公开相关数据。

以 DeepSeek 模型为例,这是目前最优秀的开源模型之一,它在 2024 年底完成训练,使用的是上一代的英伟达 H800 GPU,这款显卡因出口限制做了性能阉割,并非原版 H100。根据公开报告,该模型的训练使用了约 2000 块 H800 显卡,耗时约一个月。计算一下实际的算力利用情况会发现,芯片的有效利用率仅约 20%,行业内将这一指标称为模型浮点运算利用率。而在 21 世纪 20 年代初,我们在旧硬件上训练不同架构的模型时,轻松就能实现 50% 甚至 60% 的模型浮点运算利用率。如果能将这一指标提升,再加上我的好友崔最近发布了一系列能优化模型训练的新内核,单是这一项优化,就能让算力利用率提升 3 倍。

第二,需要意识到的是,这款 2024 年年中开始训练的 DeepSeek 模型,在 2026 年初仍是众多优秀开源或类开源模型的基础。而从那之后,我们已经搭建了全新的算力集群,搭载了当下最新的硬件,比如英伟达的布莱克韦尔系列显卡。普尔赛德、瑞弗莱克申等公司都在搭建包含数万个 B200、GB200 芯片的算力集群。

对比来看,新一代硬件即便保持和之前相同的精度、相同的配置,运算速度也能提升 2 至 3 倍,算力集群的规模更是扩大了 10 倍,再加上 3 倍的纯技术优化空间,整体的可用算力能提升 3×3×10,也就是 90 倍。这还没有考虑未来的算力集群建设,只是当下已经落地、有人正在用于模型训练的集群。

我的核心观点是,单从这些基础的硬件条件来看,就能发现可用算力相比我们当下所依赖的模型,还有多达两个数量级的提升空间,也就是 100 倍。 当然,我们可以争论算力规模扩大是否会带来收益递减,缩放曲线是否依然有效,但现实的算力潜力就摆在眼前。

这还没考虑蒂姆提到的那些点,比如目前的训练大多采用 8 位精度,而 4 位精度的训练方法才刚刚开始形成相关研究成果;GB200 芯片有 72 个连接速度极快的核心,而我们甚至还没看到基于这款芯片训练的首个预训练模型。开放人工智能的报告中提到,GPT-5.2 是首个基于 H100、H200 和 GP200 芯片训练的模型,这在我看来,意味着它的预训练其实是在老旧的算力集群上完成的,只是在新的 GP200 芯片上进行了一些微调。

主持人:你提到,不仅硬件的利用率不足,模型本身也是硬件发展的滞后指标,对吧?

丹・傅:没错。我们当下能使用、能体验到的模型,都是在一两年前搭建的算力集群上完成预训练的。

因为搭建一个算力集群需要时间,完成大规模的预训练需要时间,后续的微调、人类反馈强化学习等后训练环节也需要时间。所以我们当下所看到的、用来衡量模型质量的这些模型,其实都是在一年半前的硬件上训练的。而在这之后,我们已经搭建了规模大得多的算力集群,不难想象,这些集群会被用于训练新一代模型。

也就是说,我们当下所依赖的优质模型,训练所使用的硬件其实已经相当老旧,而我们拥有了新一代的硬件、更多的软件优化方案,更不用说架构层面的创新了。

蒂姆刚才提到,处理数据的核心是先转移、再计算,而变形金刚架构其实一直在发展,只是在研究者看来,发展速度稍慢。但我们能看到,计算的核心方式已经在发生变化,哪怕再找到 1.5 倍或 2 倍的优化空间,整体的可用算力就能达到 100 甚至 150 倍。所以当下还有大量的算力潜力可以挖掘,用来训练更优质的模型。

  预训练是综合训练,后训练是专项训练

主持人:我理解这场讨论的核心是预训练,也就是我们能否用更多的数据和算力训练出更大的模型。但在本播客之前的对话中,很多人都强调后训练的重要性,以及构建结合预训练和强化学习的人工智能系统的意义。这一点在当下的讨论中该如何定位?

丹・傅:这是个非常好的问题,我和蒂姆的博文其实都没有重点探讨这一点。我喜欢这样比喻,预训练就像是在健身房进行的综合力量训练,通过大重量训练提升整体的力量和能力;而后训练就像是针对特定项目的专项训练,让你在具体任务上表现更出色。

从算力消耗来看,历史上预训练消耗的算力占绝对主导,其目的是打造具备通用能力的模型,让模型掌握大量知识,能完成多种任务,甚至拥有比普通人更多的知识储备,比如我自己的知识量肯定比不上聊天生成预训练转换器。

而后训练的作用,一方面是让模型变得更实用,比如聊天生成预训练转换器,能理解用户的需求,并尽力完成任务;另一方面,我们也发现,后训练正越来越多地被用于培养模型的特定技能。比如擅长辅助编程的模型,虽然依托于预训练积累的大量知识,但正是通过后训练,才让它在编程领域具备了出色的能力;同理,擅长法律工作的模型,也是在预训练的基础上,通过后训练实现了专业领域的优化。

从纯计算的角度来看,预训练的算力消耗通常远大于后训练。 后训练的工作,我虽然不是这方面的专家,但感觉更多地像是如何打造一款实用的产品,如何获取用户反馈,诸如此类。

当然,也有一种可能是,下一代预训练模型的基础能力已经足够强大,只要针对经济领域的各个垂直赛道进行后训练,就能打造出极具实用性的模型。所以这也是计算领域的另一个重要维度,或许我们根本不需要那 100 倍的额外算力,更多的是需要像培养人类一样,深入理解问题,找到合适的训练方法 —— 就像你如何培养一名实习生完成特定任务,如何让一个能力强大的预训练模型发挥出实际价值,这正是后训练要解决的问题。

主持人:二位都提到了 “实用性” 这个概念,这或许是你们观点的交汇点。通用人工智能的定义众说纷纭,但最终的关键还是看它在产业中的实际实用性。所以即便由于收益递减,我们无法实现那个大家都无法准确定义的、理想化的通用人工智能,也无关紧要,因为我们还有巨大的潜力可以挖掘,足以让人工智能在整个经济领域发挥真正的价值,而不仅限于编程领域。

蒂姆・德特默斯:没错。我那篇博文的核心结论正是如此,我们不必过分纠结于通用人工智能的定义,更应该思考如何让人工智能发挥最大的实用价值,而这不仅关乎模型本身,丹刚才提到后训练是产品化的过程,这一点很重要。计算机的发展历程告诉我们,技术在经济中的普及需要一种截然不同的思维模式。

美国的思维模式往往是 “打造出最优的模型,自然会有人使用”,而中国的思维模式则更注重务实,思考如何让技术惠及更多人。我认为这种务实的思维模式至关重要。谈及实用性,一方面是模型的能力,另一方面就是这种发展思维。

我相信我和丹,以及大多数人都会认同一个观点:如果一个人工智能能完成数学奥林匹克竞赛这类高难度任务,却无法解决任何实际问题,那它算不上通用人工智能。而当下的模型已经具备了实用性,所以不会出现那种 “有能力却无用处” 的情况。

我们真正追求的,是实用性极强的模型,而这样的模型我们已经拥有,并且还能不断优化。我认为按照某些定义,我们或许无法实现通用人工智能,但人工智能必将产生巨大的社会影响。

丹・傅:我想补充一点,蒂姆你提到了经济领域的物理性工作和知识性工作的划分,美中两国在这方面的差异非常有意思。

最近有一本丹・王写的书很火,探讨了制造型经济、工程型经济与偏法务型经济的区别。美国有大量优秀的知识性工作有待人工智能去赋能,而从经济的实际产业结构来看,医疗、教育占了很大比重,科技领域虽然也是重要组成部分,引领着股市的走向,但还有更多领域等待挖掘。

现在有很多优秀的研究者正在尝试用新一代模型研发新药、推动医疗领域的实际变革;如果机器人技术能实现突破,助力完成一些体力劳动 —— 未必是建造房屋这类重活,而是日常的家务劳动,那将挖掘出经济领域的巨大潜力。这些方向的发展已经能看到初步的成果,自动驾驶的发展历程对我很有启发。

在我读博初期,大概 2018、2019 年,我对自动驾驶持非常怀疑的态度,当时大家总说自动驾驶 “再有一两年就能实现”,专家则说 “五年内有望落地”。但去年我乘坐了威莫的自动驾驶车辆,如今在加州湾区,我甚至能使用威莫的高速自动驾驶服务。理论上,我现在甚至可以卖掉自己的车 —— 当然我不会这么做,因为我个人喜欢开车。

但技术的进步就是这样,在这之前一直毫无起色,突然有一天就实现了突破,你会发现它不仅表现出色,甚至比优步、出租车这类人工服务还要好。如果人工智能在家庭清洁、洗碗这类家务劳动上也实现这样的突破,那将是非常令人振奋的,也会彻底改变人们的看法。我自己并非机器人领域的研究者,但一直密切关注着这个领域的发展。

多硬件、多芯片的未来方向

主持人:丹,借着这个话题,我想问问,从你的观察来看,人工智能领域是否会朝着多硬件、多芯片的方向发展?显然英伟达的发展势头迅猛,还有赛博拉斯等公司,以及众多从底层技术切入的专用集成电路企业。从你深耕底层技术的视角,你怎么看这一趋势?

丹・傅:这是个很棒的问题,我在实验室的工作中会花大量时间思考这个问题,产业界的工作中也会密切关注。当下正处于一个非常令人振奋的阶段:英伟达的芯片性能强劲、稳定性高,围绕其构建的软件生态也非常完善;而 AMD 的芯片也开始展现出同样的潜力,相关的研究也在推进。

比如在实验室,我的好友西姆龙・奥罗拉主导开发了一个名为希普基滕斯的库,核心就是探索如何设计合适的软件抽象层,实现 AMD GPU 的编程。研究发现,AMD GPU 和英伟达 GPU 的软件抽象层存在明显差异,即便这两款 GPU 的参数规格相对接近 —— 更不用说和格罗克、赛博拉斯、萨博诺瓦等公司的芯片相比了,它们的编程方式也截然不同。

现在越来越多的人开始关注这一领域,投入时间和精力进行研究。英伟达收购了格罗克,当下张量处理单元也备受关注,赛博拉斯和开放人工智能也刚宣布达成合作。所以未来必然会涌现出更多的硬件方案,英伟达无疑会继续保持良好的发展态势,甚至在本期节目录制时,其市值已经突破 5 万亿美元,但硬件领域的多样性会大幅提升,尤其是在模型推理层面。

训练和推理是两种截然不同的计算过程,因此需要的芯片也大相径庭。在推理层面,模型可能需要在手机、笔记本电脑等本地设备上运行。 我的手机是一款几年前的苹果手机,但其运算能力已经超过了我读博初期使用的一些 GPU,硬件算力的增长速度令人惊叹。

2025 年 6 月是 Agent 的拐点

主持人:丹,你刚才提到自动驾驶实现突破的那个节点,Agent 的发展是否也已经到了这样的时刻?你还提到过 “软件奇点”,我们当下是否正处于 Agent 发展的关键突破点?

丹・傅:我认为是的。就我个人的经历而言,这个突破点出现在 2025 年 6 月左右。

给大家做个背景介绍,我在合聚人工智能的日常工作就是编写这些 GPU 内核,在机器学习领域,GPU 内核的编程被认为是最难掌握的技能之一,它需要高度的并行化设计,使用的是 C++ 这种资深工程师使用了数十年的老牌语言,而非 Python 这类易用的语言。招聘能编写 GPU 内核的工程师难度极大,这是一项极具挑战性的技能,无疑是编程能力的顶尖体现。

而 2025 年 6 月,我们有了一个非常有趣的发现:云代码、库尔索 Agent 这类代码 Agent,在编写 GPU 内核方面的表现非常出色。那一周,我完成了三四个原本各自需要一周时间才能完成的功能开发,全部工作一天就搞定了。 当时我就意识到,这个工具让我这个内核领域的专家,工作效率提升了 5 倍。

我让团队都开始使用这个工具,现在团队借助它搭建了许多复杂的系统,能快速完成原本需要整个团队耗时数月才能实现的功能开发。而 GPU 内核编程,正是编程领域最难的 “终极挑战”,所以在我们看来,代码 Agent,尤其是在高难度的 GPU 内核编程领域,已经实现了关键性的突破

几个月前,我在斯拉什大会上做了一场演讲,提出了 “软件奇点” 的概念,核心就是意识到在软件工程领域,即便是这类非常小众的高难度技能,人工智能的表现也已经超越了普通程序员,甚至能为资深程序员带来效率的大幅提升。就本期节目录制的当下而言,让 Agent 独立完成开发,可能还无法产出完美的结果,但如果资深程序员借助这些工具,工作效率能提升 10 倍,这是一个非常令人振奋的发展阶段。

要么善用 Agent,要么被时代淘汰。

主持人:聊到 Agent,蒂姆,你最近还发表了一篇精彩的博文,标题是 《要么善用 Agent,要么被时代淘汰》,其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现,到 Agent 在日常生活各领域发挥实用价值,这一发展进程当下处于什么阶段?

蒂姆・德特默斯:我写这篇博文,也是因为发现使用代码 Agent 能为各类任务带来巨大的生产效率提升。作为一名教授,我平时的编程工作并不多,但借助代码 Agent,编程变得前所未有的轻松,这在以往是难以想象的。

当然,Agent 在非编程任务上的表现也同样出色。从我自身的体验来看,生产效率的提升幅度不一,有时是两三倍,有时甚至能达到 10 倍,而且工作质量没有下降,甚至有时还能提升。Agent 的能力或许未必比我强,但它不会疲惫,不会犯低级错误,也不会在整合复杂信息时出现认知上的困难 —— 这和丹刚才提到的 GPU 内核编程的情况是一样的。

我认为马特你将其分为代码 Agent 和通用 Agent,但在我看来,代码 Agent 本身就是通用 Agent。代码 Agent 能编写程序解决各类问题,而代码的通用性极强,任何数字化的问题都能通过代码解决。代码 Agent 让解决问题的过程变得无比轻松,让我们能以以往无法想象的方式和速度解决各类问题,实现多任务并行处理。Agent 不会疲惫,可以持续工作,让工作变得轻松很多。

我的博文中有一个观点我自己很认同,开篇我先区分了炒作和现实,而后基于自己在直播中测试 Agent 的实际体验得出结论 :超过 90% 的代码和文本都应该由 Agent 来生成,不这么做,就会被时代淘汰。 我想对于很多工程师来说,这一点已经成为现实。

有些人认为,Agent 生成的代码和文本质量一定低下,但关键在于,你需要对 Agent 的输出进行检查和编辑。你所做的这 10% 的工作,能带来巨大的改变。通过这种对输出内容的检查、编辑和优化,让成果成为属于自己的作品。

人工智能生成的内容,并不比你自己写的内容缺乏个性。比如我借助 Agent 撰写科研基金申请,成品会让我觉得充满生命力,能感受到其中的吸引力,相信评审人看到后会觉得 “这是一项优秀的研究,值得资助”。现实就是如此,如果你只是让 Agent 生成内容,不做任何检查就直接使用,那肯定无法达到预期效果;但如果你能快速审核内容、调整优化,发现不妥之处并进行修改,最终就能得到优质的成果,这会成为未来的常态。

而适应这种工作方式所需的技能,大多数人还未完全掌握,我自己也在学习中,目前仍处于探索阶段。 模型在更新,框架在迭代,我们需要不断适应、持续学习,虽然要学的东西很多,但一旦掌握,带来的回报是巨大的。

曾经有人认为软件工程师会因此消失,但现在大家都不再这么想了。Agent 极大地提升了生产效率,而掌握使用 Agent 的能力,正是当下最需要学习的技能。善用 Agent,能让你完成更多工作,这是核心所在。如果不懂得如何有效使用 Agent,你就会被淘汰,这将成为一项必备的核心技能。

主持人:聊到 Agent,蒂姆,你最近还发表了一篇精彩的博文,标题是 《要么善用 Agent,要么被时代淘汰》,其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现,到 Agent 在日常生活各领域发挥实用价值,这一发展进程当下处于什么阶段?

蒂姆・德特默斯我认为最关键的是保持务实,思考需要解决的问题,并尝试用代码实现。

当然,对于非程序员来说,编程本身就有很高的门槛,会觉得 “我从没写过代码,根本做不到”。但如果和 Agent 互动,它能直接帮你搭建程序,你只需要进行少量的学习 —— Agent 还会为你讲解相关知识,很快就能上手,实现程序的运行、网站的搭建等,还能快速获得反馈,现在做这些事情已经不再困难。

当然,我之前提到过需要检查 Agent 的输出,但如果你只是为自己搭建一些简单的工具提升工作效率,其实往往不需要这么做,Agent 生成的代码质量已经足够高。如果是在公司工作,需要将代码整合到正式的代码库中,那肯定需要进行审核;但如果只是搭建个人使用的小程序,提升自己的工作效率,那非常容易。

举个随机的例子,我会录制自己和 Agent 互动的视频,视频中会有我讲解的片段,也有我查看输出、思考分析的片段。我借助 Agent 搭建了一个工具,它能识别语音,记录我说话的时间戳,然后对视频进行剪辑,只保留我讲解的部分,去掉无意义的片段。这个工具我只用了 20 分钟就搭建好了,我相信所有人都能做到,因为我甚至没有检查 Agent 生成的代码,直接使用后,剪辑出的视频效果非常好。

只要建立起 “提出需求 — Agent 生成 — 获得反馈” 的循环,你根本不需要自己编程,只需要学会检查输出内容,或者掌握 Python 程序、bash 脚本的基本运行方法,就能实现工作的自动化。

主持人:那该如何选择要自动化的工作呢?该从哪些角度思考生活中的自动化需求?

蒂姆・德特默斯:我在博文中也探讨过这个问题,其实可以分为 直觉层面和精细化分析层面

直觉层面很简单,就是思考哪些工作自动化后会带来便利,哪怕是一些复杂的需求,比如 “我想要一个能实现某某功能的安卓或苹果应用”,一开始你可能觉得这很难,但只要向 Agent 提出需求,它能立刻实现。你可以充分发挥想象力,打造任何自己想要的工具,那些以往没人开发、自己又迫切需要的产品,现在都能借助 Agent 实现。

这种思维方式能让你打造出实用的工具,提升生产效率,同时也能锻炼你使用 Agent 的能力。当然,有时尝试后可能会失败,这时你会明白 Agent 的局限性,以及自己还需要学习哪些知识才能解决问题。

这是直觉层面的方法,能让你快速入门,从最初的兴奋,到面对现实的冷静,再到继续尝试,最终会发现自己的生产效率在一天天提升。

而精细化分析层面的方法,来自我在德国自动化行业三年的工作经历,当时主要负责工厂的自动化改造,这是一种非常严谨的计算方法:先梳理自己的工作流程,为每个步骤计时,然后分析如果将某个步骤自动化,能带来多少收益、节省多少时间,再计算开发这个自动化工具需要投入多少时间,通过这种成本收益分析,快速判断哪些工作的自动化改造是有价值的。

我的博文中提到,邮件的自动化处理效果并不好,还有一些事情也是如此,比如创建会议日历邀请,没人喜欢做这件事,但仔细想想,人们对会议的安排有很多个性化的需求,比如某天想多安排会议,某天想把会议安排在午饭前,这些需求 Agent 无法感知。即便你向 Agent 详细说明这些需求,它生成的日历邀请也未必能符合预期,最终的效率提升其实非常有限。

通过这种精细化的分析,能让我们避开这些无意义的尝试,找到真正能通过自动化提升效率的工作。

主持人:丹,从你的角度来看,在 Agent 的应用中,哪些方法是有效的,哪些目前还不成熟但未来有望实现,又该如何管理 Agent?

丹・傅:我发现 Agent 的有效应用,主要有两个核心要点。

第一,让 Agent 发挥效用的方式,和管理团队中的初级员工、公司里的实习生非常相似。 比如,你不会对一个刚来的实习生说 “去把公司的营收提升一倍”,或许你会尝试一次,但显然不可能得到想要的结果。相反,你会给实习生安排一些简单的入门任务,让他们熟悉复杂的代码库,并告诉他们可能会遇到的问题 —— 因为你自己有过相关的经历。当你给 Agent 提供这样的背景信息,让它能接触到相关的资料,它通常就能顺利完成任务。

另外,对待新员工,你不会直接把生产环境的所有权限、数据库信息都交给他们,而是会给他们足够的工具,让他们能开展工作。对待 Agent 也是如此,有些人会担心 Agent 误删生产环境的所有数据,于是对其处处限制,每一步都进行监控,但如果用这种方式对待人类员工,他们根本不可能高效工作。这是一个很重要的点,当下的 Agent,至少可以把它当作实习生或初级员工来对待。

第二,我发现一个非常有趣的现象,尤其是从教授的教育视角,思考如何培养学生适应这个 Agent 成为工作核心的未来,那就是:一个人的专业知识越扎实,比如蒂姆在流程自动化领域的专业积累,或是我在 GPU 内核编程领域的深耕,Agent 能为其带来的能力提升就越大。

因为专业知识扎实的人,能在更高的抽象层面开展工作,知道工作的核心要点、方向,了解常见的问题和陷阱,知道哪些事情容易实现、哪些事情有难度,知道如何将复杂任务拆解为多个步骤。

之前有一段时间,大家一直在讨论 Agent 是否会取代所有软件工程师,或者取代所有初级员工,而从当下的发展来看,显然不会出现这种情况。 如果一个工具能让我的团队工作效率提升 10 倍,我不会解雇 90% 的员工,而是会让他们去完成更有价值的工作,实现 100 倍的效率提升。这是一方面。

另一方面,成为某个领域专家的路径,其实和以往并没有太大区别:你需要深入学习、深入理解相关知识,需要亲手实践、真正解决问题。在当下这个时代,聊天生成预训练转换器能教你很多东西,我自己就尝试过让它教我汽车的各类工作原理,虽然目前效果还一般,但不可否认,现在学习知识的难度比以往低了很多,哪怕是两三年前,都没有这么便捷的学习方式。

所以总结来说,对待 Agent,要像扮演管理者的角色,帮助它解决遇到的问题,不能只是把问题丢给它就撒手不管;同时,你需要不断提升自己,成为更优秀的 “管理者”,积累更多的领域知识,更深入地理解工作内容。

主持人:也就是说,成为专家、持续学习的需求并没有改变,这一点很有意思,也很有道理。但有一个问题,如果一名年轻的内核工程师第一天入职,以往的培养方式是先安排简单的任务,第二年再安排更复杂的工作,那在 Agent 时代,这种实操性的职场培训该如何开展?

丹・傅:我们在合聚人工智能也一直在思考这个问题,即便在模型和 Agent 如此强大的当下,我们仍在积极招聘人才。

我们的做法是:首先,我以教授的身份,录制了一系列关于 GPU 工作原理的课程,要求所有新员工都必须学习;然后,我会给他们布置一个从零开始的任务,比如修改快速注意力机制的内核,实现某个新功能,具体的功能可以由他们自己选择。Agent 的优势在于,能让新员工更快地参与到高价值的工作中。

对于一名初级工程师来说,第一次尝试管理他人是非常有意义的经历,因为这会让他们开始用更精准的语言思考问题。比如,软件工程师常会遇到这种情况:产品经理给出一个需求,写了长长的需求文档,但当你让别人去实现这个需求时,才会发现描述一个功能需要多么精准的表达。

而 Agent 的出现,让这一过程得以简化,初级工程师不需要真正成为管理者,依然可以作为工程师开展工作,但能以管理者的思维方式,甚至产品经理的视角来思考问题。因为和 Agent 沟通时,你必须精准地描述自己的需求。我发现,团队中那些刚从大学或硕士毕业的年轻员工,只要积极学习和使用人工智能 Agent,他们的沟通能力会比以往的工程师强很多,对知识的理解和掌握速度也会大幅提升,并且能以以往 5 到 10 年都难以想象的速度搭建工具、完成工作。

蒂姆・德特默斯:我从教育的角度补充一点,这一点其实和丹的观点形成了一定的对比,也很有意思。我一直强调 “要么善用 Agent,要么被时代淘汰”,这一点对学生也同样适用,但正如丹所说,使用 Agent 的前提是具备一定的领域知识。

我们发现,如果允许学生使用 Agent,他们的学习效率会非常高,但有时他们借助 Agent 完成的解决方案,表面上看起来没问题,实际上却漏洞百出,而学生自己却意识不到。

当下我们正面临一个困境:很难同时培养学生的领域知识和 Agent 使用能力,这两者的平衡很难把握。 我们既不想培养出对知识一知半解的学生,也希望学生能掌握 Agent 的使用方法,否则他们进入职场后将无法胜任工作。

丹提到,具备扎实知识基础的人,借助 Agent 能实现能力的飞跃,但对于刚开始学习计算机科学的学生来说,该让他们学习多少专业知识,又该让他们在多大程度上借助 Agent 完成工作,这是一个非常棘手的问题,目前还没有完美的解决方案。

如果让学生过度依赖 Agent,他们的基础知识点掌握会非常薄弱;如果让学生完全靠自己完成所有学习任务,不使用 Agent,他们又无法掌握这项核心技能,进入职场后缺乏竞争力。

或许一个解决方案是:先让学生扎实掌握基础知识,再学习使用 Agent。但学生并不会这样做,他们能轻易接触到这些人工智能工具,并且会因为其便捷性而频繁使用。

所以或许真正的解决之道,是培养学生一种全新的信息处理和知识学习的思维方式,这种能力甚至超越了批判性思维 —— 学生需要学会识别自己不知道的未知事物,也就是那些自己没有考虑到、不理解,甚至从未想过的问题。 只有具备这种能力,才能跟上 Agent 的发展步伐。因为在未来,我们很可能会面对自己无法理解的问题,而 Agent 却能理解,我们需要找到一种方式,跟上 Agent 的节奏,这无疑是一大挑战。

小模型是未来趋势

主持人:二位对 2026 年人工智能的发展有哪些具体的期待?认为哪些趋势会成为现实,哪些则不会?

蒂姆・德特默斯:我觉得自己的看法比较矛盾,一方面,我认为很多领域的发展会趋于平淡,不会有太多创新;另一方面,又会有一些意想不到的突破出现。而在前沿模型领域,我认为不会有太多惊喜。

当下一个公开的事实是,预训练数据已经耗尽,正如丹所说,我们可以通过合成数据来弥补这一缺口,代码 Agent 的训练,就是在各类环境中生成大量合成数据,并进行数据融合,我们在这方面会取得一些进展,但整体来看,机器学习领域的发展已经显现出疲态。

我认为代码 Agent 的性能不会有太大提升,主要的进步会体现在用户体验的优化上。 当下各款模型的性能已经趋于同质化,比如我使用 GLM-4.7 的配置时,一度以为自己用的是 Opus 4.5,后来才发现是不同的模型,因为它们的表现实在太相似了。

所以 前沿模型的性能发展会陷入停滞,而小模型领域则会迎来快速发展。 如果针对特定的专业数据训练小模型,其性能会非常出色,而且小模型的部署难度低,能力却不容小觑。

比如 1000 亿参数的模型,能轻松实现部署,即便是 RTX 6000 这类售价 6000 美元的入门级数据中心 GPU,也能胜任。我认为对于很多企业来说,这会是一个极具吸引力的选择,它们不再需要依赖前沿的大模型,定制化的小模型甚至能表现出更优的性能,因为其针对特定领域做了优化。

当下存在一个很大的问题,正如 Anthropic 首席执行官所指出的,市面上有很多性能强大的开源模型,但实际使用的人却很少,原因就在于 部署难度极高。一旦模型的部署需要超过 8 块 GPU,不仅需要用户进行大量的效率优化,还涉及复杂的系统工程问题,而目前还没有能实现这一功能的开源系统,需要实现推理任务的解耦、跨序列长度的拆分等技术。或许我们能为异构 GPU 设备、小模型打造这样的部署系统,届时 1000 亿参数模型的运行效率,将能媲美当下的前沿大模型。

小模型兼具效率和灵活性的优势,再加上能通过大模型的知识蒸馏实现性能提升,这些因素结合起来,将彻底改变人工智能的发展格局。

丹・傅:我也对小模型的发展充满期待,认为它们会释放出更多的能力。

我会密切关注开源模型的发展,GLM-4.7 的出现,已经让开源模型的性能开始媲美当下最优秀的前沿模型,我认为 2026 年开源模型的能力会实现又一次大的飞跃。

我也非常期待新硬件的推出,目前已经有一些关于英伟达下一代 NVIDIA Rubin GPU、AMD 400 系列显卡的消息,即便我们还未充分挖掘当下硬件的潜力,我也很想看看下一代硬件能带来怎样的性能突破。

此外,我还期待多模态领域的发展,去年视频生成模型迎来了发展的小高峰,比如 Sora 2、Gemini、Veo 等模型都表现出色,我很想看看它们后续的发展。

最后,我也期待能看到,在笔记本电脑、手机这类终端设备上,人工智能的智能水平能达到怎样的高度, 能被推进到什么程度。我想说,当下投身人工智能领域,恰逢最激动人心的时刻。

主持人:二位早些时候提到了状态空间架构(SSM),你们认为这会是人工智能的近期发展方向吗?也就是说,我们会逐渐走出 Transformer 架构的时代,向状态空间模型、世界模型等新架构发展吗?这是否是你认为值得期待且势在必行的发展趋势?

丹・傅:我认为在很多领域,新架构已经落地应用了。比如当下全球最优秀的一些音频模型,就部分基于状态空间模型打造。英伟达最近也发布了多款优秀的混合架构模型,比如神经变形金刚,就是其中的代表。

所以相关的研究已经取得了很多不错的成果,架构的进化还会继续。比如 DeepSeek 的模型压缩技术,就借鉴了状态空间模型的一些理念;MiniMax 的一款模型,则采用了线性注意力的思路。

所以未来人工智能的架构会变得更加多元,这一趋势已经显现。

而中国的实验室在这方面会有更多的探索和突破,因为中国并没有像开放人工智能那样,集产品、模型、营收于一体的巨头企业,也就没有统一的技术发展范式。所以中国的实验室会更敢于尝试,想要让自己的开源模型脱颖而出,架构创新就是一个重要的方向,当然,纯性能的提升也是一个途径。因此,未来人工智能的架构会迎来爆发式的创新。

参考链接:

https://www.youtube.com/watch?v=XCCkgRzth6Q

“如果一个 AI 能解 IMO,但解决不了任何现实问题,那它不是通用人工智能。”

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家,蒂姆·德特默斯对 AGI 给出的判断,他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI 从神坛上拽了下来。

image

有意思的是,几天后,加州大学圣地亚哥分校助理教授、Together AI 内核副总裁丹·傅,给出了完全相反的判断。他写了一篇 《通用人工智能终将成为现实》,说 我们也许早就已经实现了 AGI。

image

于是,两篇文章,一场关于 “AGI ” 的争论,被带进了播客现场。

这场讨论并非空谈,两位嘉宾都是同时深耕学术界与产业界的一线研究者

蒂姆·德特默斯长期深耕深度学习量化领域,即模型压缩,如何在更低精度、更少算力下,让模型保持可用性能。

image

在蒂姆·德特默斯看来,判断 AGI 是否成立,首先要回到一个常被忽略的前提:计算是物理的。

在他看来,内存迁移、带宽、延迟,以及冯·诺依曼瓶颈,决定了算力不可能无限扩张。他说 “几乎所有指数增长,最终都会撞上资源和物理极限”。 所以,指数增长终将放缓,Scaling Law 也不例外。

但丹·傅显然不这么看。在他看来,现在谈“算力见顶”,还太早了。丹·傅每天都在和 GPU 内核、算力利用率打交道,在他看来,“我们甚至还没真正用好上一代硬件。”

image

在现实系统中,算力其实被严重低估和浪费了, 大量性能消耗在内核调度、系统开销和工程细节上。更关键的是,人们今天评测和使用的“最强模型”,往往是基于一到两年前的算力集群训练出来的,它们并不能代表当下硬件和大规模集群所能达到的真实上限。

他因此提出了一个直观的估算思路,用来说明算力增长的潜力来自多个维度的叠加:

  • 新一代硬件 带来约 2–3 倍 的性能提升;

  • 系统与工程优化 将算力利用率提升 约 3 倍;

  • 更大规模的集群 再带来 约 10 倍 的规模效应。

这三者相乘,意味着可用算力在理论上可以提升接近 90 倍。这并不是纸面上的推算,而是正在产业中逐步发生、逐步兑现的现实潜力。

有意思的是,当争论继续推进,两人反而在一个问题上开始靠拢:AGI 到底是什么?

关于 AGI 的定义,大致有两种主流视角:

一种从认知能力出发,看模型能否覆盖足够多的认知任务;

另一种则从经济角度出发,看它是否真的改变了生产方式。

这一点上,双方达成一个共识:AGI 是什么并不重要,重要的是,它有没有改变我们工作的方式。

在访谈后后半部分,大家从未来拉回到了现实,Agent 成为了关键话题。

丹·傅在节目中提到一个有趣的时间点:2025 年 6 月, 那是他第一次意识到,Agent 可能真的越过了拐点。

image

他当时发现机器学习工程中最难的技能之一、编程领域的终极难题——“GPU 内核编程” 被代码智能体啃下来了。他自己亲测:原本一个 GPU 内核功能开发得磨一周,那天靠着代码智能体,一天就搞定了三四个,工作效率直接提升了 5 倍。而他的团队用上后,那些原本需要整支团队耗数月的复杂系统开发,也变得轻装上阵。

这让丹·傅想起了自己对自动驾驶的态度变化,从长期怀疑到真正坐上 Waymo,他意识到技术的突破可能藏在某个猝不及防的瞬间。

针对 Agent 的爆发式潜力,蒂姆·德特默斯曾发布了一篇掷地有声的文章 《要么善用 Agent,要么被时代淘汰》。在他看来,代码 Agent 本身就是高度通用的 Agent,因为代码几乎可以描述和解决所有数字化问题。他甚至直言,“超过 90% 的代码和文本,本就应该由 Agent 来生成。但同时他也强调,“人类必须对最终结果承担责任,而非盲目依赖 AI 的输出。”

image

两人将 Agent 形象地比作“需要精细化管理的实习生”,只要给它明确背景信息、拆解任务边界、设定执行约束,人类无需过度干预其执行过程,而是把注意力聚焦在把控方向上,用专业判断力校验结果。而在 Agent 时代,真正吃到红利的将是有深厚积累的专家,其专业基础越深厚,Agent 能为其创造的效率增量就越显著。

在节目的最后,关乎对 AI 行业未来的预判,双方抛出了一系列深刻洞见。

在他们看来,小模型会成为行业新热点、开源模型会进一步飞跃;新硬件、多模态、端侧 AI 都会有进一步发展。

其中,硬件赛道将走向多元化发展,模型训练与推理环节的专业化分化会进一步加剧。

更值得关注的是,Transformer 架构独霸天下的时代会落幕,各类新架构会登上时代舞台。

他们还特别提到了中国的 GLM-4.7、MiniMax、DeepSeek 等优秀模型,对中国大模型的快速进步表达了高度认可。

在他们看来,相比技术路线相对集中的美国,中国团队反而更敢于探索多种可能性,比如状态空间模型、线性注意力以及混合架构等,通过架构创新或极致性能,让开源模型脱颖而出。

同时,他们也指出,中国的模型团队在技术路线上更 务实。与“先做出最强模型,再等待应用出现”的硅谷思路不同,中国团队更关注模型是否真正能落地、是否能在现实场景中产生价值。正是这种务实的发展思维,可能会在未来深刻影响人工智能的技术形态以及它所能创造的社会价值。

以下是播客全文,更多精彩细节,欢迎来看:

“AGI 能否成为现实”之争

主持人:蒂姆,几周前你发表了一篇极具争议性的精彩博文,标题是 《通用人工智能为何不会成为现实》。而丹,你在几天后也发布了一篇同样引人入胜的回应博文,标题为 《通用人工智能终将成为现实》。我想先了解一下二位的背景,你们都有着一个有趣的特点,就是兼具产业界和学术界的从业经历。蒂姆,不如你先讲讲吧。

蒂姆・德特默斯:我是卡内基梅隆大学机器学习与计算机科学系的助理教授,同时也是艾伦人工智能研究所的研究科学家。

我过往的研究主要聚焦于高效深度学习量化技术,简单来说就是模型压缩, 把大模型从 16 位精度压缩到 4 位精度左右,这方面我做了不少核心研究。比如一种高效的微调方法,我们将模型压缩至 4 位精度,在模型上使用适配器,这样所需的内存相比全精度模型能减少多达 16 倍。

目前我正致力于代码 Agent 的研究, 我们将在约两周后发布一项非常令人振奋的成果,打造出了目前最先进的 Agent,它能快速适配私有数据,在任意代码库上都能实现出色的性能表现,这一成果真的让人充满期待。

主持人:丹,该你了。

丹・傅:我是加州大学圣地亚哥分校的助理教授,同时担任合聚人工智能公司的内核副总裁。

在产业界,我的工作主要集中在提升模型的运行速度,GPU 内核正是将模型转化为实际在 GPU 上运行程序的关键,你可以把它理解为专门的 GPU 程序。

我的博士阶段以及实验室的大量研究都围绕这一方向展开,比如我研发了快速注意力机制,这是一款针对当下多数语言模型核心运算的高效内核。我还研究了 Transformer 架构之外的替代架构, 比如状态空间模型等。

在合聚人工智能,我主要关注如何打造当下最优的语言模型,以及如何进一步提升它们的运行速度。

就在本期节目录制的今早,我们还和库尔索公司联合发布了一篇博文,介绍了我们如何为其多款模型实现加速,并助力他们在英伟达的布莱克韦尔(Blackwell) GPU 上推出了作曲者 2.0 模型,这大概就是我的工作内容。

从 AGI 的定义,聊到对 AGI 的现实判断

主持人:接下来我们聊聊通用人工智能的话题,节目后半段再探讨 Agent 和代码 Agent,以及二位的相关见解。通用人工智能这个术语被大家广泛使用,但我想大家都认同,目前还没有人能准确定义它。为了本次探讨,二位认为什么样的通用人工智能定义是实用的?

丹・傅:当然。我和蒂姆在这一系列博文中 反复探讨的一个问题,就是通用人工智能的定义。

就我而言,我最近一直在思考,以当下的模型发展水平,尤其是语言模型,再结合后续会谈到的 Agent 来看,以 5 年前、10 年前,甚至我和蒂姆刚开始读博时任何人给出的通用人工智能定义,我们其实已经实现了当时的设想。如今的模型能写代码、能生成人类语言,即便有时用词上会有些小瑕疵,但确实能完成这些令人惊叹的任务。我还会思考,这种技术发展到何种程度,会引发一场新的工业革命,真正改变我们当下的工作方式,并产生巨大的经济影响。

在软件工程领域,我觉得我们已经身处这样的变革中,或者说即将迎来全面变革。虽然在一些高度专业化的领域,比如模型未必能写出世界上最优质的福兰语和钴语言代码,但在网页开发,甚至很多底层系统工程方面,它们的表现已经非常出色。

我写那篇博文的一个原因就是,审视当下的发展,我们或许已经实现了通用人工智能,或者说某种形式的通用人工智能。即便尚未完全实现,下一代正在训练的模型,只要比当下的模型表现更好,我们就已经取得了令人惊叹的突破。

蒂姆・德特默斯:我写那篇博文时发现,自己竟然忘了在文中给出通用人工智能的定义,尽管整篇文章都围绕这个主题展开。我想这在某种程度上也反映了我们对通用人工智能的思考现状 —— 我们并未认真去界定它。当然,目前存在多种定义,各有优劣,正如你所说,没有一个定义能获得所有人的认同。

我简单提几种比较主流的,一种是将通用人工智能视为认知能力、认知任务的集合,关注模型能完成哪些认知层面的工作。 软件工程、文本创作都是高度依赖认知的任务,而让机器人在空间中移动则更偏向操作层面,当然也有人认为肢体移动的规划也属于认知范畴,但多数人会将其区分开来,认为所有数字化的任务都属于认知领域,物理层面的操作则超出了这一范畴。

另一种我认为很有意义的定义视角是经济层面,看人工智能是否能引发一场新的工业革命,是否具备广泛的实用性,能应用到各个领域,推动各类工作的效率提升,就像计算机的出现那样。 当然,计算机刚出现时,生产率其实出现了下降,直到其在经济中广泛普及,生产率才重新回升。通用人工智能的发展或许也会经历类似过程,在软件工程等领域,其带来的效率提升已经十分显著。

主持人:我们直接切入核心争论吧。蒂姆,你曾提到 AGI 的相关构想的起源,这一点让我觉得很有意思,你能展开讲讲吗?

蒂姆・德特默斯:好的。先梳理一下整体的背景,当下关于 AGI 的一些观点,根植于特定的思维模式,主要来源于有效利他主义社群和理性主义社群。

我 15 年前也曾是这些社群的一员。在推特上,总能看到有人说 “两年内就能实现通用人工智能”,一年后又有人说 “两年内就能实现通用人工智能”,年年如此。我觉得这种想法有些草率,也体现出一种信息茧房的状态,持这种观点的人很少接触不同的想法。这也是我写那篇博文的主要动机,我希望提出一些不同的观点,为当下主流的思考提供一种反视角。

算力是否见顶

主持人:你核心的观点是,这些构想与实际的计算现实之间存在矛盾,这样概括准确吗?

蒂姆・德特默斯:没错。这其中既涉及物理层面的限制,也有理论层面的问题,而这两方面都存在 一个共同的规律 —— 收益递减。所有指数级增长的事物最终都会放缓,因为发展需要资源,而资源总会耗尽,这里的资源可以有多种解读。

从物理层面来看,技术的进一步发展会变得越来越困难,几乎所有研究和开发领域都是如此。前期的进展往往容易实现,而后续要取得突破,需要投入更多资源,发展速度也会越来越慢。

再看计算设备的物理现实以及计算本身的结构, 其实有用的计算主要包含两个环节:

首先是将数据从不同位置收集起来,汇聚到指定位置,然后对这些信息进行整合,完成信息的转化处理。简单来说,就是结合已知信息,计算出未知的新信息。有用的信息,必然是从已有的信息中转化而来的。如果只是大量转移信息,却不进行处理,就无法产生新信息;如果只是对现有信息进行大量计算,又会错失跨领域的洞察和间接的启发。我认为这一点与我们当下的神经网络架构高度契合。

早期的卷积神经网络表现出色,原因就在于它们几乎不怎么移动内存,而是专注于大量计算,这意味着这类设备需要强大的浮点运算能力,而内存带宽则没那么重要。当发展到大规模密集计算、大矩阵运算阶段,就到了当下神经网络的发展方向,但此时仍保留着循环机制的特点,需要关注之前的状态。不过由于循环的特性,计算的内存复用率极低。

而 Transformer 架构,先是通过大矩阵将前一层的输入信息进行转化,再通过注意力机制实现跨时间或空间的信息关联。我认为这是处理信息最根本的两种方式:一是让信息之间建立关联,或对信息进行转化;

二是让信息与关联较远的其他信息建立联系,也就是挖掘长期关联,并基于已有信息进行转化。

主持人:你认为这一发展进程正在放缓,对吧?你的博文中有一句非常引人注目的话,称 “图形处理器的发展将不再有实质性突破”,这是核心观点,能说说原因吗?

蒂姆・德特默斯:这个观点包含两层含义,首先是一个非常根本的物理问题,也就是我刚才提到的内存转移和计算的关系。

计算要产生价值,就必须将内存数据转移到进行计算的本地区域,这其实是一个几何问题。你需要一个大容量的信息存储区,然后将其中的信息转移到计算区域。而我们已经找到了实现这一过程的最优物理方式:配备大容量但速度较慢的动态随机存取存储器,再将数据转移到高速缓存中。

从几何结构来看,这是实现高速运算的最优解,针对特定规模的计算任务,这种架构的效率是最高的。如果是矩阵乘法这类不同规模的计算任务,就需要使用图形处理器而非中央处理器,因为图形处理器虽然延迟更高,但吞吐量更大,能传输更多数据,只是速度稍慢。我们可以对缓存的结构、大小,以及核心的共享方式做一些微调,但归根结底,核心的问题始终存在 —— 这是一个几何难题,空间的利用方式是有限的,这就决定了数据的访问模式和延迟始终存在固定的限制,其中最大的延迟来自大容量的动态随机存取存储器,这也是主要的性能瓶颈。这一瓶颈也被称为 冯・诺依曼瓶颈,几乎所有计算机都受此限制,具体来说,就是需要将程序传输到执行区域才能运行。对于神经网络而言,就是要将权重和输入数据传输到张量核心这一执行单元。

想要绕开这一瓶颈的方法寥寥无几,唯一的途径是进行本地内存存储和本地计算,市面上也有一些处理器尝试实现这一点,比如存算一体处理器,能在很大程度上在芯片内部解决冯・诺依曼瓶颈问题,但这类处理器仍需要从外部向芯片内传输数据,这就使得冯・诺依曼瓶颈从芯片内部转移到了存储设备或网络层面,问题只是发生了转移,本质并未改变。你仍需要通过网络将存储在磁盘或内存中的程序加载到芯片中,这还是同一个物理问题,只是调整了几个变量而已。这是问题的第一个层面,目前还没有能解决这一问题的架构。

第二个层面,也是我的核心观点所在:想要突破瓶颈,需要依靠新技术,但当新技术的潜力被充分挖掘后,又需要新的技术实现进一步突破。

比如,我们从动态随机存取存储器发展到了高带宽存储器,也就是堆叠式的动态随机存取存储器,速度大幅提升,但这种存储器的堆叠层数有限,因为其制造和测试的难度极高,良品率很低。到 2026 年,高带宽存储器的产能将会不足,无法实现规模化生产,因为制造难度实在太大。我们已经见证了诸多技术创新,张量核心的出现是一大突破,8 位精度、4 位精度的量化技术也相继落地,我和其他研究者的研究都表明,这些技术在信息论层面和实际应用中都是接近最优的。

如果基于足够多的数据进行训练,4 位精度是不够的,实际需要 8 位精度,这意味着量化技术已经发展到了极限。硬件的潜力也被挖掘殆尽,目前没有新的技术可以突破,我们能做的只是优化制造工艺,降低成本,却无法提升速度。各项功能的开发也已到极致,稀疏化技术是很多人尝试的方向,这一研究已经持续了 50 年,我自己也做过相关尝试,这或许是最后一个可探索的方向,但 4 位精度的量化技术已经意味着量化领域的发展走到了尽头。

简单来说 ,功能和硬件都已被开发到极限,这就是我们当下的处境

主持人:太有意思了。丹,你对这些观点有什么看法?

丹・傅:我非常认可蒂姆的这篇博文,因为当下有不少关于通用人工智能的讨论,只是简单地按照指数增长的趋势去推演,认为到某个时间点,人工智能会发展到掌控整个宇宙的程度,我一直觉得这种思考方式有些片面。我认同蒂姆从实际物理限制角度出发的分析,正如他所说,这些都是依赖物理输入、进行实际物理计算的系统。

我的观点是,看看当下的系统和我们训练的模型,我们甚至连上一代硬件的潜力都远未充分挖掘,更不用说新推出的硬件了。

从技术层面,我在博文中主要提出了两个核心观点:

第一,看看当下那些表现出色的模型,我在博文中主要以开源模型为例,因为开源领域会更多地披露模型的训练过程和所耗资源,而开放人工智能和思存人工智能等公司并未公开相关数据。

以 DeepSeek 模型为例,这是目前最优秀的开源模型之一,它在 2024 年底完成训练,使用的是上一代的英伟达 H800 GPU,这款显卡因出口限制做了性能阉割,并非原版 H100。根据公开报告,该模型的训练使用了约 2000 块 H800 显卡,耗时约一个月。计算一下实际的算力利用情况会发现,芯片的有效利用率仅约 20%,行业内将这一指标称为模型浮点运算利用率。而在 21 世纪 20 年代初,我们在旧硬件上训练不同架构的模型时,轻松就能实现 50% 甚至 60% 的模型浮点运算利用率。如果能将这一指标提升,再加上我的好友崔最近发布了一系列能优化模型训练的新内核,单是这一项优化,就能让算力利用率提升 3 倍。

第二,需要意识到的是,这款 2024 年年中开始训练的 DeepSeek 模型,在 2026 年初仍是众多优秀开源或类开源模型的基础。而从那之后,我们已经搭建了全新的算力集群,搭载了当下最新的硬件,比如英伟达的布莱克韦尔系列显卡。普尔赛德、瑞弗莱克申等公司都在搭建包含数万个 B200、GB200 芯片的算力集群。

对比来看,新一代硬件即便保持和之前相同的精度、相同的配置,运算速度也能提升 2 至 3 倍,算力集群的规模更是扩大了 10 倍,再加上 3 倍的纯技术优化空间,整体的可用算力能提升 3×3×10,也就是 90 倍。这还没有考虑未来的算力集群建设,只是当下已经落地、有人正在用于模型训练的集群。

我的核心观点是,单从这些基础的硬件条件来看,就能发现可用算力相比我们当下所依赖的模型,还有多达两个数量级的提升空间,也就是 100 倍。 当然,我们可以争论算力规模扩大是否会带来收益递减,缩放曲线是否依然有效,但现实的算力潜力就摆在眼前。

这还没考虑蒂姆提到的那些点,比如目前的训练大多采用 8 位精度,而 4 位精度的训练方法才刚刚开始形成相关研究成果;GB200 芯片有 72 个连接速度极快的核心,而我们甚至还没看到基于这款芯片训练的首个预训练模型。开放人工智能的报告中提到,GPT-5.2 是首个基于 H100、H200 和 GP200 芯片训练的模型,这在我看来,意味着它的预训练其实是在老旧的算力集群上完成的,只是在新的 GP200 芯片上进行了一些微调。

主持人:你提到,不仅硬件的利用率不足,模型本身也是硬件发展的滞后指标,对吧?

丹・傅:没错。我们当下能使用、能体验到的模型,都是在一两年前搭建的算力集群上完成预训练的。

因为搭建一个算力集群需要时间,完成大规模的预训练需要时间,后续的微调、人类反馈强化学习等后训练环节也需要时间。所以我们当下所看到的、用来衡量模型质量的这些模型,其实都是在一年半前的硬件上训练的。而在这之后,我们已经搭建了规模大得多的算力集群,不难想象,这些集群会被用于训练新一代模型。

也就是说,我们当下所依赖的优质模型,训练所使用的硬件其实已经相当老旧,而我们拥有了新一代的硬件、更多的软件优化方案,更不用说架构层面的创新了。

蒂姆刚才提到,处理数据的核心是先转移、再计算,而变形金刚架构其实一直在发展,只是在研究者看来,发展速度稍慢。但我们能看到,计算的核心方式已经在发生变化,哪怕再找到 1.5 倍或 2 倍的优化空间,整体的可用算力就能达到 100 甚至 150 倍。所以当下还有大量的算力潜力可以挖掘,用来训练更优质的模型。

  预训练是综合训练,后训练是专项训练

主持人:我理解这场讨论的核心是预训练,也就是我们能否用更多的数据和算力训练出更大的模型。但在本播客之前的对话中,很多人都强调后训练的重要性,以及构建结合预训练和强化学习的人工智能系统的意义。这一点在当下的讨论中该如何定位?

丹・傅:这是个非常好的问题,我和蒂姆的博文其实都没有重点探讨这一点。我喜欢这样比喻,预训练就像是在健身房进行的综合力量训练,通过大重量训练提升整体的力量和能力;而后训练就像是针对特定项目的专项训练,让你在具体任务上表现更出色。

从算力消耗来看,历史上预训练消耗的算力占绝对主导,其目的是打造具备通用能力的模型,让模型掌握大量知识,能完成多种任务,甚至拥有比普通人更多的知识储备,比如我自己的知识量肯定比不上聊天生成预训练转换器。

而后训练的作用,一方面是让模型变得更实用,比如聊天生成预训练转换器,能理解用户的需求,并尽力完成任务;另一方面,我们也发现,后训练正越来越多地被用于培养模型的特定技能。比如擅长辅助编程的模型,虽然依托于预训练积累的大量知识,但正是通过后训练,才让它在编程领域具备了出色的能力;同理,擅长法律工作的模型,也是在预训练的基础上,通过后训练实现了专业领域的优化。

从纯计算的角度来看,预训练的算力消耗通常远大于后训练。 后训练的工作,我虽然不是这方面的专家,但感觉更多地像是如何打造一款实用的产品,如何获取用户反馈,诸如此类。

当然,也有一种可能是,下一代预训练模型的基础能力已经足够强大,只要针对经济领域的各个垂直赛道进行后训练,就能打造出极具实用性的模型。所以这也是计算领域的另一个重要维度,或许我们根本不需要那 100 倍的额外算力,更多的是需要像培养人类一样,深入理解问题,找到合适的训练方法 —— 就像你如何培养一名实习生完成特定任务,如何让一个能力强大的预训练模型发挥出实际价值,这正是后训练要解决的问题。

主持人:二位都提到了 “实用性” 这个概念,这或许是你们观点的交汇点。通用人工智能的定义众说纷纭,但最终的关键还是看它在产业中的实际实用性。所以即便由于收益递减,我们无法实现那个大家都无法准确定义的、理想化的通用人工智能,也无关紧要,因为我们还有巨大的潜力可以挖掘,足以让人工智能在整个经济领域发挥真正的价值,而不仅限于编程领域。

蒂姆・德特默斯:没错。我那篇博文的核心结论正是如此,我们不必过分纠结于通用人工智能的定义,更应该思考如何让人工智能发挥最大的实用价值,而这不仅关乎模型本身,丹刚才提到后训练是产品化的过程,这一点很重要。计算机的发展历程告诉我们,技术在经济中的普及需要一种截然不同的思维模式。

美国的思维模式往往是 “打造出最优的模型,自然会有人使用”,而中国的思维模式则更注重务实,思考如何让技术惠及更多人。我认为这种务实的思维模式至关重要。谈及实用性,一方面是模型的能力,另一方面就是这种发展思维。

我相信我和丹,以及大多数人都会认同一个观点:如果一个人工智能能完成数学奥林匹克竞赛这类高难度任务,却无法解决任何实际问题,那它算不上通用人工智能。而当下的模型已经具备了实用性,所以不会出现那种 “有能力却无用处” 的情况。

我们真正追求的,是实用性极强的模型,而这样的模型我们已经拥有,并且还能不断优化。我认为按照某些定义,我们或许无法实现通用人工智能,但人工智能必将产生巨大的社会影响。

丹・傅:我想补充一点,蒂姆你提到了经济领域的物理性工作和知识性工作的划分,美中两国在这方面的差异非常有意思。

最近有一本丹・王写的书很火,探讨了制造型经济、工程型经济与偏法务型经济的区别。美国有大量优秀的知识性工作有待人工智能去赋能,而从经济的实际产业结构来看,医疗、教育占了很大比重,科技领域虽然也是重要组成部分,引领着股市的走向,但还有更多领域等待挖掘。

现在有很多优秀的研究者正在尝试用新一代模型研发新药、推动医疗领域的实际变革;如果机器人技术能实现突破,助力完成一些体力劳动 —— 未必是建造房屋这类重活,而是日常的家务劳动,那将挖掘出经济领域的巨大潜力。这些方向的发展已经能看到初步的成果,自动驾驶的发展历程对我很有启发。

在我读博初期,大概 2018、2019 年,我对自动驾驶持非常怀疑的态度,当时大家总说自动驾驶 “再有一两年就能实现”,专家则说 “五年内有望落地”。但去年我乘坐了威莫的自动驾驶车辆,如今在加州湾区,我甚至能使用威莫的高速自动驾驶服务。理论上,我现在甚至可以卖掉自己的车 —— 当然我不会这么做,因为我个人喜欢开车。

但技术的进步就是这样,在这之前一直毫无起色,突然有一天就实现了突破,你会发现它不仅表现出色,甚至比优步、出租车这类人工服务还要好。如果人工智能在家庭清洁、洗碗这类家务劳动上也实现这样的突破,那将是非常令人振奋的,也会彻底改变人们的看法。我自己并非机器人领域的研究者,但一直密切关注着这个领域的发展。

多硬件、多芯片的未来方向

主持人:丹,借着这个话题,我想问问,从你的观察来看,人工智能领域是否会朝着多硬件、多芯片的方向发展?显然英伟达的发展势头迅猛,还有赛博拉斯等公司,以及众多从底层技术切入的专用集成电路企业。从你深耕底层技术的视角,你怎么看这一趋势?

丹・傅:这是个很棒的问题,我在实验室的工作中会花大量时间思考这个问题,产业界的工作中也会密切关注。当下正处于一个非常令人振奋的阶段:英伟达的芯片性能强劲、稳定性高,围绕其构建的软件生态也非常完善;而 AMD 的芯片也开始展现出同样的潜力,相关的研究也在推进。

比如在实验室,我的好友西姆龙・奥罗拉主导开发了一个名为希普基滕斯的库,核心就是探索如何设计合适的软件抽象层,实现 AMD GPU 的编程。研究发现,AMD GPU 和英伟达 GPU 的软件抽象层存在明显差异,即便这两款 GPU 的参数规格相对接近 —— 更不用说和格罗克、赛博拉斯、萨博诺瓦等公司的芯片相比了,它们的编程方式也截然不同。

现在越来越多的人开始关注这一领域,投入时间和精力进行研究。英伟达收购了格罗克,当下张量处理单元也备受关注,赛博拉斯和开放人工智能也刚宣布达成合作。所以未来必然会涌现出更多的硬件方案,英伟达无疑会继续保持良好的发展态势,甚至在本期节目录制时,其市值已经突破 5 万亿美元,但硬件领域的多样性会大幅提升,尤其是在模型推理层面。

训练和推理是两种截然不同的计算过程,因此需要的芯片也大相径庭。在推理层面,模型可能需要在手机、笔记本电脑等本地设备上运行。 我的手机是一款几年前的苹果手机,但其运算能力已经超过了我读博初期使用的一些 GPU,硬件算力的增长速度令人惊叹。

2025 年 6 月是 Agent 的拐点

主持人:丹,你刚才提到自动驾驶实现突破的那个节点,Agent 的发展是否也已经到了这样的时刻?你还提到过 “软件奇点”,我们当下是否正处于 Agent 发展的关键突破点?

丹・傅:我认为是的。就我个人的经历而言,这个突破点出现在 2025 年 6 月左右。

给大家做个背景介绍,我在合聚人工智能的日常工作就是编写这些 GPU 内核,在机器学习领域,GPU 内核的编程被认为是最难掌握的技能之一,它需要高度的并行化设计,使用的是 C++ 这种资深工程师使用了数十年的老牌语言,而非 Python 这类易用的语言。招聘能编写 GPU 内核的工程师难度极大,这是一项极具挑战性的技能,无疑是编程能力的顶尖体现。

而 2025 年 6 月,我们有了一个非常有趣的发现:云代码、库尔索 Agent 这类代码 Agent,在编写 GPU 内核方面的表现非常出色。那一周,我完成了三四个原本各自需要一周时间才能完成的功能开发,全部工作一天就搞定了。 当时我就意识到,这个工具让我这个内核领域的专家,工作效率提升了 5 倍。

我让团队都开始使用这个工具,现在团队借助它搭建了许多复杂的系统,能快速完成原本需要整个团队耗时数月才能实现的功能开发。而 GPU 内核编程,正是编程领域最难的 “终极挑战”,所以在我们看来,代码 Agent,尤其是在高难度的 GPU 内核编程领域,已经实现了关键性的突破

几个月前,我在斯拉什大会上做了一场演讲,提出了 “软件奇点” 的概念,核心就是意识到在软件工程领域,即便是这类非常小众的高难度技能,人工智能的表现也已经超越了普通程序员,甚至能为资深程序员带来效率的大幅提升。就本期节目录制的当下而言,让 Agent 独立完成开发,可能还无法产出完美的结果,但如果资深程序员借助这些工具,工作效率能提升 10 倍,这是一个非常令人振奋的发展阶段。

要么善用 Agent,要么被时代淘汰。

主持人:聊到 Agent,蒂姆,你最近还发表了一篇精彩的博文,标题是 《要么善用 Agent,要么被时代淘汰》,其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现,到 Agent 在日常生活各领域发挥实用价值,这一发展进程当下处于什么阶段?

蒂姆・德特默斯:我写这篇博文,也是因为发现使用代码 Agent 能为各类任务带来巨大的生产效率提升。作为一名教授,我平时的编程工作并不多,但借助代码 Agent,编程变得前所未有的轻松,这在以往是难以想象的。

当然,Agent 在非编程任务上的表现也同样出色。从我自身的体验来看,生产效率的提升幅度不一,有时是两三倍,有时甚至能达到 10 倍,而且工作质量没有下降,甚至有时还能提升。Agent 的能力或许未必比我强,但它不会疲惫,不会犯低级错误,也不会在整合复杂信息时出现认知上的困难 —— 这和丹刚才提到的 GPU 内核编程的情况是一样的。

我认为马特你将其分为代码 Agent 和通用 Agent,但在我看来,代码 Agent 本身就是通用 Agent。代码 Agent 能编写程序解决各类问题,而代码的通用性极强,任何数字化的问题都能通过代码解决。代码 Agent 让解决问题的过程变得无比轻松,让我们能以以往无法想象的方式和速度解决各类问题,实现多任务并行处理。Agent 不会疲惫,可以持续工作,让工作变得轻松很多。

我的博文中有一个观点我自己很认同,开篇我先区分了炒作和现实,而后基于自己在直播中测试 Agent 的实际体验得出结论 :超过 90% 的代码和文本都应该由 Agent 来生成,不这么做,就会被时代淘汰。 我想对于很多工程师来说,这一点已经成为现实。

有些人认为,Agent 生成的代码和文本质量一定低下,但关键在于,你需要对 Agent 的输出进行检查和编辑。你所做的这 10% 的工作,能带来巨大的改变。通过这种对输出内容的检查、编辑和优化,让成果成为属于自己的作品。

人工智能生成的内容,并不比你自己写的内容缺乏个性。比如我借助 Agent 撰写科研基金申请,成品会让我觉得充满生命力,能感受到其中的吸引力,相信评审人看到后会觉得 “这是一项优秀的研究,值得资助”。现实就是如此,如果你只是让 Agent 生成内容,不做任何检查就直接使用,那肯定无法达到预期效果;但如果你能快速审核内容、调整优化,发现不妥之处并进行修改,最终就能得到优质的成果,这会成为未来的常态。

而适应这种工作方式所需的技能,大多数人还未完全掌握,我自己也在学习中,目前仍处于探索阶段。 模型在更新,框架在迭代,我们需要不断适应、持续学习,虽然要学的东西很多,但一旦掌握,带来的回报是巨大的。

曾经有人认为软件工程师会因此消失,但现在大家都不再这么想了。Agent 极大地提升了生产效率,而掌握使用 Agent 的能力,正是当下最需要学习的技能。善用 Agent,能让你完成更多工作,这是核心所在。如果不懂得如何有效使用 Agent,你就会被淘汰,这将成为一项必备的核心技能。

主持人:聊到 Agent,蒂姆,你最近还发表了一篇精彩的博文,标题是 《要么善用 Agent,要么被时代淘汰》,其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现,到 Agent 在日常生活各领域发挥实用价值,这一发展进程当下处于什么阶段?

蒂姆・德特默斯我认为最关键的是保持务实,思考需要解决的问题,并尝试用代码实现。

当然,对于非程序员来说,编程本身就有很高的门槛,会觉得 “我从没写过代码,根本做不到”。但如果和 Agent 互动,它能直接帮你搭建程序,你只需要进行少量的学习 —— Agent 还会为你讲解相关知识,很快就能上手,实现程序的运行、网站的搭建等,还能快速获得反馈,现在做这些事情已经不再困难。

当然,我之前提到过需要检查 Agent 的输出,但如果你只是为自己搭建一些简单的工具提升工作效率,其实往往不需要这么做,Agent 生成的代码质量已经足够高。如果是在公司工作,需要将代码整合到正式的代码库中,那肯定需要进行审核;但如果只是搭建个人使用的小程序,提升自己的工作效率,那非常容易。

举个随机的例子,我会录制自己和 Agent 互动的视频,视频中会有我讲解的片段,也有我查看输出、思考分析的片段。我借助 Agent 搭建了一个工具,它能识别语音,记录我说话的时间戳,然后对视频进行剪辑,只保留我讲解的部分,去掉无意义的片段。这个工具我只用了 20 分钟就搭建好了,我相信所有人都能做到,因为我甚至没有检查 Agent 生成的代码,直接使用后,剪辑出的视频效果非常好。

只要建立起 “提出需求 — Agent 生成 — 获得反馈” 的循环,你根本不需要自己编程,只需要学会检查输出内容,或者掌握 Python 程序、bash 脚本的基本运行方法,就能实现工作的自动化。

主持人:那该如何选择要自动化的工作呢?该从哪些角度思考生活中的自动化需求?

蒂姆・德特默斯:我在博文中也探讨过这个问题,其实可以分为 直觉层面和精细化分析层面

直觉层面很简单,就是思考哪些工作自动化后会带来便利,哪怕是一些复杂的需求,比如 “我想要一个能实现某某功能的安卓或苹果应用”,一开始你可能觉得这很难,但只要向 Agent 提出需求,它能立刻实现。你可以充分发挥想象力,打造任何自己想要的工具,那些以往没人开发、自己又迫切需要的产品,现在都能借助 Agent 实现。

这种思维方式能让你打造出实用的工具,提升生产效率,同时也能锻炼你使用 Agent 的能力。当然,有时尝试后可能会失败,这时你会明白 Agent 的局限性,以及自己还需要学习哪些知识才能解决问题。

这是直觉层面的方法,能让你快速入门,从最初的兴奋,到面对现实的冷静,再到继续尝试,最终会发现自己的生产效率在一天天提升。

而精细化分析层面的方法,来自我在德国自动化行业三年的工作经历,当时主要负责工厂的自动化改造,这是一种非常严谨的计算方法:先梳理自己的工作流程,为每个步骤计时,然后分析如果将某个步骤自动化,能带来多少收益、节省多少时间,再计算开发这个自动化工具需要投入多少时间,通过这种成本收益分析,快速判断哪些工作的自动化改造是有价值的。

我的博文中提到,邮件的自动化处理效果并不好,还有一些事情也是如此,比如创建会议日历邀请,没人喜欢做这件事,但仔细想想,人们对会议的安排有很多个性化的需求,比如某天想多安排会议,某天想把会议安排在午饭前,这些需求 Agent 无法感知。即便你向 Agent 详细说明这些需求,它生成的日历邀请也未必能符合预期,最终的效率提升其实非常有限。

通过这种精细化的分析,能让我们避开这些无意义的尝试,找到真正能通过自动化提升效率的工作。

主持人:丹,从你的角度来看,在 Agent 的应用中,哪些方法是有效的,哪些目前还不成熟但未来有望实现,又该如何管理 Agent?

丹・傅:我发现 Agent 的有效应用,主要有两个核心要点。

第一,让 Agent 发挥效用的方式,和管理团队中的初级员工、公司里的实习生非常相似。 比如,你不会对一个刚来的实习生说 “去把公司的营收提升一倍”,或许你会尝试一次,但显然不可能得到想要的结果。相反,你会给实习生安排一些简单的入门任务,让他们熟悉复杂的代码库,并告诉他们可能会遇到的问题 —— 因为你自己有过相关的经历。当你给 Agent 提供这样的背景信息,让它能接触到相关的资料,它通常就能顺利完成任务。

另外,对待新员工,你不会直接把生产环境的所有权限、数据库信息都交给他们,而是会给他们足够的工具,让他们能开展工作。对待 Agent 也是如此,有些人会担心 Agent 误删生产环境的所有数据,于是对其处处限制,每一步都进行监控,但如果用这种方式对待人类员工,他们根本不可能高效工作。这是一个很重要的点,当下的 Agent,至少可以把它当作实习生或初级员工来对待。

第二,我发现一个非常有趣的现象,尤其是从教授的教育视角,思考如何培养学生适应这个 Agent 成为工作核心的未来,那就是:一个人的专业知识越扎实,比如蒂姆在流程自动化领域的专业积累,或是我在 GPU 内核编程领域的深耕,Agent 能为其带来的能力提升就越大。

因为专业知识扎实的人,能在更高的抽象层面开展工作,知道工作的核心要点、方向,了解常见的问题和陷阱,知道哪些事情容易实现、哪些事情有难度,知道如何将复杂任务拆解为多个步骤。

之前有一段时间,大家一直在讨论 Agent 是否会取代所有软件工程师,或者取代所有初级员工,而从当下的发展来看,显然不会出现这种情况。 如果一个工具能让我的团队工作效率提升 10 倍,我不会解雇 90% 的员工,而是会让他们去完成更有价值的工作,实现 100 倍的效率提升。这是一方面。

另一方面,成为某个领域专家的路径,其实和以往并没有太大区别:你需要深入学习、深入理解相关知识,需要亲手实践、真正解决问题。在当下这个时代,聊天生成预训练转换器能教你很多东西,我自己就尝试过让它教我汽车的各类工作原理,虽然目前效果还一般,但不可否认,现在学习知识的难度比以往低了很多,哪怕是两三年前,都没有这么便捷的学习方式。

所以总结来说,对待 Agent,要像扮演管理者的角色,帮助它解决遇到的问题,不能只是把问题丢给它就撒手不管;同时,你需要不断提升自己,成为更优秀的 “管理者”,积累更多的领域知识,更深入地理解工作内容。

主持人:也就是说,成为专家、持续学习的需求并没有改变,这一点很有意思,也很有道理。但有一个问题,如果一名年轻的内核工程师第一天入职,以往的培养方式是先安排简单的任务,第二年再安排更复杂的工作,那在 Agent 时代,这种实操性的职场培训该如何开展?

丹・傅:我们在合聚人工智能也一直在思考这个问题,即便在模型和 Agent 如此强大的当下,我们仍在积极招聘人才。

我们的做法是:首先,我以教授的身份,录制了一系列关于 GPU 工作原理的课程,要求所有新员工都必须学习;然后,我会给他们布置一个从零开始的任务,比如修改快速注意力机制的内核,实现某个新功能,具体的功能可以由他们自己选择。Agent 的优势在于,能让新员工更快地参与到高价值的工作中。

对于一名初级工程师来说,第一次尝试管理他人是非常有意义的经历,因为这会让他们开始用更精准的语言思考问题。比如,软件工程师常会遇到这种情况:产品经理给出一个需求,写了长长的需求文档,但当你让别人去实现这个需求时,才会发现描述一个功能需要多么精准的表达。

而 Agent 的出现,让这一过程得以简化,初级工程师不需要真正成为管理者,依然可以作为工程师开展工作,但能以管理者的思维方式,甚至产品经理的视角来思考问题。因为和 Agent 沟通时,你必须精准地描述自己的需求。我发现,团队中那些刚从大学或硕士毕业的年轻员工,只要积极学习和使用人工智能 Agent,他们的沟通能力会比以往的工程师强很多,对知识的理解和掌握速度也会大幅提升,并且能以以往 5 到 10 年都难以想象的速度搭建工具、完成工作。

蒂姆・德特默斯:我从教育的角度补充一点,这一点其实和丹的观点形成了一定的对比,也很有意思。我一直强调 “要么善用 Agent,要么被时代淘汰”,这一点对学生也同样适用,但正如丹所说,使用 Agent 的前提是具备一定的领域知识。

我们发现,如果允许学生使用 Agent,他们的学习效率会非常高,但有时他们借助 Agent 完成的解决方案,表面上看起来没问题,实际上却漏洞百出,而学生自己却意识不到。

当下我们正面临一个困境:很难同时培养学生的领域知识和 Agent 使用能力,这两者的平衡很难把握。 我们既不想培养出对知识一知半解的学生,也希望学生能掌握 Agent 的使用方法,否则他们进入职场后将无法胜任工作。

丹提到,具备扎实知识基础的人,借助 Agent 能实现能力的飞跃,但对于刚开始学习计算机科学的学生来说,该让他们学习多少专业知识,又该让他们在多大程度上借助 Agent 完成工作,这是一个非常棘手的问题,目前还没有完美的解决方案。

如果让学生过度依赖 Agent,他们的基础知识点掌握会非常薄弱;如果让学生完全靠自己完成所有学习任务,不使用 Agent,他们又无法掌握这项核心技能,进入职场后缺乏竞争力。

或许一个解决方案是:先让学生扎实掌握基础知识,再学习使用 Agent。但学生并不会这样做,他们能轻易接触到这些人工智能工具,并且会因为其便捷性而频繁使用。

所以或许真正的解决之道,是培养学生一种全新的信息处理和知识学习的思维方式,这种能力甚至超越了批判性思维 —— 学生需要学会识别自己不知道的未知事物,也就是那些自己没有考虑到、不理解,甚至从未想过的问题。 只有具备这种能力,才能跟上 Agent 的发展步伐。因为在未来,我们很可能会面对自己无法理解的问题,而 Agent 却能理解,我们需要找到一种方式,跟上 Agent 的节奏,这无疑是一大挑战。

小模型是未来趋势

主持人:二位对 2026 年人工智能的发展有哪些具体的期待?认为哪些趋势会成为现实,哪些则不会?

蒂姆・德特默斯:我觉得自己的看法比较矛盾,一方面,我认为很多领域的发展会趋于平淡,不会有太多创新;另一方面,又会有一些意想不到的突破出现。而在前沿模型领域,我认为不会有太多惊喜。

当下一个公开的事实是,预训练数据已经耗尽,正如丹所说,我们可以通过合成数据来弥补这一缺口,代码 Agent 的训练,就是在各类环境中生成大量合成数据,并进行数据融合,我们在这方面会取得一些进展,但整体来看,机器学习领域的发展已经显现出疲态。

我认为代码 Agent 的性能不会有太大提升,主要的进步会体现在用户体验的优化上。 当下各款模型的性能已经趋于同质化,比如我使用 GLM-4.7 的配置时,一度以为自己用的是 Opus 4.5,后来才发现是不同的模型,因为它们的表现实在太相似了。

所以 前沿模型的性能发展会陷入停滞,而小模型领域则会迎来快速发展。 如果针对特定的专业数据训练小模型,其性能会非常出色,而且小模型的部署难度低,能力却不容小觑。

比如 1000 亿参数的模型,能轻松实现部署,即便是 RTX 6000 这类售价 6000 美元的入门级数据中心 GPU,也能胜任。我认为对于很多企业来说,这会是一个极具吸引力的选择,它们不再需要依赖前沿的大模型,定制化的小模型甚至能表现出更优的性能,因为其针对特定领域做了优化。

当下存在一个很大的问题,正如 Anthropic 首席执行官所指出的,市面上有很多性能强大的开源模型,但实际使用的人却很少,原因就在于 部署难度极高。一旦模型的部署需要超过 8 块 GPU,不仅需要用户进行大量的效率优化,还涉及复杂的系统工程问题,而目前还没有能实现这一功能的开源系统,需要实现推理任务的解耦、跨序列长度的拆分等技术。或许我们能为异构 GPU 设备、小模型打造这样的部署系统,届时 1000 亿参数模型的运行效率,将能媲美当下的前沿大模型。

小模型兼具效率和灵活性的优势,再加上能通过大模型的知识蒸馏实现性能提升,这些因素结合起来,将彻底改变人工智能的发展格局。

丹・傅:我也对小模型的发展充满期待,认为它们会释放出更多的能力。

我会密切关注开源模型的发展,GLM-4.7 的出现,已经让开源模型的性能开始媲美当下最优秀的前沿模型,我认为 2026 年开源模型的能力会实现又一次大的飞跃。

我也非常期待新硬件的推出,目前已经有一些关于英伟达下一代 NVIDIA Rubin GPU、AMD 400 系列显卡的消息,即便我们还未充分挖掘当下硬件的潜力,我也很想看看下一代硬件能带来怎样的性能突破。

此外,我还期待多模态领域的发展,去年视频生成模型迎来了发展的小高峰,比如 Sora 2、Gemini、Veo 等模型都表现出色,我很想看看它们后续的发展。

最后,我也期待能看到,在笔记本电脑、手机这类终端设备上,人工智能的智能水平能达到怎样的高度, 能被推进到什么程度。我想说,当下投身人工智能领域,恰逢最激动人心的时刻。

主持人:二位早些时候提到了状态空间架构(SSM),你们认为这会是人工智能的近期发展方向吗?也就是说,我们会逐渐走出 Transformer 架构的时代,向状态空间模型、世界模型等新架构发展吗?这是否是你认为值得期待且势在必行的发展趋势?

丹・傅:我认为在很多领域,新架构已经落地应用了。比如当下全球最优秀的一些音频模型,就部分基于状态空间模型打造。英伟达最近也发布了多款优秀的混合架构模型,比如神经变形金刚,就是其中的代表。

所以相关的研究已经取得了很多不错的成果,架构的进化还会继续。比如 DeepSeek 的模型压缩技术,就借鉴了状态空间模型的一些理念;MiniMax 的一款模型,则采用了线性注意力的思路。

所以未来人工智能的架构会变得更加多元,这一趋势已经显现。

而中国的实验室在这方面会有更多的探索和突破,因为中国并没有像开放人工智能那样,集产品、模型、营收于一体的巨头企业,也就没有统一的技术发展范式。所以中国的实验室会更敢于尝试,想要让自己的开源模型脱颖而出,架构创新就是一个重要的方向,当然,纯性能的提升也是一个途径。因此,未来人工智能的架构会迎来爆发式的创新。

参考链接:

https://www.youtube.com/watch?v=XCCkgRzth6Q

“没有,从来都没有安心的时候。”

在 2026 年达沃斯世界经济论坛,DeepMind 创始人、Google DeepMind CEO 德米斯·哈萨比斯,用这句话形容过去三到四年的谷歌。

外界一度流行的“谷歌慢半拍”的言论,在他看来是一个彻底的误解。事实上,在这段时间里,谷歌的 AI 团队几乎一直处于红色警报状态。他本人长期保持着每周 100 小时、一年 50 周的工作强度,把一家万亿美元体量的科技巨头,硬生生拉回到创业公司的战时节奏。

也正是在这样的状态下,谷歌迎来了 Gemini 3 的发布,被哈萨比斯视为“重回行业最前沿”的关键节点。

在接受彭博社记者 Emily Chang 的专访时,他罕见地系统性拆解了当下几乎所有 AI 世界的核心争议:

  • 谷歌是否真的掉队?

  • 中国 AI 是否构成威胁?

  • Transformer 和大模型是否已经走到尽头?

  • AGI 会在什么时候到来?

  • 当工作不再必要,人类该如何寻找意义。

在哈萨比斯看来,过去十年,现代人工智能产业所依赖的关键突破,比如 Transformer 架构、深度强化学习、AlphaGo 背后的技术体系,几乎都诞生于谷歌与 DeepMind。他高度赞扬谷歌深厚的技术积累,他认为 谷歌是唯一真正具备 AI 全栈能力的公司,其真正的问题在于能否把研究、算力、数据、硬件和产品,整合成一个统一体系。

他还高度赞扬了谷歌的科学研究氛围,认为这正是他当初选择谷歌作为 Google DeepMind 归宿的原因。他还透露了他与拉里・佩奇、谢尔盖・布林如何高效分工。

在访谈中,哈萨比斯还反复提到一个关键词:物理 AI(Physical AI),他承认物理 AI 确实正处于突破的临界点。

在他的设想中,Gemini 从一开始就不是“聊天模型”,而是一个理解现实世界的多模态系统,是通往物理 AI 的入口。未来 Gemini 只会走向两个方向:

  • 随身的通用 AI 助手(眼镜、手机)

  • 真正能干活的机器人

当然,他也给出了冷静判断,距离物理 AI 跨过临界点还有 18 个月到两年的时间,在算法、数据、硬件等方面,都还差最后一段路。

谈到中国 AI,哈萨比斯的态度异常冷静。

他并不认为 DeepSeek 构成真正意义上的“危机”,也直言西方舆论夸大了其算力效率优势,这背后仍依赖西方模型蒸馏。在他看来,中国公司极其擅长追赶,但是否能率先打开下一代技术前沿,仍有待时间验证。而 现代人工智能行业所依赖的约 90% 的突破性技术,都是谷歌研发的。

但他特别表扬了 字节跳动,给出了一个极具分量的评价:字节跳动距离技术前沿,大约只差 6 个月,而不是 1–2 年。

这位把 AGI 当作毕生使命的科学家型 CEO,几乎反驳了 马斯克、杨立昆和伊利亚·苏茨克维的核心判断,同时给出了一个异常冷静 AGI 的时间表:2030 年,有 50% 的概率实现通用人工智能。

哈萨比斯对 AGI 有自己一套严格的标准,即必须具备完整的人类认知能力,尤其是科学创新能力,不仅能解决问题,还要能提出真正重要的问题  这其中还有不小的差距。

他认为距离 AGI,还需要一两项,最多不超过五项突破性技术,这可能体现在世界模型、持续学习的能力、稳定性表现、更强的推理能力或更长远的规划能力等方面。他高度认可现有的模型成就,认为在现有方法的基础上进行优化并扩大规模,或许就能实现 AGI。

在访谈的最后,话题不可避免地走向未来社会:人工智能是否会取代人类的工作?围绕这一问题,哈萨比斯提出了一个有趣的概念 “后稀缺时代”

在他看来,AI 带来的变革,无论规模还是速度,都会是工业革命的十倍,取代部分人类工作几乎是不可避免的结果。但他厘清一个概念,即人工智能本质上是一种终极的科学研究工具,就像更先进的望远镜和显微镜一样,是为科学服务的。

在哈萨比斯的设想中,真正重要的并不是“谁被取代”,而是人类将因此获得前所未有的自由,把注意力转向那些更根本的问题。例如能源危机,如何实现核聚变,如何发现全新的材料体系。这些长期困扰人类的难题,或许正是在人工智能的加持下,才第一次显露出被彻底解决的可能性。

这不仅是一场技术竞赛,更是一场文明级实验。真正的风险,在于当人类不再需要通过工作来定义自身价值时,我们是否已经准备好回答那个更深层的问题“为什么而活?”。

在那个时代,人类或许需要的不只是更强的工程师,而是伟大的哲学家,去重新书写意义的来源。

以下是哈萨比斯访谈实录,更多的谈话细节,欢迎来看:

谷歌的红色警报期与“王者归来”

主持人:和你上次来达沃斯相比,今年的感受有什么不同吗?Gemini 3 已经发布了,相关的消息我们也都听说了。我在内部甚至把这段时间称作“红色警报”。你觉得谷歌已经找回曾经的状态了吗?

哈萨比斯:我不太确定这是不是该由我来评价,但我确实认为,过去这一年我们做得非常出色。我们付出了极其艰苦的努力,几乎是全力以赴,才让我们的技术和模型重新回到行业最前沿

尤其是 Gemini 3,以及我们在视觉和成像系统方面取得的一些关键突破,都在这一过程中起到了决定性作用。同时,我们也逐渐适应了如今这种节奏极快、需要迅速将成果推向市场的行业环境,让整个团队重新焕发出一种更接近初创公司的活力。

主持人:你认为人们是否低估了谷歌,或是对谷歌有误解?

哈萨比斯:或许是吧,我不确定。我的意思是,我们一直都拥有站在这个领域前沿的所有必备条件,显然我们在这方面有着悠久的积淀。

我认为在过去十年里,谷歌和 Google DeepMind(谷歌深度思维)联手,创造出了现代人工智能行业所依赖的大部分突破性技术。比如 Transformer 架构,还有最知名的阿尔法狗背后的深度强化学习技术,这些都是我们的成果。

我们还有覆盖数十亿用户的优质产品矩阵,从搜索引擎、电子邮箱到谷歌浏览器,这些产品天生就适合融入人工智能技术。

问题只是如何将所有这些资源整合起来,以正确的方式统筹规划。 过去几年我们已经做到了这一点,当然还有大量工作要做,但我们已经开始看到努力带来的成果了。

主持人:如果你认为谷歌具备优势,你觉得这个优势有多大?能持续多久?

哈萨比斯:在我看来,一切都始于研究。尤其是模型,要在各类基准测试中都保持行业前沿水平。这也是我们整合谷歌和 Google DeepMind(谷歌深度思维)后,首要聚焦的工作。双子座系列模型的进展,我们感到非常满意,当然这方面还有很多工作要推进。

但我认为,我们是唯一一家拥有全栈能力的机构,从技术、战术、流程体系,到硬件、数据中心、云业务、前沿实验室,再到一众天生适配人工智能的优质产品,我们一应俱全。

所以从根本的结构层面来说,我们本就该有出色的表现,而且我认为我们未来还有很大的提升空间。

主持人:我想知道,作为前沿模型研发的负责人,日常工作状态是怎样的。我看到有报道说,你大多在凌晨一点到四点进行深度思考。确实是这样吧?谷歌内部的工作状态是否一直处于红色警报级别?你有没有感到安心的时候?

哈萨比斯:没有,从来都没有安心的时候。我们设定红色警报级别,本是针对特殊情况的,但过去三四年,工作强度一直大到难以想象。每周工作一百小时,一年工作五十周,这已经是常态。

在这个技术发展速度极快的领域,要想保持前沿,就必须这样做。行业的竞争异常激烈,可能是科技领域有史以来最白热化的阶段,而且背后的利害关系重大。通用人工智能的研发,无论从商业还是科学角度,都有着深远的意义。

再加上我们正做的事情本身就令人振奋,而我的热情就是用人工智能探索科学难题,推动科学发现的进程。这是我一直以来的梦想,我毕生都在为人工智能发展的这一刻而努力。所以常常会因为有太多工作要做而难以入眠,但同时,也有太多令人兴奋的事情值得我们去探索、去推进。

主持人:聊聊谷歌目前的内部文化吧,你们既要在这场竞争中取胜,又要保证研发的方向正确。拉里・佩奇和谢尔盖・布林 现在的参与度如何?你和他们沟通的频率高吗?他们现阶段的工作重点是什么?

哈萨比斯:他们的参与度非常高。

拉里・佩奇更多负责战略层面的工作,我会在董事会会议上见到他,去硅谷时也会和他碰面。

谢尔盖・布林则更多参与具体工作,他甚至会亲自参与双子座研发团队的编码工作,尤其专注于算法细节方面。

他们能对当下的人工智能研发充满热情,这对我们来说是好事,毕竟这是计算机科学发展史上一个无比重要的时刻,单从科学角度来看,这也是人类历史上的重要时刻,所以所有人都想亲身参与其中,这一点非常好。

而对于我来说,我正努力融合各方优势,既保留初创企业快速推出产品、敢于冒险的活力,这一点我们已经看到了成效;又充分利用大企业的资源优势,同时还为长期研究和探索性研究保留空间,而非只聚焦于三个月内就能落地的产品相关研究,我认为只做短期研究是不明智的。

我正努力平衡这些因素,过去一年,各项工作的推进都很顺利,而且我认为今年我们能做得更好。我对目前的发展态势非常满意,谷歌的技术提升和研发进展速度,在业内应该是最快的。

物理 AI 的奇点时刻,还有 18 个月到两年的时间

主持人:我知道你一直把重点放在推动科学进步上,比如发现新材料。我们也看到,现在 Gemini 已经被整合进人形机器人系统中。那么你觉得,人工智能在真实物理世界中的应用,是否即将迎来一个类似 AlphaFold 那样的突破性时刻?如果是的话,这个“突破”会以什么形式出现?

哈萨比斯:是的,过去一年我花了大量时间深入研究机器人技术。我确实认为,我们正处在物理 AI 取得突破性进展的临界点。

但我还是觉得,距离实现这一突破,我们还有 18 个月到两年的时间,还需要开展更多研究。

不过我认为,双子座这样的基础模型,为我们指明了方向。从一开始,我们就将双子座设计为多模态模型,让它能够理解物理世界,背后有多重原因。

其一,是为了打造通用智能助手,这种助手或许会搭载在 智能眼镜或手机 上,能够理解周边的现实世界。

其二,当然就是为了应用在 机器人领域。那么人工智能在物理世界的突破性时刻,究竟会是怎样的?我认为,那就是让机器人能在现实世界中稳定地完成各类有实际价值的任务。

目前,仍有一些因素制约着这一目标的实现。

一方面,算法还不够完善,需要提升鲁棒性,而且相较于实验室中仅处理数字信息的模型,机器人相关算法能依托的数据量更少,合成这类数据的难度也远高于数字数据

另一方面,硬件方面也仍有一些难题尚未解决,尤其是机械臂和机械手的研发。其实深入研究机器人技术后,你会对人类的手部结构产生全新的敬畏之心,至少我是这样。进化的设计精妙绝伦,人类的手在稳定性、力量和灵活性上的表现,很难被复刻。所以在我看来,要实现这一突破,还有不少环节需要完善,但目前已有很多令人振奋的进展。

我们刚刚宣布与 波士顿动力 展开深度合作,他们研发的机器人非常出色,我们正将人工智能技术应用到汽 车制造领域

接下来一年,我们会先推出 原型机 进行测试,或许一两年后,我们就能展示一些令人印象深刻的成果,并实现规模化应用。

DeepSeek 并不是重大危机,特别表扬字节跳动

主持人:一年前,DeepSeek 模型的发布在西方引发了不小的震动,很多人把它视为一场潜在的危机。但一年过去了,局势似乎逐渐平稳下来,中国方面的节奏看起来也有所放缓。你对中国人工智能领域整体竞争格局的看法,有没有发生变化?

哈萨比斯:没有,其实并没有改变。一开始我就不认为这是一场真正意义上的危机,我觉得西方当时的反应多少有些过度了。

DeepSeek 的确是一个令人印象深刻的模型,它清楚地展现了中国科技公司的实力。

如果看头部企业,比如字节跳动,我认为他们的能力非常强。在技术前沿的跟进速度上,他们可能只落后大约六个月,而不是一到两年。DeepSeek 正是这一点的体现。

当然,围绕它的一些说法也被夸大了。比如关于 算力使用效率的说法,并不完全准确,因为他们在研发过程中借鉴并依托了部分西方模型,也对顶尖模型的输出结果进行了微调,而不是完全从零开始独立训练。

另外,还有一个关键问题目前仍然没有答案:那就是中国公司是否能够在跟进前沿的基础上,真正实现原创性的突破并引领下一代技术。 他们在追赶方面确实非常擅长,而且能力正在快速提升,但到目前为止,还没有证明自己能够率先打开新的技术前沿。

AGI 的时间表:2030 年,有 50% 的可能实现 AGI

主持人:是你为通用人工智能给出了定义,你也曾说过,到 2030 年,我们有 50% 的可能实现通用人工智能。 这个时间规划是否依然不变?

哈萨比斯:不变。

主持人:通用人工智能对你而言,依然是一个有价值的研发目标吗?

哈萨比斯:我认为是的,这个时间规划在我看来很合理,而且相较于一些人的预期,这个时间其实更充裕。

但我对通用人工智能的评判标准非常高,它指的是一个具备人类所有认知能力的系统,显然我们目前离这个目标还有很大差距。 这意味着,这类系统需要拥有 科学创新能力不仅能解决科学领域的猜想和难题,更要能率先提出研究假设和问题。 任何一名科学家都清楚,找到正确的问题,往往比找到答案难得多。

目前的人工智能系统显然还不具备这种能力,未来能否拥有,还未可知,我们也仍未明确实现这一能力需要哪些技术突破。比如 持续学习能力,也就是在线学习能力,让系统能突破训练的局限,在现实世界中自主学习;还有 稳定性,目前的系统在不同领域的表现参差不齐,而通用智能系统不该有这样的短板。在我看来,要打造通用人工智能系统,还有不少关键能力亟待突破。

主持人:我们来聊聊技术和未来的发展趋势。Meta 首席科学家 杨立昆(Yann LeCun) 认为,仅凭 Transformer 架构和大模型,无法实现通用人工智能。你是否认同这一观点?如果这些技术走到了尽头,我们的研发方向会是什么?

哈萨比斯:我不认同,我认为说这些技术走到尽头的观点显然是错误的,因为它们目前已经展现出了巨大的实用价值。但在我看来,这是一个实证问题,也是一个科学问题,仅凭这些技术是否能实现通用人工智能,尚无定论。

我认为有 50% 的可能,只需在现有方法的基础上进行优化并扩大规模,就能实现通用人工智能, 这是有可能的,而且我们也必须这样做。在我看来,这项研究是有价值的,因为至少这些大模型会成为最终通用人工智能系统的核心组成部分,唯一的问题只是,它是否是唯一的组成部分。

我能想象,从现在到实现通用人工智能,我们还需要一两项,最多不超过五项突破性技术

比如 世界模型,这是我一直提及的,我们也正在研发,目前我们的 GENI 系统就是最先进的世界模型(GENI 是 DeepMind 、Google 内部正在研发的一类世界模型(World Model)系统),我也直接参与了这项研发,我认为它至关重要。

还有 持续学习能力,以及打造 性能稳定的系统,让系统不再出现这种领域间的表现失衡,真正的通用智能系统,不该有这样的问题。

所以在我看来,人工智能还缺乏更强的 推理能力更长远的规划能力 等多项关键能力。目前尚未确定的是,实现这些能力,是否需要新的架构或突破性技术,还是只需在现有基础上继续优化。而谷歌和 Google DeepMind(谷歌深度思维)的做法是,双管齐下,既全力研发新的技术,也持续优化并扩大现有技术的规模。

主持人:OpenAI 联合创始人兼前首席科学家伊利亚・苏茨克维(Ilya Sutskever)认为,依靠扩大模型规模实现技术提升的时代即将结束。你是否认同这一观点?

哈萨比斯:我不认同。他的原话大概是 “我们重回研究的时代”,我和伊利亚・苏茨克维是很好的朋友,我们在很多问题上的看法都一致,但在这一点上,我并不认同。

我的观点是,我们从未离开过研究的时代,至少谷歌和 Google DeepMind(谷歌深度思维)一直如此。 我们始终在研发领域投入巨资,而且我认为,整合后的谷歌和 Google DeepMind(谷歌深度思维),拥有业内最深厚、最广泛的研发团队。

过去十年,现代人工智能行业所依赖的约 90% 的突破性技术,都是我们研发的,当然最知名的是 Transformer 架构,还有深度强化学习、阿尔法狗背后的各类强化学习技术,这些都是我们开创的。所以如果未来实现通用人工智能需要新的突破性技术,我相信,就像过去一样,我们依然会是这些技术的研发者。

主持人:最后一个问题,埃隆・马斯克说我们已经进入了技术奇点,你是否认同?

哈萨比斯:不认同,我认为这一说法为时过早。在我看来,技术奇点其实就是实现完全的通用人工智能,而我之前已经解释过,我们目前离这个目标还相去甚远。我相信我们最终能实现这一目标还有五年的时间,从实现通用人工智能的角度来看,其实并不长,但在那之前,我们还有大量的工作要做。

人工智能就像更先进的望远镜和显微镜

主持人:你是诺贝尔奖得主,我知道你一心想让人工智能推动科学研究的发展。如果未来人工智能本身取得了足以获得诺贝尔奖的科研发现,这个奖项该颁给谁?

哈萨比斯:我认为还是该颁给人类。当然,这取决于人工智能是否是完全独立完成这项发现。

目前来看,人工智能依然只是工具,在我眼中,它是终极的科学研究工具,就像更先进的望远镜和显微镜。 人类一直都在制造工具,让自己能更好地探索自然世界,人类本质上就是会制造工具的物种,这也是人类与其他动物的区别,而工具也让人类拥有了超越自身的能力,计算机当然也属于这类工具,人工智能则是这种能力的终极体现。

所以在我看来,人工智能一直都是推动科学研究的终极工具,而且在可预见的未来,科学研究都将是顶尖科学家与人工智能的合作成果:科学家提出富有创意的想法和研究假设,而人工智能作为强大的工具,助力提升数据处理、模式识别的效率,推动科学探索的进程。

AI 是否会取代人?我们将迎来后稀缺时代

主持人:谷歌是 Anthropic 人工智能公司的主要投资方,Anthropic 联合创始人兼 CEO 达里奥・阿莫迪 (Dario Amodei) 今天早些时候也来到了达沃斯。他预测,未来五年内,人工智能会取代 50% 的初级白领岗位,你是否认同这一观点?

哈萨比斯:我不认同,我认为这一过程会耗时更久。今年,我们或许能看到这一趋势的初步显现,比如初级岗位和实习岗位可能会受到影响,但要实现大规模取代,我们还需要解决人工智能系统的稳定性问题。

我把目前人工智能的这种不均衡表现称为 “锯齿型智能”,在某些领域表现出色,在另一些领域却不尽如人意。如果想将一整项工作完全交由人工智能代理完成,而非像现在这样,仅让其作为辅助工具,就需要让系统在各方面都保持稳定的表现。如果一个系统完成一项工作的成功率只有 95%,那是远远不够的,必须能圆满完成整个任务,才能让人放心地将工作交托给它。

所以在出现这种大规模的岗位变革前,我们还有大量工作要做,但 这种变革最终一定会到来。当然,一旦实现通用人工智能,整个经济体系都会发生改变,这早已超出了岗位变革的范畴。如果我们能打造出真正的通用人工智能,而且方向正确,我们或许会进入一个后稀缺时代,解决世界上一些根本性的难题,比如能源问题。借助人工智能,研发出全新的清洁、可再生的近乎免费的能源,比如实现核聚变还有新材料的研发,我认为在实现通用人工智能后的五到十年,我们会进入一个彻底改变的世界。

主持人:不过,在进入后稀缺时代之前,人们对这一过渡阶段充满了焦虑。我是一位母亲,我知道你也有孩子。你最担心孩子们未来会面临什么?你会和他们聊些什么?会告诉他们未来即将到来的变化吗?我听到很多人说,大学毕业生未来的就业会非常困难。

哈萨比斯:我倒不这么认为。我觉得我们即将进入一个变革的时代,就像工业革命那样,或许变革的速度会是工业革命的十倍,甚至难以想象。准确来说,变革的规模和速度都会是工业革命的十倍,影响力会是百倍。

但我想对所有人说,变革的背后,蕴藏着巨大的机遇。而且我始终坚信人类的创造力,我们的适应能力极强,因为人类的思维具有极强的通用性。

人类的大脑无比强大,我们的祖先以狩猎采集为生,而我们凭借这样的大脑构建了现代文明,所以我相信我们能再次适应新的时代。当然,这次的变革是前所未有的,因为它的速度太快了。以往,这样的重大变革往往需要一两代人的时间才能完成,而这次人工智能技术的变革,规模和影响力都极为巨大。

但对于如今的孩子,我会鼓励他们熟练掌握这些新工具,像使用母语一样运用它们,这些工具几乎能赋予他们超能力。比如在创意艺术领域,借助人工智能,一个人或许能完成过去十个人的工作。这意味着,如果你富有创业精神,在游戏设计、电影制作等创意领域有想法,就能完成更多工作,也能比以往更容易地跻身这些行业,成为新锐人才。

主持人:一些人主张暂停人工智能的研发,让监管政策跟上技术发展的步伐,也让社会有时间适应这些变化。如果在理想情况下,所有企业、所有国家都同意暂停研发,你是否会支持这一做法?

哈萨比斯:我会支持。我也曾公开表达过我的期望,这也是我十五年来的梦想。我接触人工智能研究已有二十五年,我一直希望,当我们接近实现通用人工智能的这一关键节点时,全球的科研人员能展开科学层面的合作。

我有时会设想,成立一个类似欧洲核子研究中心的国际人工智能研究机构,让全球最顶尖的人才携手合作,以极为严谨的科学方式,推进通用人工智能研发的最后阶段,同时让全社会参与其中,不仅是技术人员,还有哲学家、社会科学家、经济学家,共同探讨我们希望从这项技术中获得什么,以及如何让它造福全人类。这才是我们当下的核心议题。

但显然,这需要国际社会的通力合作,因为即便只有一家企业、一个国家,甚至整个西方世界决定暂停研发,倘若没有全世界的共同参与,没有制定统一的最低标准,这一做法也毫无意义。而目前,国际合作面临着不小的阻碍,所以如果想以严谨的科学方式推进通用人工智能的最后研发,就必须改变当下的国际合作现状。

主持人:如果到 2030 年我们实现了通用人工智能,而相关的监管政策尚未出台,我们是否注定会面临困境?

哈萨比斯:我依然乐观地认为,全球顶尖的人工智能研发机构会充分沟通,至少在安全和安保协议等方面展开合作,目前这方面的合作已经有了不少进展。比如我们和人工智能公司 Anthropic 在这些领域的合作就十分紧密。

如果国际层面的合作难以推进,这种行业内的同行合作就尤为必要。我和其他顶尖人工智能实验室的负责人关系都很不错,我认为,当利害关系足够重大时,大家会意识到问题的严重性和潜在的风险,而在未来两到三年,这一点会变得更加清晰。

主持人:你当初本可以把 Google DeepMind(谷歌深度思维)卖给任何一家企业,而如今,这些研发人工智能的企业都在寻求大众的信任。尤其是在监管政策难以跟上技术发展速度的情况下,历史经验也证明了这一点。我们为什么该信任你?为什么你认为谷歌,也是你内心所认可的,是最值得我们信任的企业?毕竟人工智能的研发存在不小的风险。

哈萨比斯:我认为,评判一家企业,要看它的实际行动,也要看参与相关研发的领导者的初衷。

我选择谷歌作为 Google DeepMind(谷歌深度思维)的归宿,有多个原因,最主要的是,谷歌的创始人创立谷歌的初衷,是打造一家以科学研究为核心的企业。 很多人都忘了,谷歌最初其实是一个 博士研究项目,是拉里・佩奇和谢尔盖・布林 的研究成果。所以我和他们一见如故。

拉里・佩奇主导了 Google DeepMind(谷歌深度思维)的收购,而谷歌的董事会成员也都是各行各业的顶尖人才,比如董事会主席约翰・轩尼诗是图灵奖得主,弗朗西斯・阿诺德是诺贝尔奖得主,这样的阵容在企业董事会中并不多见。所以谷歌的整体环境充满了 科学氛围企业的发展以科学研究和工程技术为核心,这一文化早已根深蒂固。而追求最高水平的科学研究,就意味着 做事要严谨、深思熟虑,在所有领域都践行科学方法

我认为这不仅适用于技术研发,也适用于企业的运营管理。所以我们始终努力做到深思熟虑、负责任,尽可能掌控我们推向市场的技术。当然,我们不可能做到尽善尽美,因为人工智能是一项全新、复杂且具有变革性的技术,但如果出现问题,我们会尽快调整修正。

最后我想说,谷歌想要为世界做的事情,也是我当初选择谷歌的原因之一。 谷歌的使命是整合全球信息,让人人皆可访问并从中受益,我认为这是一个非常崇高的目标。而 Google DeepMind(谷歌深度思维)的使命是破解智能的奥秘,并利用智能解决其他所有问题,这两个使命高度契合。人工智能与整合全球信息的工作本就相辅相成,谷歌的各类产品,从谷歌地图、电子邮箱到搜索引擎,都是对世界有实际价值的产品,人工智能能很自然地融入这些产品,为所有人的日常生活提供助力,我认为这是一件造福世界的事,能为此贡献力量,我感到很荣幸。

主持人:试想一下,在后稀缺时代,人们不再需要工作,当你实现了所有的技术目标后,你个人打算如何度过时间?毕竟到那时,科研工作本身或许也能实现自动化了。

哈萨比斯:如果真的到了那个阶段,我想利用人工智能探索物理学的极限

上学时,我最感兴趣的就是那些终极问题:现实的本质是什么?意识的本质是什么?费米悖论的答案是什么?(费米悖论是宇宙学和天体生物学中最经典的未解之谜,由美籍意大利物理学家、1938 年诺贝尔物理学奖得主恩里科・费米(Enrico Fermi) 在 1950 年提出,核心是 “理论上的地外文明存在性” 与 “人类实际观测证据为零” 的尖锐矛盾 ,其最经典的表述就是费米的一句反问:“他们都在哪儿呢?”)时间是什么?引力是什么?

我很惊讶,很多人每天忙于生活,却从未思考过这些重大问题,而这些问题一直萦绕在我心头,迫切想要找到答案。我想借助人工智能,去探索所有这些问题,或许还能在人工智能的助力下,利用新的能源和材料技术,实现星际旅行。

主持人:如果人们不再需要工作,我们还能找到生活的意义和目标吗?

哈萨比斯:说实话,这一点比经济层面的问题更让我担忧。经济层面的问题,更多是一个政治问题:当人工智能为我们带来巨大的效益和生产力提升时,我们能否确保这些成果为全人类共享,这也是我一直坚信的理念。

但更核心的问题是,很多人从工作和科研中获得生活的意义和目标,在新的时代,我们该如何找到这些?我认为,我们需要 新一代伟大的哲学家,来帮助我们思考这个问题。或许未来,我们的艺术创作会更加精妙,我们的探索之旅会更加深远,就像如今我们所做的极限运动等非经济目的的事情一样,未来或许会有更多更小众、更有深度的这类活动。

主持人:在场的所有人都想知道,自己该如何应对人工智能带来的变革。比如现在坐在达沃斯的会场里,十年后该如何自处?你认为,在场的人在看待人工智能这件事上,最容易犯的重大错误是什么?

哈萨比斯:我想从两个方面来说。

第一,对于年轻人和我们的孩子而言,唯一可以确定的是,未来会发生巨大的变化。所以在学习技能方面,要做好持续学习的准备,学会学习,才是最重要的能力。要能快速适应新环境,利用现有工具吸收新信息。

第二,对于在场的企业首席执行官和商界人士而言,当下最重要的是,目前市场上有很多顶尖的人工智能模型和服务提供商,未来还会更多。要选择那些以正确方式研发人工智能的合作伙伴,与这些企业携手,共同打造我们所期望的人工智能未来。

Ryan Dahl 在 1 月 20 日给软件工程下了结论:“人类写代码的时代已经结束。”留下的工作里,不包括继续手写语法。

 

如果这话出自某个科技网红,大概刷过去就算了。但 Ryan Dahl 不一样——他不仅写出了 Node.js,后来还“推倒重来”做了 Deno。你可以把他的意思理解为:写代码这部分会越来越自动化,而人的价值会更多落在判断、取舍和责任上。

 

而在 Ryan Dahl 这次“宣判”之前,1 月 3 日,Ruby on Rails 作者 DHH 也在 X 上连发多条,语气罕见地偏“乐观派”:

 

“别让那些粗制滥造和尴尬翻车,遮住你对 AI 的惊叹。自从我们把计算机连上互联网以来,这是我们让计算机做到过的最令人兴奋的事。如果你在 2025 年一直对 AI 悲观或怀疑,不如在 2026 年的开端,用一点乐观和好奇再试试看?”

 

于是,社区里迅速冒出一种更夸张、但传播力极强的解读:“DHH 都松口了。”“连最不买账的人都开始给 AI 站台——你还有什么理由不用?”甚至有人干脆把它说成:“DHH 也扛不住了,最终还是向 AI 屈服低头了。”

 

但你真去听 DHH 的原话,会发现所谓“DHH 屈服论”,并不是那么回事儿。

 

在最新一期播客中,他说在 37signals,AI 没有在写真实产品,更谈不上“从零写出什么东西”。

 

他在用 AI,而且每天都用,但更多是做那种“一发入魂”的小实验;一旦进入真工程:要持续演进、要迭代、要打磨,他就会觉得:“这在浪费我的时间,到这一步我自己写更快。”

 

所以他们的新产品 Fizzy 里 95% 的代码,还是人类亲手敲出来的。

 

他还补了一句:我们离那种“AI 让一切始终更好、更快、更省心”的明显拐点,还差一点

 

“就现在而言,我仍然在意代码的样子。我在意它的美感。我在意打磨、推敲、润色。”

 

更关键的是,他不是在怀旧。他明确说:“手写代码依然有竞争力。”“至少在此时此刻,这是一个仍然有竞争力的选择。”

 

而且他的判断正好和 Ryan Dahl 相反:“我们并没有到 AGI,没有到那种‘人类写代码的时代死了’的程度。”

 

挺好玩的是,DHH 还说要远离 Anthropic 的 CEO:他一听到那种“再过五分钟就不需要程序员了”的口吻就火大,直接开喷:“你们到底用的啥模型啊?”反正他自己用的是 Opus 4.5(或当下版本),但在他的体验里,这种“程序员马上下岗”的说法完全不符合现实——尤其是那些要长期维护、持续迭代、不断演进的真实工程,离“五分钟结束”差得十万八千里。

 

以下是 DHH 播客整理全文翻译:

 

“如果浏览 Web 的不再是人类”

 

主持人:欢迎大家来到《Next Token》。今天这期节目对我来说有点特别,可能要追溯到 25 年前。很高兴请到 DHH——David Heinemeier Hansson。欢迎你。

DHH:很高兴来,谢谢邀请。

 

主持人:我猜你可能是刚从赛车里下来(笑)。

DHH:现在是休赛期,正好歇一歇。

 

主持人(Torsten):那我就先来点“热血沸腾”的话题。我从 2010 年左右就开始关注你,你可能是对我影响最大的前五位程序员之一。如果没有你,我可能不会走到今天。我职业生涯中有七八年都在写 Rails,看了你所有的书、博客。我们其实从没见过面,但有一次“交集”让我印象极深——我发过一条关于 Cookie Banners 的吐槽推文,那是我人生中传播最广的一条推文。那天中午我被 Cookie Banners 气疯了,随手发了一条,然后彻底炸了。第二天你转推并评论说:“这就是为什么人们不再浏览 Web,而是开始用 ChatGPT。” 所以我想直接问你:欧盟最近说要“取消 Cookie Banners”,你觉得这真的能改善什么吗?还是说——已经太迟了?

 

DHH:我认为 Cookie Banners 是 Web 体验变得糟糕的一个主要原因。它们几乎比早期那种弹窗广告还要糟糕——你知道的,“打地鼠”“打猴子”那种 2000 年初的弹窗。当年浏览器还能通过技术手段封杀弹窗,但 Cookie Banners 没有一个统一、有效的技术解决方案。我知道有插件能挡,但大多数人不会装。结果就是:Cookie Banners 成了互联网的一场瘟疫。

 

我是丹麦人,所以我觉得我有资格狠狠吐槽欧盟。Cookie Banners 最初的出发点是“高尚的”——限制数据收集、提高透明度。但这套东西在第一个 Cookie Banners 出现 5 分钟后,就已经被证明是失败的。可欧盟花了整整 15 年,才开始承认这个问题。现在他们说要“移除”Cookie Banners。

但“移除”是什么意思?你以为这就能抹掉你对互联网造成的破坏吗?不可能。接下来30 年,仍然会有大量网站继续保留 Cookie Banners——因为删掉它比留着更麻烦,或者网站早就没人维护了。

 

这是一件非常悲哀的事。当然,我并不是说:如果没有 Cookie Banners,人们就不会去用 ChatGPT。 那不现实。但它确实在可测量的层面上伤害了 Web,让浏览体验变得远比必要的程度更糟。

 

一旦你已经在用户体验上制造了第一道伤口,后面再多来几刀,心理成本就低多了。Cookie Banners 把“底线”拉得太低了,以至于很多 Web 设计师会觉得:再多放点广告、再恶心一点,好像也没那么糟。 这就像“破窗理论”。

 

主持人:那在 Cookie Banners 把 Web 搞成这样之后,你觉得互联网浏览的未来会走向哪里?

如果未来主要“浏览 Web 的不再是人类”,那这些问题还重要吗?

 

DHH:这是一个好问题。我觉得现在有很多聪明的人都在试图搞明白这件事,我们也在尝试各种不同的做法。某种意义上,这真的很像上世纪 90 年代中后期——当时我们在摸索互联网的第一个版本:这一切究竟会怎么运作?谁会掌握权力?谁会成为平台?谁又会成为把关者?所有这些问题,如今再次被抛回到空中,悬而未决。

 

不管我个人怎么看它最终会走向哪里,我都觉得这是一件令人兴奋的事情。互联网和计算技术,已经很久没有像现在这样让人感到兴奋了——上一次有这种感觉,还是在 2007 年。

 

那是 iPhone 刚刚问世的时候,我们迎来了一个全新的形态。随后经历了很长一段时间:好,一切都转向移动端了。而现在,我们又站在另一次巨大的转折点上——这一次,不只是“移动”不再以同样的方式重要了,它不再是你思考和构建产品时的那个主导视角。

 

与此同时,还有大量没有答案的问题。如果人类不再亲自阅读互联网内容,因此也不再阅读广告,那究竟是谁在为互联网写作?谁还会去生产那些美好的内容?当我们摆脱了 cookie 弹窗,重新拥有一个“干净体面”的门面,这件事真的还重要吗?

 

如果这件事本身已经不再重要,如果人们不再想为互联网写作,那 AI 又将从哪里获取它所需要的信息?我觉得现在有太多悬而未决的问题,以至于没有任何人哪怕稍微知道,最终的解决方案会是什么样子。而这,恰恰是活在这个时代最令人振奋的地方。

 

我毫不怀疑,将来我们回头看今天这个时刻时,会说:“好吧,这里发生了一次决定性的变化。”而且,这种变化在当下的可感知程度,甚至比前两次都要更明显。

 

互联网的出现,花了五六年的时间才真正渗透进社会,对整个社会产生巨大影响。后来是手机,速度快了一些,但也没有快到哪里去——iPhone 本身也经历了好几代迭代,我们一开始甚至都没有 App Store,这些东西都是慢慢才出现的。

 

但 AI 不一样。

 

AI 的出现,在当下这一刻就已经非常明显。任何一个用过第一版 ChatGPT 的人,都会立刻意识到:哇,这完全是一个全新的东西,它将重写规则。

 

所以,在这三次巨大的技术变迁中——互联网的诞生、移动时代的到来,以及现在的 AI——这是第一次,我们在实时发生的过程中就清楚地知道:世界一定会变得完全不同,而我们却不知道最终会变成什么样。

 

因此,我觉得你能做的最好的事情,就是接受三点:第一,我们不知道答案;第二,这真的令人兴奋;第三,赶紧上车,狠狠干脆坐稳了,看看它会把我们带到哪里去。

 

因为还有另一种冲动,过去在互联网时代出现过,在移动时代也出现过:那就是一部分人会说,“我更喜欢以前的样子。我喜欢变革发生之前的一切。我不喜欢 AI。我不喜欢也许会被整个互联网重新中介化。我不喜欢这些东西。我们能不能把一切都倒回去?”

 

不,不能。你没有这种权力。你无法把这些东西倒回去。

 

你当然可以在个人层面选择:我不用生成式 AI,或者我不买任何包含 AI 方案的产品。但这种想法,本质上是一种“阿米什式”的思维方式——而在任何时代,这都只是非常小众的选择。

 

如果这就是你,如果这就是你想与世界互动的方式,那很好,祝你一切顺利。我们有时候确实需要一些“疯子”来提醒我们:事情也可以用完全不同的方式来做。但这,并不会改变历史前进的轨迹。

 

“这真的是一个无比令人兴奋的时代”

 

主持人:你的兴奋更多来自哪里?是因为规则被打乱、棋盘被掀翻?还是因为你真的想用 AI 做事?

 

DHH:首先也是最重要的一点,我热爱计算机。我喜欢看到计算机做出以前做不了的新事情。说实话,让我觉得非常惊讶的是:有这么多在科技行业工作的人,其实并不怎么喜欢计算机——甚至包括那些每天都要和计算机打交道、让计算机“跳舞”的程序员,并不是所有人都真的喜欢计算机。

 

但我不一样。我爱计算机。我真的爱计算机本身,爱的是它作为一台机器的纯粹性。我并不是只把计算机当成一种“工具”,不是只想用它来完成某个目的。确实有一大类人,把计算机仅仅视为通往某个结果的手段。但不是这样,对我来说,这要更深得多——我就是单纯地热爱计算机这个东西本身,也热爱看到它去做全新的事情。

 

而现在发生的这件事,是计算机在我这一生中做过的最令人兴奋的新事情之一,至少可以和当年“计算机连上网络”这件事相提并论。

 

那时我们从 Commodore 64、Amiga 时代走过来,突然“砰”地一下就上网了,用小小的调制解调器拨号,连接世界各地的 BBS,听着它唱出那种刺耳却又美妙的声音——那同样是一次巨大的转变,也彻底改变了我和计算机之间的关系。

 

而现在,很可能是第二次这样规模的变化。

 

另一件让我感到兴奋的,是棋盘被彻底翻转了。尤其是我们已经形成了一些根深蒂固的格局。比如 Apple,我和那家公司有过不少摩擦。我非常期待看到 Apple 通过 App Store 以及整个移动生态所建立的那种“封闭控制”,被彻底掀翻,因为它也许将不再以同样的方式重要。

 

当然,我也并不天真到以为:只要棋盘一翻转,接下来就会迎来一个人人和谐共处的“涅槃世界”,一切都会变成开放平台,没有任何人占据主导地位。这显然不可能发生。不管最终的主导者叫 OpenAI、xAI、Google,还是别的什么名字,某种形式的集中和垄断,迟早都会出现。

 

但至少在现在,我们还处在“尚未整合”的阶段。有这么多公司同时在追逐前沿模型,却没有任何一家明显胜出。

 

就在五秒钟前,整个科技行业还准备给 Google 判死刑——“他们错过了浪潮”,“早期研究是他们做的,《Attention Is All You Need》那篇论文也是他们团队出的,但后来落后了整整九个月”,当时大家已经在谈论 Google 的衰落了。而现在,他们也许又重新回到了领先位置,至少在某些领域确实如此。

 

这种不确定性本身就让人兴奋——我们并不知道,最终谁会占据主导地位,甚至都不确定“主导地位”这种东西是否一定会出现。

 

这件事也很有意思。就在几周前,我还在推特上说,跑本地模型这件事有点“奇怪”。因为我之前试过一些本地模型,说不上什么时候,总之那时体验一般。但就在这周,我又开始重新跑本地模型,然后我心里想:“靠,我之前说的话,保质期也太短了吧。”

 

现实变化的速度已经快到:三个月前说的任何一句话,现在看起来都可能有点傻。

 

而且我真的被本地模型现在的水平震惊到了。它们当然还比不上最前沿的模型,但如果再往前看两年呢?有没有一种可能,根本不会出现一个“唯一的赢家”?赢家反而会是开放模型?最终的局面,会不会类似开源软件对后端软件世界造成的影响?

 

过去我们是有绝对主导者的。我们有过 Sun,有过 IBM,在某种程度上也有过 Microsoft。但这些都已经不存在了。整个后端世界——从 Linux 到各种数据库,再到 Ruby、Rails,以及所有这些东西——几乎全都是开源的。你再也看不到那种一家独大的绝对统治。

 

而在另一边,在前端世界,尤其是移动端,我们却看到的是彻底的垄断:只有两个赢家,Google 和 Apple。他们对平台拥有完全的控制权,而且还在不断收紧螺丝。我们唯一的希望,似乎只剩下立法或监管,而说实话,我对这条路也已经越来越悲观了。

 

所以现在的局面真的很令人兴奋——它可能朝两个完全不同的方向发展。

 

我们很可能还是会走向某种形式的垄断,因为这是面向用户的界面层。而在历史上,我几乎想不起有哪个时代,这种层面没有被“征服”过。

 

但也有另一种可能:这些开放模型会好到一个程度,以至于“谁占据商业主导地位”这件事根本不重要,你甚至不需要那种商业上的统治。

 

这真的是一个无比令人兴奋的时代。

 

“我们的产品也试过 AI 功能,但最后都没上线”

 

主持人:这挺有意思的——你正好是在这个变动时期推出新产品。HEY 大概是五年前发布的,然后最近 Fizzy 也上线了。我们特别想知道:37signals 内部现在到底在发生什么?你们到底怎么用 AI?你们做 Fizzy 的时候,用没用 AI?用到什么程度?我很想听点“细节层面的现实”,AI 在 37signals 具体怎么落地、怎么被用起来的。

 

DHH:哦,用的,当然用。我们每一个开发者都在某种程度上使用 AI。我自己每天也在用 AI。

但我也得先加一句前提:我虽然对我们即将进入的新现实非常兴奋,但我每天处理的仍然是“此时此刻真实存在的东西”。你必须学会在“ hype 的列车”和“现实的列车”之间保持平衡。

 

而在我的“现实列车”里,AI 没有在写 Fizzy(一个 Kanban 工具)。

 

AI 也没有从零写任何东西。

 

我确实用过 AI 做过各种“一发入魂”的实验——但它们通常都只停留在“一发入魂”。因为只要我进入真正的细节:要持续演进、要迭代、要打磨,我就会想:“嗯,这就是在浪费我的时间。到这个阶段,我自己写反而更快。

 

当然,AI 在另一些方面确实能大幅加速。我们在做这些产品时,也在一定程度上使用 AI。但我们并没有大量用 AI 来写 Ruby 代码。如果用 AI 写 Ruby,通常也只是“机械式翻译”——比如:“这里有个我们知道已经存在的东西,你能把它用 Ruby 版本写出来吗?” 它能给出一个初稿,有时候会稍微帮点忙。

 

AI 更有价值的地方是在我们的一些 Go 代码上,因为那里面“样板代码”更多,收益更明显。

但即便是 Ruby 和 Go 这两块,也谈不上“改变游戏规则”。

 

真正改变游戏规则的是:

  • 你想学习一个新 API

  • 你想理解一个新概念模型

  • 或者我们做实验,直接用 AI 去尝试构建“能真正带来价值”的 AI 功能

在这些方面,收益更大。

 

但我们离那种——某些 CEO(比如 Anthropic 的 CEO 那种语气)说的——“再过五分钟我们就不需要程序员了”还差得远。我就想问一句:你们到底用的是什么模型?我用的是 Opus 4.5(或者现在的版本),但那种说法完全不符合现实——至少对于“持续演进”这类工作来说,是完全不成立的。

 

我仍然保持开放心态,我也能看到那种承诺。我记得互联网在 1994、1995 年那会儿是什么状态,我当然能做外推:我们也许真的会走到那一步。也许我们会到一个阶段:人类不再编写大多数代码。

 

但如果你看 Fizzy:95% 的代码,是人类亲手敲出来的

 

主持人:有意思。真的?你们内部也这样认为?

 

DHH:你回头看 Fizzy 的整个开发历史,会更有意思。我们在 Fizzy 里做过一堆 AI 功能实验:我们试过做一个 AI 驱动的命令行,用来和卡片(cards)交互;我们也试过 AI 摘要,给一些内容自动做总结。但最后这两项我们都没有发布

 

Basecamp 也是一样:我们实验过很多不同的 AI 功能,但没有一个能达到“明显更好、用户会一直爱用”的标准,所以都没进最终版本。

 

我仍然相信未来这会改变。只是我们现在还没到那个时刻。

 

我也见过其他地方做得更成熟的案例。比如我在 Shopify 董事会,Shopify 做的 Sidekick(他们的 AI agent)——用来帮助商家搭建店铺、优化店铺——真的很不可思议。那里面有一些非常具体、非常可触达的收益,我觉得几乎无可争辩。

 

我们仍然处在一个阶段:距离“AI 让一切始终更好、更快、更省心”那种明显的拐点,还差一点。

 

也正因为还没到那个拐点,所以才会出现一些反弹——我认为其中不少反弹甚至是合理的。

因为很多人用了所谓“AI 功能”之后会觉得:“这玩意儿太烂了。”“不更好,也不更快,甚至很蠢。”

 

比如摘要。我们刚刚还提到 Apple。Apple 对新闻、短信之类的摘要,我真不知道有多少人真喜欢开着它。它在很多情况下都离谱地糟糕、离谱地错误。连 Apple 这种体量的公司都做不对,那你基本可以合理推测:很多别的公司也同样做不对。

 

不过我也想强调:最近我们确实找到了几个非常好的 AI 用例。其中一个是我们的安全漏洞赏金项目(通过 HackerOne 运行)。我们会收到海量的报告——某个研究员声称在我们的应用里发现了漏洞。我们必须处理这些报告,而现实的数学非常残酷。我们大概会收到……可能一个季度 300 份报告之类的数量。但真正“靠谱、有效、值得修”的——大概只有 3 份。

 

也就是说,真正有价值的比例大概只有1%。而这个 1% 非常重要,因为它们可能真的指出了一个严重问题,我们必须修。但为了抓住这 1%,你必须花巨大精力去验证剩下99%的垃圾——这对团队来说是巨大的麻烦、巨大的时间黑洞、巨大的烦躁来源。

 

AI 在这件事上简直太厉害了:它能在报告进来时就先处理一遍,给我们一个初步判断——“这到底是扯淡,还是不扯淡?”然后还会帮我们写回复邮件。

 

而写回复其实才是痛点的一半:当 99% 的提交都是彻头彻尾的狗屎,写这些狗屎的人还常常—— 根本不懂自己在说什么,却又特别理直气壮,还特别不耐烦,甚至还一副“你必须立刻给我 5000 美金赏金”的态度。

 

这时候让人类程序员保持冷静、不直接对他们开喷,是很难的。真的,你会很想直接骂人。

 

AI 就完全没这个负担。它特别乐意用一种非常冷静的语气写一大段回复:“为什么你这个东西不成立。”它帮我们省了大量时间。

 

主持人:有意思。所以 AI 是拿到报告之后,去看你们代码库,然后判断它到底对不对?

 

DHH:对。没错。就是这样。把这两件事结合起来。

 

主持人:听起来需要一点技巧:拿到安全报告,很多是垃圾,但到了某个层级,你确实得打开代码去确认“这到底是不是真的”。

 

DHH:以前要看 100 份报告,现在可能只要看 5 份——这就是真实的生产力提升。就算你最后要看 10 份、20 份,只要你能把原本 100 份的工作压缩到 20 份,这就是 AI 承诺的生产力收益。如果我们能把这种压缩能力用到业务的其他方面——那简直太好了。这也是为什么我们一直在尝试把 AI 用在一些具体环节上。

 

另一个我们断断续续尝试了好几年的方向是客服支持(support)。但 support 很微妙:如果你只能 90% 正确,那其实很糟糕。因为这意味着你会有 10% 的概率把事情说错——而且是对着客户说错。你如果给客户一个完全错误的答案,让客户体验很差,客户可能就直接流失了。

 

那这个客户的终生价值是多少?

 

你以为 AI 带来的那点“节省成本”,可能瞬间就被一次流失抵消得干干净净。我们上一次认真测试让 AI “做完整客服链路”,大概是 18 个月前左右。效果不太行。但一切都在飞速变化。我知道 Intercom 有一个叫 Finn 的 AI agent,采用得很好,看起来我们也确实该再试一次。

 

而这又回到我最初的那种兴奋:一切变化太快了。

 

有些人会觉得这很让人迷失方向,我觉得这也是很多焦虑的来源。但如果你像我一样,只是单纯喜欢看计算机变得更强大——那现在真的就是一场大戏。坐在第一排,实时看它发生。

 

我们从“那个吃意大利面的人”——看起来像噩梦一样的生成图——走到了今天这种几乎不可区分的输出。接下来,我们很可能会在更多领域看到同样的跃迁。你得保持一种“敬畏感”和“惊奇感”。

 

如果你此刻身处这个行业,和计算机打交道——你的“惊奇感”就是你的安全绳。它能对冲焦虑,对冲不确定性,让这一切变得可承受。

 

当然,我们并不能消除不确定性和焦虑。比如:我的工作三个月后还存在吗?这种焦虑非常合理。但你可以用惊奇感来对冲它:“这些硅做的小东西也太聪明了吧。”

AI 时代,为什么你发布的产品别人看不见?

 

主持人:它们真的很神奇。这就引出了一个更大的问题:软件商业模式的未来到底会怎样?这确实很神奇,但也真的太不一样了。你能不能展开讲讲:创业公司会走向哪里?软件产品会走向哪里?软件工程师会走向哪里?未来到底会怎样?

 

DHH:有一点我现在非常确定:今天发布一个新产品,从“把它做出来”的角度看,是史上最容易的。AI 让构建更容易;工具史上最好;Ruby 和 Rails 也从未如此成熟。对所有人来说,这都很棒。结果就是:市场被海量新产品发布淹没了——永无止境的“上百万、上亿级别”的新发布。

 

这就是你现在要面对的现实。门槛被降低了。而我不确定所有人都会在“轮到自己发布时”还为门槛降低而兴奋——因为你一发布,可能就是一片寂静,连个回响都没有。我们刚发布 Fizzy,算是一次不错的发布,但它并没有像我们历史上某些发布那样“声量巨大”。

 

这当然不只是 AI 的原因,还有社交媒体算法的原因。以前,我在 X(Twitter)上有粉丝,他们就能看到我发的东西。但现在,你会发现:X 上正在发生 Facebook 在 2010 年左右发生过的那一幕——你有粉丝,但你触达不了他们,除非你付钱给平台“买触达”。

 

但现在甚至都不只是“付钱”这么简单。问题变成:我甚至都看不到我合伙人 Jason 的推文了。除非他发了一条“爆款(banger)”,爆到病毒式传播,否则他的内容就不会出现在我的 For You 页面里。一切被压缩成了“你能不能发出爆款”。

 

拥有大量粉丝这件事的价值,被严重稀释了。我在 X 上有五十多万粉丝——这在我发一些犀利观点、能引起传播时依然好用。但当我想发“右勾拳”(也就是营销、转化)的时候,它不再提供过去那种收益。当然,这种变化也不全是坏处。现在小账号也可能爆:就算你只有 10 个粉丝,只要你发了一条爆款,算法也可能把你推上去。算法选赢家和输家的方式,反而让那些没有花 20 年积累粉丝的人受益。但这真的好吗?我大概发了 7 万条推文——这真是离谱。但 18 年下来,这些投入几乎没有“可积累的剩余权益”(residual equity)。

 

我不确定这是不是我们长期想要的生态。但可以确定的是:对我们的营销方式、产品发布方式来说,这已经是一个全新的世界。

 

我们公司现在的阶段是:我们能承受“靠一靠、观望一下”,说一句“挺有意思”。但如果你还处在“必须打出名气”的阶段,你肯定会更焦虑。因为以前那套打法,已经不像过去那样奏效,你得发明新的东西。

 

事实上,这种认知直接影响了 Fizzy 的发布策略:我们承认——你不能再用老办法发布产品了。你手里的名单、你已有的受众,不可能再用“传统方式”被激活。你需要持续不断的“滴灌”:一滴、一滴、一滴。

 

如果我们希望 Fizzy 这个品牌能在用户心里留下印象,以至于当他们遇到我们要解决的问题时,会想起它、会去 fizzy.do,我们就必须设计一种策略,让我们能一直这样做下去。这也部分解释了为什么我们从一开始就把 Fizzy 开源。

 

把 Fizzy 从发布第一天就开源——

  • 对所有想学习“生产级 Ruby/Rails 应用如何构建”的人来说,这是一个巨大的礼物;

  • 同时,对我们来说,它也给了我们一个“更频繁谈论 Fizzy 的许可”。

 

现在社交平台上,纯商业化的转化号召(call-to-action)越来越推不动。以前它传播力也一般,但好歹还能“硬塞”一下——那就是所谓的“右勾拳”。现在右勾拳打不出去,你就得换一种卖法。我目前觉得最管用的策略,是把“给价值”和“求转化”合成一拳:轻击(jab)和右勾拳(right hook)不再分开打,而是同一条内容里同时完成。

 

比如我会发:“Fizzy 里有个很酷的小功能——可能是我们做的,也可能是社区做的,或者我只是想提醒你注意到它。”这条对开发者有用;与此同时,我也顺势把品牌名反复露出来:Fizzy、Fizzy、Fizzy……品牌就是靠重复进入脑子。

 

关键是:重复仍然有效,但必须绑着价值一起出现。光当“慷慨的好人”持续免费输出已经不够了——你得把输出和你正在做的产品强绑定。这就是我们现在的打法。当然规则也可能随时被改写,但就此刻来看,这就是现实的游戏规则。

 

主持人:你说“现在你只要把东西做出来就行”,这句话听起来很有趣,因为我觉得你以前不会这么说。你从一开始就很重视营销——从最早的 Rails demo、到各种“挑衅”、到你如何推销愿景……你一直都在想怎么卖、怎么讲故事。但现在市场被淹没了,好像营销反而变得更重要。

 

更巧的是,我们内部也在聊类似的事。我们在做 AMP(我们在做一个 coding agent),我们内部一直说:现在外界没有太多“强烈的 OTE”(那种外溢式的注意力/势能)。我们想做的是:用一个故事把人“拉着走”——告诉他们我们在这个动荡的时代学到了什么,让他们产生一种感觉:“如果你跟我们走,门是开着的;如果你跟我们走,我们会分享我们学到的东西。”这不是那种“社交媒体上再来 10 个小贴士”的套路,而更像是:“我们一起干这件事。”

 

而你刚刚说的,正好对应了很多人最近在讲的: “爆款发布(big launch)这套已经不灵了。”Product Hunt 死了。Hacker News 的 launch 也……

 

而且我认识 Fizzy,就是因为 Jason 一直在 X 上做这些小 screencast:“现在进展到哪了”、“这里出了一些 X 问题”、“这里哪里又崩了”。我会偶尔刷到它们,可能是 Grok 或者算法觉得我会喜欢。但我的感觉是:我被“拉着走”了——像在跟着你们一起把产品做出来。所以我后来才注意到:噢,原来它上线了。

 

DHH:你说得对,这确实是我们这个时代发生的巨大变化之一。我记得我们在 2006 年写《Getting Real》(那本书)时,我们谈过“爆款发布(blockbuster launch)”这套模型:先放 teaser(预告),再放 trailer(预热视频),最后来一个 blockbuster launch(大爆发)。

 

这套模型已经死了。爆款不再发生。因为我们已经没有共享文化了。没有共享的事件。我们只有每个人各自的个性化信息流——正如你说的,算法之神决定:今天给你投喂哪一小块“刚好合适”的东西。所以,一方面,你必须“灌满渠道”(flood the channel)。

 

另一方面,也有个有意思的反面:以前我会更克制,比如提醒自己别发太多推。有时候我会突然进入那种“多条意识流同时开喷”的状态,但在过去你会想:“哎,我今天已经发第七条了,会不会太多?”

 

现在这种限制不存在了。你一天发 100 条都没关系。因为你不会“淹没”任何人的 For You 页面——算法会替你处理。而你发得越多,你就越有机会让一些小种子落地、生长、发芽。你还需要更长的周期。

 

爆款发布以前的核心逻辑是:“就在这一天,我们发布,然后所有人都在这一天关注。”现在不会了。大家不会在同一天关注同一件事。但随着时间推移,如果你把“发布”理解为:一整个季度、或者一年、甚至某些情况下是一整个十年——你依然可以做“分步骤的搭建”,依然能起作用。因为营销的底层真价值仍然成立:口碑传播、故事激活、好产品、好钩子——这些依然有效。

 

只是,它变得慢得多。你不会再看到那种巨大峰值,然后被“发布日的高潮”爽到。某种意义上,现在的发布没有那个“超级尖峰”了。当然,很多人本来也从来没有过“超级尖峰”,因为大多数发布都什么也不会发生——失败一直是常态。但我现在更强烈地觉得:你越来越难“工程化制造一个爆款”。

 

这个夏天我又学到(或者说被提醒)了一点。我在做一个项目叫Omarchy——一个 Linux 发行版。我做得很开心。当我推进它时,我从营销角度体会到:如果你不断分享项目进展、再配合一个疯狂的发布节奏,价值非常大。

 

我记得第一个月我做了大概 40 次发布?简直离谱。节奏快得惊人,整个过程一直都充满了不确定性,所以特别刺激、特别带劲。这让我可以连续三个月“轰炸”所有人的信息流。更有意思的是:人们明明意识到自己在被轰炸,却仍然无力抵抗。我收到过无数条推文,大意都是:“行行行,我第 17 次听说 Omarchy 了,我服了,我试一下。”“我投降,好吧,我装。”这又回到了营销最本质的东西:重复。

 

有一个老的经验法则(我也不知道现在是不是过时了):你需要听到一个品牌七次,它才会在你遇到问题时被激活——你才会想起它能解决什么。所以我当时就是在努力让尽可能多的人“听到七次”。同时我也在做 Jason 说的那个:enthusiasm transfer(热情迁移)——把创作者的兴奋感转移给别人。这一直是营销的一部分,但现在比以前更重要,因为营销越来越“人格化”。

 

我们还发现:社交平台从来就不怎么喜欢公司账号,但现在它们几乎把公司账号都“幽灵化”了。我们公司账号发什么都没用:从 37signals 发,没人理;从 Basecamp 发,也没人理。一片寂静。然后我看到一些“巨型媒体账号”——几百万粉丝那种——表现也一样惨。这就是算法:它现在真的讨厌品牌账号。除非你是那种“神级品牌账号”——有账号运营团队,能自己成为内容源。

 

但另一部分也让我们意识到:这游戏即便对我们而言仍然很残酷——而且很耗人。这种耗人让我想起我听一些 YouTuber 讲过的东西:如果你是 influencer(网红)、content creator(内容创作者)——这俩词简直是现代词汇里最让我厌恶的词之一——你就会被迫持续生产内容。

 

你维持曝光的方式只有一个:不停输出、不停输出、不停输出(chop chop chop)。以前还有一种“喘息”:你做完 teaser、trailer、爆款发布,然后你还能休息五分钟。现在不行了。那种节奏不存在了。所以一切的速度被推到一个夸张的程度。说实话,我很庆幸我现在不需要“去攒人生的第一桶金”了(笑)。

 

主持人:我们最近也在高频发东西:过去 10 天我们写了 8 篇 release post。这和你做 Omarchy 的方式很像:你需要重复。但那种 5 年前的“空洞重复”已经不行了——比如:“两天前我们大发布,记得吗?”“一周前我们大发布,记得吗?”这种完全没效果。你必须一直有新内容,否则算法不推。节奏太夸张了。

 

而在我们这个做 AI agents 的领域,你还会被大模型厂商不断“催更”——他们两天发一个新模型,用户两天后就来问:“你怎么还不切?怎么还没上新?”所以现在疯狂的事情特别多。

 

我的问题是:你写过《It Doesn’t Have to Be Crazy at Work》(工作不必这么疯狂),但现实已经如此——这在实践中到底怎么改变软件开发?你一直是小团队、小公司路线的拥护者。 但现在如果你想让产品成功,你好像必须把一天切成两半:一半写代码,一半发推、做内容、做传播、分享进展。你觉得这会怎么影响未来的软件开发者/软件公司?营销和软件是在融合吗?

 

DHH:我一直都说:这些东西本来就是一回事。“Marketing is everything(营销就是一切)”——这是《Rework》里的一章。而“everything”真的就是一切:软件、发布、客服、那些乱七八糟的推文、写作、播客……全都是。我们这么干已经 25 年了。但我同意:现在的节奏、算法的胃口,确实到了一个“无底洞”的程度,这种感觉以前没有这么强烈。不过我也觉得:这可能就是竞争加剧的样子。

 

当年我们做 Basecamp 的时候,行业比现在小太多了。那时做 Web 产品的团队少得可怜,以至于我们能关注到每一次发布。后来进入 Product Hunt 时代,你至少还能“一天看一个新东西”。现在结束了。

 

甚至 OpenAI 发一个新模型——那可能烧了 4 亿美元——它也只能获得几个小时的峰值关注与兴奋。

 

所以,它在很多方面变得更难了。可另一方面,基本面依然没变,你得小心别被这些压力带着跑偏。做有趣的东西、做值得讲的东西——这带来的杠杆还在。

 

你要“脱颖而出”的难度变大了,因为参与者更多了。

 

但只要你真的突出,注意力仍然在那里。注意力并没有从系统里被抽走。甚至可以说:注意力比以往更多,因为参与系统的人更多了。

 

这有点像 Spotify。你总听音乐人抱怨 Spotify 付得太少,但你再看数据:音乐产业的规模依然很大,甚至更大,而且在很多情况下,更多收入是直接流向音乐人(因为他们不再必须签那些苛刻的发行合约)。

 

所以一部分现实就是:我们在抱怨“事情太美好了”,但又没有人真的开心。

 

有个段子讲得很好:“一切都很棒,但没人开心。”我觉得这确实说中了某种人性。事情确实很棒:越来越多人能更快地做出东西。而这自然会带来更多竞争。资本家最讨厌的一件事是什么?是竞争。这就是那个系统最大的讽刺。我们都在拼命挖“护城河(moat)”。但护城河是用来挡谁的?不是挡“龙”(Not dragons)——是挡竞争对手。

 

竞争对手,这才是护城河真正要挡的东西。这个隐喻本身也很有趣:你会想,那它把谁“圈”在里面?客户?你在护城河里放鳄鱼,让客户别游出来?这个隐喻挺自利,也挺资本家叙事的。但无论如何,我玩这个游戏,也乐在其中。同时我也很高兴——现在我比过去任何时候都更清楚地知道:我对“什么真正有效、什么无效”的确定性变少了。

 

一直以来,很多东西本就是谜。比如我们 2004 年发布 Basecamp,它一路成了现象级成功,今天仍然成功。

 

我经常会想:为什么?为什么偏偏是 Basecamp?在我 25 年的职业生涯里,我做过很多东西,但没有任何一个产品层面的命中,能像 Basecamp 这么“正中靶心”。我至今也不完全明白原因。尤其是现在,Basecamp 所在的领域竞争者多得多。但每周仍然有成千上万的人注册一个新的 Basecamp 账号。每周我都会想:这怎么可能?怎么会每周都有几千几千人来注册?

 

这一直是个巨大的谜。

 

我觉得这种谦逊非常重要——无论你在做产品、还是在做营销,你都要记住:你不可能了解一切。你不可能确切知道什么有效、什么无效。你能做的,是去尝试很多东西,然后得到一些迹象、一些推力、一些暗示:市场想要什么、算法想要什么、客户想要什么。

 

但你不可能制定一套“主战略”,并指望它具备可重复的复刻性。即便是在一个高度“爆款驱动”的行业——比如我刚刚提到的音乐行业——也没人真正搞明白。的确,有些人比别人更擅长做出爆款,但也没有谁掌握一套公式:“照着这套流程,我们就能稳定生产爆款。”商业也是一样。

 

只是现在曲调又变了。你可以因此沮丧:“我以前那套把戏不灵了。”也可以因此兴奋:“什么?那我更迫不及待想学习——现在到底什么才有效!”我也接受一个现实:我不可能永远拥有过去拥有的一切。世界不是这样运作的。

 

“独立开发者”之梦没变:核心还是“一个人也能干”

 

主持人:我感觉我们好像回到了 2004 年。我记得你发布 Basecamp 的时候,你在 YC 还是哪里做过一个演讲,你当时大意是说:如果你有个想法,然后能找到 1000 个客户,每人每月付你 25 美元,你的人生就彻底不一样了。那次演讲就是我决定辞掉 Web 开发工作、去做 Dropsend 的起点——也开启了我整个职业生涯。

 

我觉得我们又回到了那种状态:现在你真的可以有一个想法,甚至可能是“一人团队”。所以,我们现在是不是就处在这个阶段?还是说,所有 indie hackers(独立开发者)最终都会被“吃掉”?这难道不是好事吗?

 

DHH:我也觉得这是好事。而且这里还有个讽刺点:我 20 多年来一直在讲——开发者生产力真的重要

 

这就是 Ruby 和 Rails 的核心前提:你不需要一个八人团队,你一个人也能做出来。Rails 从一开始就试图成为“单人开发者的框架”,而且我认为它在这件事上比几乎所有框架都做得更成功。

 

而我们今天对 AI 兴奋的原因也一样:我们对小团队能获得的杠杆感到兴奋,因为 AI 能做很多事。

 

有一个根本事实没变:当你降低实验成本、降低构建一个“值得做的东西”的生产力成本时,你就会有更多“射门次数”(shots on goal)。

 

Ruby + Rails 能做到这一点;AI 也能做到;甚至更好的是:AI + Ruby on Rails 一起做到。

但我不确定游戏的本质在这点上发生了根本变化,也许只是变得对更多人可及了。

 

我觉得这大概率是好事——不,只能说:这就是好事。我们应该从“对人类整体有什么分类级别的好处”来理解:对全人类而言,难道不是更好——我们有更多实验吗?即便最终“命中并变成可持续商业”的人,可能比例更低(我甚至不确定这是否属实,但先这么假设)。

 

而作为一个文明整体,我们最终仍然会在更多类别、更多细分领域里,更快地获得更好的软件。问题的一部分在于:无论是 Web 开发圈,还是独立开发者(indie hacker)圈,很多讨论都过于短视地集中在那些我们一直反复折腾的“通用大类”上。

 

比如待办事项应用。好吧,我职业生涯里大概已经做过七个了,而全球可能已经有二十亿个同类产品。最后真正成功的,可能也就那么几个,剩下 99% 都失败了。

 

但你知道吗?你有没有试过给美发沙龙做软件?他们可没有一万种选择。有时候,他们甚至几乎没有任何选择,除了那些“狗屎一样”的系统。那种三十年前做出来的烂软件,出自一些对“好软件”毫不在意的人之手。所以,如果你愿意跳出这些吸引了绝大多数人的大而泛的领域,其实机会依然多得很。

 

颇具讽刺意味的是,我自己长期以来恰恰以“不去碰这些方向”为傲——只解决我自己的问题。因为我觉得那样更简单,而且也确实如此:当你解决的是自己的问题时,你立刻就能判断你做出来的软件到底好不好。

 

这并不意味着它一定会成功,但至少你有了第一道过滤器。如果让我去给美发沙龙做软件,我其实并不知道什么是好、什么是坏,我得不停地去问别人:“你们怎么看?你们给我什么反馈?”老实说,我不确定自己是否适合为了正在构建的软件,去进行这么多和他人的互动。

 

但我认为,对那些愿意这么做的创业者来说,机会是非常多的,而这其实也是大多数人。只要我们稍微把视野放宽一点,不要总是说:“天啊,现在再做一个新的待办事项应用太难了。”因为这个领域在过去三十年里,已经被来来回回地“薅”了大概五十亿次。

 

但你往外看——就只要离开它五米远——到处都是一大片未被开发的绿地。真的,到处都是。

 

DHH 说 95% 代码是手写的,但他又天天用 AI

 

主持人:David 你说 Fizzy 95% 的代码还是手写的,对吧?你每天都在用 AI。但对我来说,今年正好相反:我现在大概 90% 的代码都是 AI 写的。所以我的疑问是:如果你说你不怎么用 AI 写代码、或者 AI 不替你写代码——那生产力提升到底从哪里来?尤其对一家小公司来说,比如给美发店做软件,它不需要庞大的客服团队,也不需要很多外围部门,核心就是把软件做出来、交付出来。所以你觉得 AI 让软件开发更快的关键在哪里?

 

DHH:我说说我自己的体验——从这波 AI 开始我就一直在用。

 

我的生产力提升,主要来自:它让我更强、更聪明、更快——

  • 更快上手新 API、新技术

  • 更快理解新概念(我会让 AI 解释给我听)

  • 更快找到“为什么这个 bug 会这样”的正确线索

 

比如 Omarchy 这个项目,如果没有 AI,它就不会存在。我不会有耐心去 Linux 论坛里翻半天,去解读那些晦涩的错误信息到底是什么意思。这对我来说不可能。

 

AI 带来的巨大提升,是给了我一个地方,把错误信息贴进去,然后得到比那种居高临下、还过时三年的 Stack Overflow 回答更好的线索。

 

收益巨大。真的巨大。

 

还有我需要读某个东西时、学习某个东西时,它也很有帮助。举个快例子:我们最近把 Rails 的 CSRF 防护机制改了——从以前“把 token 放进 cookie”的方式,改成使用现代浏览器的新特性:通过一个 header 来做。

 

我可以直接问 AI:“那个 header 是什么?”“什么时候开始支持的?”“具体有哪些细节?”这些答案我当然也能手动查:去 caniuse.com、看历史、查 RFC……全都能做。但 AI 能把这些东西一盘端上来,整合在一起,省事又快。

 

“AI 只是让我变聪明了”

 

我能更快学到更多东西。而这正是我真正喜欢的地方:不是让 AI 替我做事,而是用 AI让我更聪明

 

当然,这种模式未来未必会成为主流。

 

就像你说的,你已经让 AI 写很多代码,甚至多数代码。我完全准备好在某个时点,我也会进入那种状态。

 

但就现在而言,我仍然在意代码的样子。我在意它的美感。我在意打磨、推敲、润色。

 

这可能是一种“奢侈”,有点像现代的马鞍匠:他会在意字母压得是否刚好、针脚是否完美。你可以说:“但你已经不是交通运输的主力生产体系了。”我会说:那又怎样?只要我还享受,我就会继续做我手写代码的“马鞍”。

 

而且我也意识到:这种模式目前仍然是有竞争力的。

 

在 37signals,我们并不觉得自己在产出能力、发布能力、改进能力上落后。因此我对一些说法保持怀疑:“AI 已经强到可以把标准 SaaS 公司的一半程序员裁掉,还能跑得更快。”我没看到。

 

我当年也用同一套“根本测试”来审视云计算:“我们能不能用更少的人、花更少的钱,做更多的事?”我们几年前退出云,就是因为这个测试没有通过。而且我也不太听说这个测试在别处通过过。云计算并没有让你把运维团队砍半、把基础设施预算砍半。很多时候恰恰相反:上云之后团队规模翻倍,账单翻四倍。

 

主持人:你们切换之后是不是省了类似每月一百万美元?很夸张的数字?

 

DHH:我们现在大概是一年省200 万美元。我们云预算峰值大概是 340 万美元,现在的持续成本在 100 多万美元左右。所以在成本上,节省非常巨大。

 

这和 AI 有一些相似之处——不完全相同,但有相似之处:我觉得现在很多人在用 AI,脑子里觉得自己“好高产”,但他们其实交付更少、做出来的东西更少,甚至理解得更少。

 

“Vibe Coding”的风险:能力会从指尖流走

DHH:AI 还有另一个因素:当我尝试“氛围式写代码”(vibe coding)的时候——尤其在一个我还没完全内化的新领域——我能明显感觉到我的能力在从指尖滴走。

 

我刚开始做 Omarchy 时,写了很多 bash。我以前从没系统写过大量 bash,最多就是命令行里用用。然后我发现自己一次又一次问 AI:“某个 if 条件到底怎么写?”

 

这时你就会想:“为什么我没有内化这件事?我没内化,是因为我把它外包给 AI 了。”那这样更好吗?我现在更划算了吗?还是说,我跟当年那些老师一样天真:他们以为有了计算器,学生就不需要背乘法表了?不对。如果你不能迅速在脑子里算出 7×7,你真的会把自己变成傻子。

 

主持人:那你有没有形成一种直觉:该在哪里划线?你不可能知道一切,对吧?你也会把你不会的事交给信任的同事去做,你不会因为让同事设计某个东西就觉得“能力在流失”。你能接受:“这事我不需要会 / 我不想会”。那在 2025 这样疯狂的一年里,你有没有更清晰的边界:哪些你想自己掌握、哪些你可以忽略?比如 bash。为了推进 Omarchy,你觉得 bash 该学到什么程度?又有哪些可以不学?

 

DHH:我觉得我得会几乎全部,除了怎么在 bash 里搞数组(笑)。因为 bash 里数组那玩意儿复杂得离谱,简直反人类。但我其实认为:人类大脑是个很惊人的器官,它不会像 LLM 那样“容量到顶就装不下”。我们用得越多,记忆和能力的“配额”会增长。

 

所以我真正担心的趋势是:随着时间推移,我知道得更少、我变得更不胜任。我需要一条向上增长的移动平均线。

 

我不需要把所有领域都吞进去——我不需要什么都懂。但一年结束时,我应该在更多领域懂得更多。如果我不在这种上升轨道上,我会无聊。我无聊就会没动力。没动力我就什么也不干。这也是 AI 讨论的一部分:我们得想清楚,我们真正享受这套方程式里的哪一部分。

 

我个人不享受当项目经理。我会做——而且不止偶尔——因为我想要“组织一群人”能产出的结果。

 

但当我看 AI 这件事时,我不想当一群 AI agent 的项目经理。那不是我想要的状态。

 

我喜欢写代码。而至少在此时此刻,这是一个仍然有竞争力的选择。

 

当然,这可能三个月后就变了;下周就变了;随时都可能变。但 AI 公司那些领袖已经预言“再过五分钟就结束了”预言了很久了——现在也没结束。

 

你看 AI 公司自己,它们也还在招聘大量程序员。

 

我们并没有到 AGI,没有到那种“人类写代码的时代死了”的程度。

 

这并不否认你说的:有些程序员已经觉得自己大多数代码都让 AI 写了。但至少在市场上——按我看到的情况——还没有出现那种“压倒性差距”,就像:一个公司用马车送啤酒,另一个公司用卡车送啤酒。那种经济差距会非常快把前者淘汰。我还没在 AI 身上看到这种情况。也许数据有滞后;也许已经发生了——我仍然怀疑。

 

即便我在长期上是极度“AI 乐观派”,但就当下,我没看到。

 

有时神得离谱,有时烂得没法维护

 

DHH:而且原因之一是:我每天都在“盯”着它。我一直在问 AI:你能给我写这段代码吗?

它会写。然后我会想:“不,我不喜欢这个。”“我甚至不想维护它。”“它做得还不如大多数初级程序员会被要求做到的水平。”

 

但偶尔,它也会给出另一种答案:我问它一个东西,它拼出来的结果让我震惊:“它怎么知道的?它怎么能把这些全部串起来?”那真的很惊人。

 

所以我感觉它像一个闪烁的灯泡:你在完全黑暗里,它突然一闪——你觉得“我什么都看见了”。两秒后,啪,又全黑。如果你能让这个灯泡稳定下来、一直亮着——那对人类当然是巨大的福音。

 

顺便说一句,我很喜欢美国的一点就是:美国把这个“闪烁灯泡”当成一种信仰——相信我们能把它变可靠,能到 AGI。现在大家就是一场巨大的押注:押注这一定会发生。即便我这么 AI 乐观,我仍然会对这种规模的“集体确信”感到惊叹:一个经济体一起说: “不管花多少代价,100 万亿、1000 万亿,我不在乎,我们一定能到那里。”我会想:这也许就是为什么它会成为“第一名”。

 

主持人:确实是个令人兴奋的时代。就像你说的——能活在此时此刻本身就是一种奇迹。我们也差不多到一小时的时间上限了。今天能和你重新连上线真的很开心,感谢你抽时间来。你现在也在忙 Fizzy。要不你简单跟大家说说:Fizzy 是什么?在哪能了解更多?然后我们就收尾。

 

DHH:当然。Fizzy 在fizzy.do。它是对 Kanban(看板)的一个全新诠释。这里还有个小故事:Jason 特别擅长解释“为什么值得回头重新解决一个问题”。

 

Kanban 这个概念来自 50 年代,是丰田为了管理生产线提出来的。后来我们把它做成了软件。第一代软件化的版本大概是 2000 年初。再后来 Trello 出现,把这个领域彻底带火、带爆。但我们还是回到这个领域,说:“你知道吗?我觉得我们还能做一个更好、更舒服的版本。”

 

很多人很难理解软件这件事:明明一个问题领域已经有很多玩家了,为什么你还要进去?原因可能只是:你想做得更好、更有趣、更轻量、更丰富多彩、更令人愉悦、功能更少——这些带着“爱”的细节,我们都烘焙进了 Fizzy。而且我们把它定价得很便宜:1000 张卡片免费,之后是 每月 20 美元。同时我们也把整个代码库开源了:如果你想自托管(self-host),你可以免费用。服务器我们不替你付,你自己折腾就行。你也可以贡献代码,也可以从中学习。

 

做 Fizzy 是一件很快乐的事,而且它也像一个实验室。我们现在正在做 Basecamp 5。我们在 Fizzy 上尝试了很多新技术——不管是编程层面还是产品层面——我们会把最好的想法带回 Basecamp 5。如果你关心我对这些话题(或任何话题)的观点,你可以去 dhh.dk,我的东西都在那。

 

主持人:太棒了。很高兴你来做客,也迫不及待想看未来会发生什么。感谢你的时间,我们下期再见。

 

参考链接:

https://www.youtube.com/watch?v=uWqno4HM4xA

https://www.reddit.com/r/ClaudeCode/comments/1qhiicv/the_creator_of_nodejs_says_the_era_of_writing/

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈指可数的 “明星企业”,OpenAI 不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡,还需承接外界对其技术突破的高期待。面对 “开创下一个 AI 技术范式” 的巨大压力,OpenAI 将采取怎样的策略破局?

最近,OpenAI 首席研究官 Mark Chen 在播客节目中,与主持人 Ashlee 细致分享了 OpenAI 在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro 已在取得的科学发现。基于该播客视频,InfoQ 进行了部分删改。

核心观点如下:

  • 一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。

  • 成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

  • 未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

  • 完全冻结研究部门的新增人头,如果团队想招人,就必须自己决定谁不再适合继续留下。

目标是找到“下一个范式”

Ashlee:“人才争夺战”最近引发了大量关注,外界普遍认为 Meta 的动作非常激进。你能具体谈谈这种你来我往的竞争现状吗?

Mark:整个行业的人才池其实很有限,大家都知道最关键的资源之一就是顶尖人才。Meta 的积极挖人并不令人意外,但我们也没有袖手旁观。媒体往往强调“人才单向流向 Meta”,但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前,先后接触过我近一半的直接下属,但这些人全部拒绝了他们。当然,如果 Meta 每年能投入约百亿美元用于人才,他们总能挖到一些人。但总体来看,我们很好地保护了核心人才。

竞争过程中也发生过不少颇具戏剧性的事:扎克伯格曾亲自给我们团队成员送去他亲手熬的汤,以此示好。当时我非常震惊,但后来也理解这类方式确实可能有效。之后我也给从 Meta 挖来的对象送过汤,甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句,我自己并不亲自熬汤,米其林餐厅的汤当然比我做得好。

但真正让我有信心的是:即使面对 Meta 的高薪挖角,在 OpenAI,无论是来自 Meta 的员工,还是我们原本的研究人员,都没有人认为“AGI 会首先在 Meta 诞生”。他们对 OpenAI 的研究路线都有高度信心。我也一直非常明确告诉团队,我们不会与 Meta 进行“薪资逐美元匹配”的竞争。在远低于 Meta 的薪酬下,关键成员仍然选择留下,这让我更加确信:他们真正相信 OpenAI 的未来。

Ashlee:在这种竞争中,有没有类似“博弈策略”的考虑?

Mark:关键在于:目标不是留住组织内的每一个人,而是认清必须保留的核心力量,并确保他们留下来,我们在这点上做得很好。

Ashlee:在我看来,Sam 是真正沉浸于研究的那个人,是最顶层的决策者。而你和 Jakub 负责共同制定 OpenAI 的研究方向,同时你还要决定算力如何分配到具体项目上,既要决定公司往哪里走,又要管理执行路径。听起来像是一份非常艰难的工作,因为我想象得到大家会竭尽所能从你那里争取 GPU。

Mark:确实如此。人们为了获得 GPU,会想尽各种“幕后交易”。但这确实是我职责的重要部分:确定研究优先级,并对最终执行负责。

Jakub 和我每隔一两个月会做一次“项目盘点”,梳理一份包含约 300 个项目的大型表格,尽可能深入了解每个项目,并对它们进行排序。对一家约 500 人规模的组织来说,明确“核心优先级”,并通过口头沟通及算力分配来传达,是非常重要的。

Ashlee:这 300 个项目里既有大型前沿模型,也有各种实验性方向。你们如何管理、追踪并判断哪些项目值得投入 GPU?

Mark:关键在于始终聚焦核心路线图。与其他大实验室不同,OpenAI 始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果,也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”,并愿意投入大量资源。很多人可能会惊讶:我们的算力大头,其实花在“探索”上,而不是训练最终的成品模型。

Ashlee:所有团队都会说自己的项目最重要、最值得,怎么判断优先级?

Mark:最困难的决策通常是:我们无法在当下为某个项目提供支持。但成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

Ashlee:你们也强调不要“对竞争者做出反应”。如今 AI 领域的竞争比以往都激烈,你们如何保持独立判断?

Mark:现在的 AI 研究竞争确实空前激烈,但不能陷入这种竞争节奏。你随时可以发布一个小更新,在几周或几个月内领先别人,但这种方式无法长期维持。真正重要的是“破解下一个范式”。

例如 RO(reasoning optimization)项目,我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎,因为大家都觉得预训练和后训练机制运转良好,没必要做别的。但现在,“思考能力”已经变成不可或缺的基础能力。

我们的使命就是大胆押注,并构建足够强的算法,使它们能扩展到未来数个量级的算力。

研究员 vs 工程师

Ashlee:随着 OpenAI 成为一家有明确产品线的公司,你们如何不被“商业优先”压过“研究优先”?

Mark:OpenAI 最特别的地方在于:我们仍然是一家“纯粹的 AI 研究公司”,这点在业界非常罕见。我们以非营利形式创立,我加入时公司仍是非营利组织,那时的精神是“全力推进 AGI 研究,并保证安全”。我认为这依然是创造价值的最佳方式:只要研究领先,价值创造自然而然会发生。我 2018 年加入时的那种“核心文化”,至今依然存在。

Ashlee:马斯克曾说:“这帮人不是研究员,只是在做工程。”你怎么看?

Mark:在构建大模型时,优化每一个百分点、加速每一个 kernel、确保数值稳定,都是极深的工程实践。如果把研究凌驾于工程之上,其实已经输了。一旦缺少工程能力,就无法在当今这种规模的 GPU 上运行模型。

Ashlee:但外界确实把“研究员”和“工程师”赋予了不同的神秘感。

Mark:研究人员形态各异,有的人每天都有无数想法,其中很多并不好,但总能在某个时刻提出改变方向的优秀点子,而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作,因此也无法简单划分为某种刻板印象。

Ashlee:当竞争对手发布新模型,你和你们团队会做什么?大家会第一时间去试吗?有没有你们常用来测试新模型的“那一道题”?

Mark:会。以 Gemini 3 为例,它是个不错的模型。

但我们内部其实有能力相当的模型,而且快要发布了。

Benchmark 只能说明一部分,大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测,目前还没看到模型完全解出来,就算是“thinking model”也不行。

Ashlee:是秘密题目吗?

Mark:不算,不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题,叫“42 problem”。你要构建一个 mod 42 的随机数生成器,你有的原子操作是一些模 42 以下素数的 RNG,你要让期望调用次数最小。挺可爱的题目,但还没人类语言模型做到最优。

Ashlee:我原本以为你会在对手发布模型当天半夜就冲上去丢题测试。

Mark:没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力,把整个团队的肌肉练起来,做出现在能跟 Gemini 3 一较高下的模型。

Ashlee:所以你现在更关注长线构建,而不是每次新品发布就冲去试题。

Mark:对的。

Ashlee:我知道你和 Jakub 都有竞赛背景。我当初第一次见 Jakub 是在 Facebook Hacker Cup。你以前也是数学比赛选手吧?

Mark:对,我从小学、高中都在做数学竞赛。不过我真正写代码很晚,是大学室友怂恿的。当时我还有点数学系学生的傲气,觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了,而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛,算是朋友间的活动。后来我发现自己还挺有天赋,又开始给美国国家队出题、最后去带队。既是激烈比赛,也是一个紧密社区,大家之后都会在科研界再相遇。

Ashlee:那你这么忙,还能当教练?

Mark:其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研:有好时段、有坏时段,你不能因为连续失败就被心理打倒,很大部分是士气管理。我最近在带模型做竞赛题时也发现,模型的“难度直觉”跟人完全不同,人认为 ad-hoc 的题模型反而容易。这让我更相信未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

Ashlee:有点像 AlphaGo 的“Move 37”时刻?

Mark:是的。我觉得 GPT-5 Pro 发布之后,前沿科研有了拐点。发布三天后,一个物理学家朋友把他的最新论文丢进去,模型想了 30 分钟就完全搞懂,他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。

Ashlee:但当 AI 开始做那些原本属于顶尖人类智力的事,会不会让你觉得有点伤感?

Mark:竞赛是我很喜欢、也曾经擅长的东西,但我也看着模型从普通选手水平爬到超过我,再超过 Jakub,就像亲眼看到自动化的速度快得不可思议。去年模型在 coder 比赛还只是排 100 多名,今年已经能冲进前五。变化太快了。

Ashlee:那十年后还会有人类比赛吗?

Mark:会的,因为它本质上就很有趣。那些只是为了简历而参加的人会消失,但真正热爱的人不会。

Ashlee:我采访别人时,他们说有些国家只要 IOI 奖牌就能直接保送大学。

Mark:是,但我觉得未来这些考试本身会被 AI 打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟 ChatGPT 对话,由一个不会被越狱的特别版 ChatGPT 判断他们是否具备在 OpenAI 工作的能力。

Ashlee:你家里有很强的科技背景,你父母都在 Bell Labs,对你影响很大吧?

Mark:我从小吃饭桌上就是各种科学谜题。后来搬到西岸,我爸做创业,让我看到初创公司的另一面。再搬到台湾读书,又是完全不同的文化,纪律性更强。各种经历混在一起,形成了今天的我。

Ashlee:你 MIT 那届是名人辈出的超级年份吧?

Mark:是,2012 年那一年特别厉害。Jacob Steinhardt、Paul Christiano,还有后来 AI 领域很多重要的人物都在那一届。

Ashlee:你也通过竞赛认识了 Cognition 的 Scott Wu,那些在 X 上被当成数学 meme 的人。

Mark:对,我们就在竞赛社区认识。

Ashlee:你从 MIT 毕业后,直接去了华尔街。

Mark:老实说,我对在华尔街做高频交易并没有太多自豪感。当时在 MIT,许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”,只要足够聪明,你就能获得对应的收益。然而文化上我并不适应。在那种环境里,当你发现了什么突破,第一反应是把知识藏好,因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统:即便某家 HFT 公司的算法快了一点,外界其实几乎没有任何感受。我做了四五年后发现,我们始终在跟同一批对手竞争,大家都稍微变快了,但世界并没有因此改变多少,我觉得是时候做点别的事了。

当时 AlphaGo 的比赛对我触动很大。虽然我并不下围棋,但看到模型展现出的创造性,我特别想弄明白背后的原理。

Ashlee:所以你是看到了那场比赛后,才开始关注 AI?当时你有在读论文吗?

Mark:坦白讲,没有。直到 AlphaGo 之后我才开始深入研究 AI。我的第一个目标就是复现 DQN 的结果,复现一个能在 Atari 游戏中达到超人水平的网络,那基本就是我踏入 AI 的起点。

Ashlee:你是在上班后业余时间做这些吗?我记得我大概 2018 年采访 George Hotz,他在自家车库做自动驾驶。他当时说,AI 仍然很年轻,只要读 10 到 30 篇论文,就能掌握整个领域。当然他的话未必完全准确,但 AI 的确很特别:历史很长,但此刻却异常“浅”。

Mark:确实非常“浅”。我常建议对 AI 望而却步的人:只要花三到六个月做一个项目,比如复现 DQN,就能很快触达前沿。过去几年虽然增加了一些深度,但远没有理论数学或物理那么深奥。

Ashlee:你觉得 AI 会像数学一样,天才都在二十几岁出现突破吗?还是这是一个可以做一辈子的领域?

Mark:我认为完全可以持续做下去。OpenAI 的文化确实偏年轻,但做好研究并不需要年轻。年轻人确实因为“先验少”,更容易突破传统路径,但随着经验增长,你也会形成自己的视角和框架,这既是优势,有时也会让你更固化。

OpenAI 的内部故事

Ashlee:你在 2018 年加入 OpenAI,那时公司应该只有 50 人左右?

Mark:差不多 20 人而已。我是以“研究员 resident”的身份加入的,也就是 OpenAI 会从其他行业招人进来集中训练半年,像压缩版 PhD,然后再参与更深入的研究项目。我很幸运能向 Ilya 学习,他基本决定了我的项目、学习路径和方向。

Ashlee:但如果去 LinkedIn 看,你的第一份 OpenAI 的头衔看起来像是“前沿研究主管”。

Mark:并不是,我做了三年左右的个人研究(IC)。当时我主要研究生成式模型,因为那是 Ilya 最关注的方向。之后我才开始带团队。

Ashlee:公众最早看到的大项目可能是 DALL·E,对吗?

Mark:是的。其实在那之前,我最自豪的项目之一是 Image GPT。它证明了 Transformer 不止能处理文本,也能在图像上学到强大的表示能力,是 DALL·E 的前身。而另外一个我非常自豪的项目是 Codex,我们搭建了代码模型的评估体系,也探索了如何让语言模型在代码任务上达到高水平。

Ashlee:那你当初为什么选 OpenAI?是因为当时这个小公司里有很多有意思的人吗?没钱、没人、前景很不确定,居然要挑战 Google 这种巨头。

Mark:我觉得一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。当时 OpenAI 两者兼具,这非常罕见。而且我认识 Greg,我们以前参加过数学竞赛,我给他发消息说:“我不确定自己是否适合,但这里似乎在做重要的事情。”

Ashlee:但你从外部加入,然后现在成为研究负责人,这听起来还是很不可思议。

Mark:对我来说也很不真实。从 IC 转管理者,我其实非常犹豫。不过一路上我遇到的管理者都非常支持我,他们看到了我的潜力,会主动为我争取机会。我从没主动要求升职,每次都是自然而然的结果。管理这件事,本质上主要靠经验累积,而 OpenAI 是一个能让你不断获得“经验值”的地方。

Ashlee:我认识的你是一个温和、稳重的人。但 OpenAI 过去几年经历了很多戏剧性的风波,甚至像“权力的游戏”。你要在这种环境里做管理,这和你的性格几乎相反。

Mark:老实说我在 OpenAI 算是很幸运。一路上都有人支持我、给我建议,也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。

Ashlee:不过你在“政变事件”那段时间做了两件很重要的事:你先帮助研究员们统一意见、促成那封让 Sam 回归的请愿信。然后一两天之后,你在 Chelsea 家做了一次很重要的短讲。这两个瞬间对我而言都很震撼,在危机时刻挺身而出、凝聚团队……这对你意味着什么?

Mark:对我而言,那确实是一个关键时刻。“风波”后的几天里,整个团队都处在高度不确定中。那段时间,我、Nick 和 Barrett 都感到一种责任感:竞争实验室正不断向我们的研究人员打电话,试图把他们挖走。我当时给自己设下目标:不能失去任何一个人。最终我们也做到了。

那几天,我们每天都把自己的家打开,让同事随时过来,释放焦虑,同时保持他们与领导层的沟通渠道畅通,让大家知道自己仍然能发挥作用。渐渐地,团队形成了一种“我们一起面对外界”的精神,大家都在思考:如何向世界传达“我们仍然站在一起”。

当时我在几处房子之间来回协调,我们提出了组建请愿书的想法,表达我们支持 Sam 的立场。大概凌晨两点,这个想法最终确定下来。到第二天早上,研究团队已有 90% 以上的人签署,到最后接近一百人都签了。那一整晚,大家都在互相打电话确认:“你参加吗?”

Ashlee:但你当时的处境应该挺尴尬的吧?毕竟一开始似乎是 Ilia 和 Sam 立场对立,而 Ilia 又是你的导师。后来 Ilia 又回来了……那会不会让你很尴尬?

Mark:不会说尴尬,但确实很困难,因为那是个信息极少的环境。那时候确实很容易怀疑:Sam 到底做了什么?但换个角度想,如果真有严重问题,Greg 和 Jakub 这种极其正直的人会因此辞职吗?我觉得肯定有部分事实被误解了。

Ashlee:Jakub 在那里工作很久了。关于他,有什么是外界不了解的?

Mark:他其实非常幽默,带着强烈的讽刺感,我常常被他逗得发笑。和他共事让我最珍惜的一点,是我们之间高度的默契。进会议室后,我们能迅速碰撞出一致的结论,然后分别负责路线图的不同部分。

说到“把团队留在一起”,我现在仍有这种使命感。我认为我们仍然“被攻击着”,任何公司想要招人时,第一选择往往是从 OpenAI 下手,因为他们想要我们的专业能力、愿景和世界观。OpenAI 造就了今天 AI 领域最多的明星研究员,因此我们对团队有强烈的保护欲。只要有人来挖,我就会尽一切努力确保团队感到被重视、被理解,并清楚自己在整个路线图中的位置。

Ashlee:在写书、回顾历史的过程中,我一直在想:这是否是一个高度依赖“天才个体”的领域?从 2012 年 Ilia 的突破,到 2017 年 Transformer,再到 Alec Radford……似乎每隔几年就有那么 8–10 个关键人物在推动整个领域。如果他们离开了,比如 John Schulman、Alec 离开了,那对团队不是巨大损失吗?但你们之后仍然在推理和其他方向取得了突破。

Mark:我并不同意“完全依赖明星个体”这种说法。OpenAI 的确会从上层做方向性押注,但我们内部有非常深厚的自下而上文化,很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展,是非常美妙的事,推理方向就是典型例子。

Ashlee:但行业确实会花大价钱去挖“明星”,比如 Google 花巨资请回 Noam Shazeer。

Mark:当然,人才既有培养也有争夺。反过来,我从 Meta 学到的一点就是:OpenAI 自己也可以非常积极地争取顶尖人才,我自己也从他们那套激进的招聘策略中学了几招。归根结底,我们的目标始终是:组建一支最强的团队,完成我们要实现的使命。

Ashlee:这个圈子其实很小,你们虽然竞争激烈,但私下也都是朋友。那边做研究,这边又试图挖对方的人,这不是很微妙吗?

Mark:这是残酷竞争的行业,但我个人也非常享受竞争。我讨厌失败,因此无论是研究还是招聘,我都会全力以赴。

Ashlee:这让我想到半导体行业早期也是这样:工程师们不断突破物理极限,在酒吧里分享最新发现,同时又被各家疯狂挖角。

Mark:是的,任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应:一种是建立深度信息隔离层,严密保护一切;另一种是继续保持开放文化,用速度压制对手。OpenAI 明显是第二种,我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法,这才是最快的前进方式。

Ashlee:那现在你、Sam 和 Jakub 之间的合作方式是怎样的?大家都能看出来 Sam 更偏研究,而你们两位更深度参与技术细节。

Mark:我们三个人联系非常紧密,我每天都会和他们交流。Sam 热爱研究,也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”,比如潜在问题、工作环境中的隐形障碍,他能帮我把这些提前揪出来。Jakub 和我则更专注于如何设计组织、让团队以最高效率协作,比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。

Ashlee:Sam 平时看论文、和你们聊天吗?

Mark:对,他会看论文,也会经常与研究人员交流,理解他们的研究方式。当然,他还负责范围远超研究的事务。

OpenAI 到底发现了什么?

Ashlee:我知道你们最近在预训练方面似乎有了重大突破,也明显比之前更有信心,能透露一下你们到底发现了什么吗?

Mark:我对过去两年的总体观察是:我们把大量资源投入到“推理”这一能力的研究上,努力理解并打磨这个核心原语,这条路确实走通了。但副作用是,模型的其他重要环节,特别是预训练和后训练,相对失去了些“肌肉”。过去六个月里,Jakub 和我花了很多时间把这部分能力重新练起来。

我一直把预训练看作一种“肌肉”,必须持续锻炼:信息要保持最新,团队要在优化、数值计算等前沿方向持续投入,同时也要确保有足够的心智关注度。所以我最近一个重要工作,就是引导公司内部的讨论重回预训练,我们认为预训练还有极大空间。

外界有人说“Scaling 已死”,但我们完全不认同。某种意义上,行业现在把注意力集中在 RL,这反而给了我们“信息优势”,因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力,我们最近训练出的模型明显更强,这也让我们对包括 Gemini 3 在内的接下来一系列发布更有信心。

Ashlee:我脑中对这段历史的画面是这样的:你们跑得太快了,整个领域也跑得太快。突然之间,我们从互联网收集到巨量资料,把它扔进一台超级计算机,于是 ChatGPT 诞生了,然后所有人就开始疯狂冲刺。但对于不紧密跟进的人来说,问题可能是:最初那波数据其实非常粗糙,只是稍微清洗了一下就丢给模型。而现在你们说在“学习更高效地塑造数据”,但外界很难理解到底之前的“错误”是什么。

Mark:你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式,模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限:当你模仿人类时,你很难真正超越人类。

这也是为什么 RL 重要,它让我们有机会把模型推向更难的任务,让它从人类范式之外思考,拓展能力边界。但随之而来的,是一个更困难的问题:如果我们要让模型真正超越人类,该怎么衡量?

例如,在科学领域,当能力达到了“超人类”水平,人类真的能够判断 A 比 B 强吗?如何判断一个“超人类数学家”比另一个更厉害?我们需要更好的评估体系。迄今为止,我们很幸运,IMO、IOI 等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类,这些测验本身就失效了。

Ashlee:我常看到那些竞赛牛娃后来进 Google、Facebook,但他们不一定是最顶尖的工程师,也不一定愿意或适合进入工业界。所以单纯在竞赛上拔尖并不等于就是“最强工程师”。那如果未来 AI 在这些竞赛上表现极佳,我们到底能从中学到什么?

Mark:这正是我喜欢 AI 研究的地方,它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是:你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断,例如路线选择、资源配置、项目方向。如果判断错误,很快就会失去团队的信任。

我很享受与这样一群极度技术驱动的人共事,他们都深度投入、极高水准,与他们讨论技术本身,是一件真正的乐趣。

Ashlee:在我心里,Transformer 是一次巨大飞跃,而“推理能力”的突破甚至可能更惊人。最近与你、Greg、Jakub、Sam 交流时,我感觉你们说过去三到五年投入的大量工程工作,其实还没有完全显现出来。你们现在看到的,是另一场类似 Transformer 的跃迁吗?

Mark:我认为是的。比如在 GPT-5 时,我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力,我们正在快速扩大投入。关键仍是维持一组多样化的探索,把最有实证价值的方向加大力度推进。

Ashlee:但两周前,Karpathy 在播客上说 AGI 可能要十年;上周 Dario 又说更接近两年。行业内部声音完全不一致。你怎么看?

Mark:Twitter 很喜欢那种“结束了!”“又回来了!”的戏剧化循环。但 AGI 本身连定义都不统一,在 OpenAI 内部,你把所有人叫到一个房间,也不可能给出一个完全一致的 AGI 定义。

我更把它类比成工业革命:你说纺织机是工业革命,还是蒸汽机是?视角不同,切点也不同。对我而言,我更看重的是:模型是否开始产出真正新的科学知识?是否推动科学前沿?从今年夏天以来,我感觉在这方面出现了巨大的相变。

Ashlee:你说的新科学成果,是不是指最近那些生物科技初创公司,比如一次性设计抗体、分子结构那类突破?还是你指的另有其事?

Mark:那次与物理学家的交流给了我很大启发,我回去后就想,我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家,能够获得最大程度的支持。我知道其他公司也在推动科学前沿,但我们和谷歌等机构的不同之处在于:我们希望让所有科学家都有机会借助工具做出诺奖级突破,而不是让 OpenAI 自己拿诺奖。我们要构建的是通用的工具与框架,让科学界整体都能加速。

Ashlee:你能具体说说有哪些让你兴奋的发现吗?

Mark:当然。你可以去看 Sebastian 的推特,他最近发了关于 GPT-5 在一个开放凸优化问题上取得进展的论文,这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”,但远比这复杂。

Ashlee:这两天听到有人声称“我们做出了 AI 科学家”“我们一次性设计出增强型蛋白质”,这些公司里不少是真正的科学家,我也多少会兴奋。但数量实在太多,我很难判断哪些是真正的突破、哪些只是噪音。

Mark:如果这些突破发生在生物领域,我一点也不意外。尽管我主要的专业在计算机科学和数学,但我们团队里有顶级专家,他们确认了不少是真正的科学发现,生物学里出现类似情况并不令人惊讶。

Ashlee:但你描述的情况似乎与最近几周不断变化的公众叙事不同。比如一些播客里的人会说 AI 没什么进展,都是虚幻的。如果这些发现是真的,公众应该会感受到变化才对。

Mark:我们在筹建 OpenAI for Science 时与许多物理学家和数学家交流过,其中大多数人对 AI 其实并不乐观,他们觉得模型不可能证明新定理。但正因为如此,我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快,我们希望为他们提供工具,也希望说服更多研究者:这是未来科学研究的正确方法。

Ashlee:每个人对 AGI 的定义不同,但你似乎认为未来一两年会发生非常剧烈的变化?

Mark:“AGI 两年后到来”一直是个梗,但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果,让我真正产生了信念。在 OpenAI 内部,我们设定了两个非常具体的目标:

第一,1 年内改变研究方式:让研究过程可以依赖 AI 实习生。也就是:研究者负责提出想法,模型负责实现、编写代码、调试。

第二,2.5 年内让 AI 能进行端到端研究。这意味着:研究者只确定方向,模型完成从构思到执行到验证的全过程。

与今天相比,这是完全不同的研究范式。

算力、GPU 与 AI 硬件

Ashlee:在与 OpenAI 的人聊时,我常听到一句话——基础设施扩张得很快,模型只要算力再提升 10 倍就会变得更好。但也有人说从 GPT-4 到 GPT-5,你们算力增加了,却没有看到预期的效果。可你们的叙述又让我觉得:其实我们还没真正看到“10 倍算力飞跃”带来的结果。

Mark:有人问我:“你们真的需要这么多算力吗?”我总是被这个问题震惊,因为我每天面对的都是海量算力需求。如果我们今天多 3 倍算力,我能立刻高效用完;如果多 10 倍,大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多 GPU 吗?”对我来说毫无意义。

Ashlee:那除了算力需求,你们对模型规模继续扩大是否同样乐观?你们是否看到,类似“规模效应”会再次推动巨大跃升?

Mark:是的,我们非常明确要继续扩大模型规模;而且我们有突破性的算法能支持更有效地扩展。我认为 Gemini 3 也很令人印象深刻,但从细节看,比如 SWE-bench 等指标,他们在数据效率方面仍没有重大突破,而这是我们非常强的部分。

Ashlee:我看到了一份泄露的备忘录,Sam 对 Gemini 3 的语气听起来相当严肃,仿佛是一个转折点。你们内部应该都看过吧?

Mark:是的,但你要知道,Sam 的工作之一就是不断在组织里注入紧迫感,我也一样。我们必须保持专注,加快节奏。Gemini 3 是谷歌该做的正确押注,但与此同时,我们也有明确的策略与回应,并且我们有信心执行得更快。

Ashlee:你们会参与像 Jony Ive 的 AI 设备这样的项目吗?比如研究团队在其中扮演怎样的角色?

Mark:是的,事实上,就在昨天我和 Jony Ive 以及几位研究负责人一起吃了晚饭。我一直在思考未来的 ChatGPT 会是什么样子。现在的交互方式对我来说还很“笨”,非常非思维原生:你给一个提示,它回答;你不提示,它就停止思考。而且如果你再给出类似的问题,它会重新花一样多的时间推理,仿佛没有从第一次的上下文中变得更聪明。

未来显然应该不同。记忆会是核心能力:每次你使用 ChatGPT,它都会学到关于你的更深层次信息,思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来,它会变得更好。我认为这会彻底改变“设备”的范式,因此我们必须思考:如果 AI 的主导逻辑是持续学习与反思,那硬件设备应该怎么重新设计? 这就是和 Jony 合作非常有价值的地方。

Ashlee:你们已经有设备原型了吗?

Mark:我不能说有没有,也许有,也许没有。

Ashlee:我想到的是:苹果时代的核心是“硬件品味”,这是 Steve Jobs 极度执着的东西。而你们似乎都没有真正做过硬件产品。Sam 的审美看得出来不错,但还没到“乔布斯式品味”的程度。硬件是极其依赖品味的,你们怎么确定自己能做出好产品?

Mark:坦白说,我们不需要自己拥有那种品味,那是 Jony 的价值,他就是我们关于“品味”的判别器。而且很有趣的是,我们发现设计流程与 AI 研究流程之间有深刻的相似性:大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅:他们根据我们即将发布的能力去思考外形,我们根据他们的外形需求去思考能力。

Ashlee:我有时会担心:一群数学与模型天才是不是适合造“下一代电脑”。但听你这么说,似乎你们形成了一个合理的搭配。

Mark:确实,打造 AI 能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题:“ChatGPT 最喜欢的数字应该是什么?”这种问题能检验模型的“人格品味”一致性。 

最后的问题

Ashlee:ChatGPT 建议我问你:如果五年后回看,现在有哪些“还很脆弱”的想法,你直觉认为可能是大突破的核心?

Mark:确实有几个,我非常期待把它们规模化。主要集中在预训练,一些在 RL,还有一些是如何把所有组件整合在一起的整体性想法。 

Ashlee:你觉得现在外界对 OpenAI 最大的误解是什么?

Mark:最重要的一点:OpenAI 从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是 AGI,其他所有产品都会自然从研究突破中流出。

我们关心三件事:自动化 AI 研究本身、自动化科学发现、自动化经济性工作。今年最大的更新,其实是第二条:科学研究的自动化开始真实发生了。

Ashlee:你几岁了?还有社交生活吗?

Mark:34,快 35。老实说,没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点,那就必须抓住它。Barret 离开去创业之后,我在办公室睡了一个月。那段时间我非常强烈地感到:我必须保护研究,这是我最在乎的东西。

Ashlee:DeepSeek 事件之后,你们怎么看开源模型?

Mark:那是第一次让我深刻意识到:必须坚定走自己的研究路线。DeepSeek 当时引发巨大舆论,大家都在问:“OpenAI 落后了吗?要怎么回应?” 但我们做得最正确的一件事,就是继续执行自己的研究规划。DeepSeek 的工作非常强,但主要是对我们 O 系列理念的复刻。关键是,我们必须继续创新。

Ashlee:你认为 500 人是一个最优规模吗?随着公司扩大,这个数字会增长,还是说为了同时推进若干重大想法,500 人已经是最合适的规模?

Mark:坦率说,我认为甚至可以更少。尤其在我们开始引入 AI 研究员或 AI 实习生之后,我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度,我做过一个实验:完全冻结研究部门的新增人头。如果团队想招人,就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀,并保持极高的能力标准。

Ashlee:我记得之前在一次会议上,你和 Jakub 的观点比较一致:你们认为大家过度关注“谁在项目里获得署名”这个问题。AI 起源于学术界,在学术环境中署名极其重要。但那次会议里,你似乎在强调:大家可能对这个问题有点太执着了。是这样吗?是不是因为现在 OpenAI 已进入新的阶段,在公司环境下,这件事不再那么重要?

Mark:我认为过度关注“功劳归属”是件坏事。但另一方面,我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度,但 Jakub 和我最终决定 OpenAI 必须保留署名。反对意见常常是:“你们把顶尖人才的名字摆在台面上,其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到,我们应该持续培养 AI 领域的明星研究者,也应该让真正做出贡献的人建立起自己的声望。

Ashlee:但你似乎又同时认为,研究员个人不应该过分执着于署名了?

Mark:现场确实有人表达过那种观点,但其实 Jakub 和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳,哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说:OpenAI 可能是整个行业里,最愿意给研究者公开署名的公司,没有之一。

Ashlee:你 2018 年加入时,OpenAI 还是一个研究导向、非营利的组织,创始人希望它成为 Google 的平衡力量,并以“确保 AGI 安全到来”为目标。而你来自华尔街高频交易,只是被 AI 的进展吸引过来。说实话,你并不“必须”对 AGI 的哲学问题深怀使命感。那你究竟为什么要做这件事?

Mark:我同时管理 OpenAI 的对齐团队。坦白说,未来一两年最重大的难题,就是对齐问题。在这个研究方向上,OpenAI 在过去一年做出的成果可能是整个领域里最好的。

原因之一是:在 RL 与算力增加后,我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险,因为模型最终给你的答案可能是“正确的”,但它得到答案的过程却完全偏离我们能接受的路径。

随着模型替我们执行的任务越来越复杂,理解它的思维过程将变得极其关键。

Ashlee:这和机械可解释性有关,也就是试图理解模型内部机制的问题。核心问题是:我们的理解能力能否跟得上模型复杂性的提升?还是会最终被模型甩得太远?

Mark:我们在发布 O1 时做了一个关键决策:我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”,它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预,我们仍然能“看到”模型真实的思维轨迹,并将其作为研究对齐的重要工具。

几个月前,我们与 DeepMind、Anthropic 合作发表了一篇论文,探讨未来如何通过这种方式理解模型。我确实担心未来某一天,模型给出非常有说服力的答案,但我们无法确认它是否真正与人类的价值一致。

因此有很多值得探索的方向,例如:能否设计一种博弈或环境,让模型在互相监督、共同演化的过程中,唯一稳定的均衡,就是“诚实”?我认为这里还有大量非常重要的研究要做。

 

参考链接:https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s

一代目 Demo



一代目 Demo 展示

目前 v1.0 版本已跑通。

场景:一个 6 个月大的虚拟婴儿,在一个包含干扰项(鸭子、球)的房间里,自主产生 "推箱子" 的策略。

这是刚刚跑出的实时运行 Log(未加速):

(注:包含最新的注意力机制 Attention System)

============================================================
🎬 GENESIS-v1: Embodied AGI Prototype (with Attention)
============================================================



[  0.20s] --- INITIALIZING WORLD & AGENT ---
[  0.90s] ℹ️  Spawned 7 objects in scene
       - RedBox (red)
       - BlueBall (blue)
       - TeddyBear (brown)
       - GreenCup (green)
       - YellowDuck (yellow)
       - PurpleBook (purple)
       - OrangeToy (orange)
[  1.10s] ℹ️  Agent Age: 6 months | State: 躺

========================================
|                                        |
|                                        |
|                    #                   |
|                                        |
|                                        |
|                                        |
|                                        |
|                                        |
|                                        |
|                                        |
|                    B                   |
|________________________________________|
========================================



[  1.80s] --- PHASE 0: ATTENTION FILTERING ---
[  2.51s] 📊 Visual Field: Scanning all objects...

  [ATTENTION HEATMAP]
  RedBox       [████████████████░░░░] 0.83 ◀ FOCUS
  YellowDuck   [██████████░░░░░░░░░░] 0.52
  GreenCup     [█████████░░░░░░░░░░░] 0.48
  BlueBall     [██████░░░░░░░░░░░░░░] 0.34
  TeddyBear    [████░░░░░░░░░░░░░░░░] 0.24
  PurpleBook   [████░░░░░░░░░░░░░░░░] 0.21
  OrangeToy    [██░░░░░░░░░░░░░░░░░░] 0.14

[  2.71s] ✅ Attention Winner: RedBox (Score: 0.83)
[  2.91s] ℹ️  Filtered out 6 distractors


[  3.11s] --- PHASE 1: PERCEPTION & PREDICTION ---
[  3.81s] 📊 Visual Cortex: Processing focused object...
[  4.02s] 📊 Identified Object: RedBox
[  4.22s] 📊 Proprioception: Balance=0.67


[  4.42s] --- PHASE 2: MOTOR PLANNING (REACH) ---
[  5.12s] 🤚 Intent: REACH -> [0.  0.5 0. ]


[  5.82s] --- PHASE 3: ACTION EXECUTION (PUSH) ---
[  6.52s] 🤚 Intent: PUSH -> Force: 1.0N
[  7.53s] ✅ Motor Cortex: Execution Complete
[  7.73s] ✅ Physics Engine: Object Moved to [0.   0.52 0.  ]

========================================
|                                        |
|                                        |
|                    #                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    .                   |
|                    B                   |
|________________________________________|
========================================



[  8.43s] --- PHASE 4: LEARNING & CONSOLIDATION ---
[  9.13s] ✅ Task Completed: Object Displacement Detected
[  9.33s] 📊 Hippocampus: Consolidated 2 experiences
[  9.53s] 📊 Synaptic Plasticity: Active

✅ SIMULATION COMPLETED SUCCESSFULLY


有没有佬觉得可行?


📌 转载信息
原作者:
fakefakefake
转载时间:
2026/1/11 08:30:12

闫俊杰在商汤敲钟前夕离开,创立了 MiniMax(上海希宇科技),也造就了全球从创立到 IPO 用时最短的 AI 企业——4 年,进程明显快于行业常态。

就在刚刚,1 月 9 日,MiniMax紧随其后挂牌上市,股票代码 00100。招股书显示,MiniMax 的 ToC 收入已经反超 ToB,这在中国大模型公司中极为罕见。

其招股书还透露了一堆硬核数据,截至 2025 年 9 月 30 日:

  • 累计个人用户:超过 2 亿

  • 覆盖 200+国家和地区

  • AI 原生产品 MAU:约 2760 万

  • 企业与开发者客户:超过 10 万家

在这次 IPO 中,Mini Max 计划发行约 2540 万股 H 股,开盘价 235.4 港元,截至上午 10:30,股价已飙升超 60%,市值超 820 亿港元(约合人民币 738 亿元)。

据富途证券数据,MiniMax 此次 IPO 超级火爆,公开发售部分的超额认购倍数高达 1209 倍,投资者通过保证金方式认购的金额累计超过 2533 亿港元。

资本市场为 MiniMax 的技术野心“买单”

在国内近年来涌现的一批 AI 独角兽中,唯二高频更新技术论文、投资开发者生态的,是 MiniMax 和 DeepSeek 背后的深度求索。

闫俊杰曾在各种场合明确表达: MiniMax 是一家技术驱动的公司。据招股书显示,MiniMax 最大的成本就是研发成本,为了在基础模型技术上集中注意力,海外版 App 甚至没有第一时间做英文化。投资人的评价大体也能回归到技术要素,即闫俊杰是一个真正对 AGI 有信仰的人,“他很真”。

这是除市场数据外,MiniMax 市值最明确的支点。

仅在 2025 年,MiniMax 已通过至少两篇公开科研论文系统阐述其大模型架构与推理优化方案,其核心成果包括 MiniMax-01,即基于 Lightning Attention 与 MoE 的超长上下文大模型;以及 MiniMax-M1,即针对推理计算效率进一步优化的模型版本。

相关论文不仅披露了核心机制,还在处理百万级 token 上下文和推理效率上提出可复现技术路径,而非简单参数展示。

回到 2024 年初,在稠密模型仍占主流的背景下,MiniMax 率先推出了中国首个混合专家系统(MoE)大模型 abab6——比 DeepSeek 火出圈 R1 早了约一整年。

在行业仍普遍依赖 Softmax Attention、并为其二次计算复杂度付出高昂算力成本时,MiniMax 开始在模型中大量引入自研的 Lightning Attention(线性注意力)

具体做法,简单来说就是在每 8 层模型结构中,只保留 1 层传统注意力,其余 7 层改用线性注意力,从而把长上下文推理的计算压力“削薄”。

改动后的直接效果是:模型在面对超长文本、长代码或多轮复杂推理时,不再随着上下文变长而指数级变慢。

这套注意力设计与 MoE 架构叠加后,进一步放大了效率优势,使模型在保持推理能力的前提下,大幅提升了长文本、长代码和复杂任务场景下的计算效率。

相比智谱以 GLM 系列基座模型为核心,在 ToB 与 ToG 侧已跑出较为稳健盈利能力的路径;MiniMax 展现出的是另一种取向:模型更强调产业化落地,已在 ToC 端取得了不错的成果。

围绕自研大模型,MiniMax 已形成包括 MiniMax Agent、海螺 AI、MiniMax 语音、星野以及开放平台在内的产品矩阵。

同时在海外市场亦已有实质进展:其产品和服务已覆盖 200 多个国家和地区,累计触达超过 2.12 亿名个人用户,并服务超过 13 万家海外企业与开发者(包括订阅、API 调用等渠道)。

按 2024 年基于模型的收入计算,MiniMax 是全球第四大 pure-play 大模型技术公司,还是全球第十大大模型公司,覆盖文本、视觉、音频、视频的全模态模型体系。

在上市前的近一年内,MiniMax 完成了从 MoE 架构探索(abab 6 / 6.5)基础大模型开源(MiniMax-01),再到高级推理模型(MiniMax-M1)的连续迭代。

以 MiniMax-01 系列为例,模型总参数规模已达数千亿量级,但单个 token 实际参与计算的参数仅为几十亿,使得模型可以在控制成本的前提下,原生支持百万级乃至更长的上下文窗口。

在 2025 年 12 月 23 日,MiniMax 还对外发布了最新旗舰级 Coding & Agent 模型 M2.1

在衡量多语言软件工程能力的 Multi-SWE-bench 测试中,该模型在仅约 10B 激活参数的前提下取得 49.4%的成绩,超越了 Claude Sonnet 4.5 等国际顶尖竞品,拿下全球 SOTA。

M2.1 要补上的,是此前不少模型在工程能力上的短板——过去的模型在编写简单脚本或前端代码时尚可应付,但一旦进入后端工程、系统架构或底层逻辑层面,表现往往迅速失稳。

这个模型的关键变化在于,其能力边界首次延伸至更完整的后端开发规范。

这些技术实现背后,是一支极其年轻的团队。据每日经济新闻消息,截至 2025 年 9 月底,MiniMax 员工 385 人,平均年龄 29 岁,研发人员占比近 74%,董事会平均年龄 32 岁。

其核心团队由一批来自商汤科技、全球一流高校和顶级科研机构的技术骨干组成,以创始人闫俊杰为首,包括杨斌、周彧聪等联合创始人。

闫俊杰拥有东南大学、本科到中科院自动化所博士及清华博士后背景,曾担任商汤副总裁与研究院副院长。

杨斌具备加拿大博士及 Uber ATG 与国际初创工程经验;周彧聪则是商汤早期算法团队核心成员。

团队多数来自 AI 与深度学习前沿领域,在 NLP、语音、视觉、生成模型等方向拥有丰富经验和多项全球发明专利。

站在年轻团队另一面的,是 AI 投资界的“老炮”们。

早期有阿里、腾讯、红杉中国、高瓴、IDG、云启、米哈游等产业与风投参与;IPO 前夕,阿布扎比投资局、Mirae Asset、Aspex、易方达等长线机构接力。

尤其是阿里,持有的 MiniMax 股权占比还要大于在智谱的比重。连续两场 IPO 后,一场投资界和 AI 创业团队之间的化学反应和默契已经诞生。

上市之后,还需直面 Claude Code 等问题

需要指出的是,由商汤的 ToB/ToG 模式,转到如今的 ToC/ToB 模式,闫俊杰麾下的 MiniMax 还未实现整理盈利;至少想赢得全球 AICoding 市场,绕不开和 Claude Code 的直接竞争

Claude Code 是一个面向真实软件工程的 Coding / Agent 模型,由 Anthropic 公司推出。该模型的重点是在 AI 生成代码以外,确保模型在工程约束下不失控,堪称 AICoding 神器。近日, Anthropic 宣布,Claude Code 上线仅 6 个月,已经创造了近 10 亿美元年化营收。

从公开信息看,MiniMax 并没有试图直接复刻 Claude Code 的路径,而是选择了另一种更偏效率驱动的技术路线。

MiniMax 在 Lightning Attention + MoE上的投入,本质上是在解决一个问题:如何在成本可控的前提下,把上下文和工程复杂度拉到“真实软件世界”的尺度。

对于 Coding 模型来说,长上下文不是加分项,而是入场券。 没有足够高效的注意力结构,就无法在真实代码库上长期运行 Agent。

M2.1 针对 Multi-SWE-bench 的表现,某种程度上正是在回应 Claude Code 的“主战场”——不是写某一段代码,而是完成跨语言、跨模块、带验证的软件工程任务

这意味着 MiniMax 正在补的,并不是单点能力,而是:后端规范、工程一致性,和多语言协作能力,这正是 Claude Code 最难被替代的部分。

MiniMax 若想在全球市场正面竞争,最终比拼的也不会只是 Benchmark,而是 Agent 是否可控、错误是否可解释,以及是否敢被放进 CI / CD 流程。

从招股书来看,MiniMax 的研发投入在过去三年中持续攀升:

2022 年为 1060 万美元,2023 年增至 7000 万美元,2024 年进一步扩大至 1.89 亿美元;截至 2024 年及 2025 年 9 月 30 日止的九个月,研发开支分别达到 1.387 亿美元和 1.803 亿美元。相关投入主要用于模型训练过程中产生的云服务费用。

另外,在头部云厂商和海外独角兽的夹击之下,MiniMax 同时承受着 ToB 与 ToC 两个市场的竞争压力。

模型技术仍在快速演进,这场拼性能、拼效率、拼工程化的技术马拉松还在继续;上市,只是把比赛带入了下一个赛段。

在一次采访中,闫俊杰提到,MiniMax 确实放弃过一些 ToB 订单,是基于对自身交付能力的判断,避免分散注意力。那么,如果 ToB 领域的工程化交付,当下还不是 MiniMax 的“长板”,短期来看,就只剩“技术登顶”一条路能帮 MiniMax 走到终局。

闫俊杰说他在 Dota2 游戏里爱玩小精灵,因为这个英雄实现过从五号位(辅助)转型成为一号位(核心),最终主宰比赛。

目前看来,对于 MiniMax 而言情况类似,能否在 Benchmark 上五转一,保持模型能力长期领先,是上市后走向 AGI 的关键。

参考链接:

https://www1.hkexnews.hk/listedco/listconews/sehk/2025/1231/2025123100026_c.pdf

https://huggingface.co/MiniMaxAI/MiniMax-M2.1?utm_source

在  2025 年 9 月的云栖大会上,阿里巴巴集团 CEO 吴泳铭发表演讲认为实现 AGI 是个确定性事件,实现全面超越人类的 ASI 才是终局。

ASI 的概念起源,通常会追溯到统计学家 / 密码学家 I. J. Good 在 1965 年发表的文章: “Speculations Concerning the First Ultraintelligent Machine”,在性质上更接近学术随笔讨论。因此,排除所有面向资本市场的叙事后,如何准确理解 ASI ,某种程度上也决定了阿里云的去路和归处。

吴泳铭认为实现 ASI,需要满足两大核心条件:

  1. AI 能获取真实世界的全量原始数据;

  2. 实现 “Self-learning(自主学习)”,即 AI 能为自身模型搭建训练基础设施、优化数据流程与升级架构;

两个条件的“基础设施味”都很重,再结合阿里广为人知的 3800 亿投资计划,导向已经十分明显:在一段时间内,阿里云都会是企业在 AI 时代的“隐形”支撑者、赋能者和陪跑者。相比于平台注册数据、公有云 Token 调用数据……客户数据 + 基础设施投产进度,是阿里云业务发展更重要的 KPI。

据 IDC 2025 年对中国公有云基础设施市场的追踪报告:阿里云在多个行业市场份额位列第一,典型市场包括金融行业占比 43%、汽车行业占比 40%、游戏行业占比 41%。

阿里最新财报则提到,在 2026 财年第二财季,云智能集团累计收入 398.24 亿元,同比增长 34%,为历史最佳表现。但整个阿里巴巴经营利润为 53.65 亿元,同比下降 85%,主要归因于对即时零售、用户体验以及科技的投入,其中所谓科技投入,特指云 + AI  基础设施方面的支出。有信息指出,泰国、韩国、墨西哥等地新数据中心,都是阿里云在 2025 年开服。

从市场份额增长到利润下降,二者之间的差值,或许就是寻找 ASI 的“路费”。抛开资本市场不谈,普通人很难理解这份“路费”的价值与合理性,大家更乐于见到“Manus 式”的 C 端产品上岸故事,而不是一家云计算公司如何帮助成千上万家实体企业做 AI 提效。

这也使得 2025 年的阿里云极具“反差感”:一方面,它是中国云计算市场的领头羊,决计要做全球领先的人工智能服务商;另一方面,在最热闹的 AI 营销大战中,它又似乎不那么性感。

阿里云的“反差感”之一: AI 不能只靠“热闹”赚钱

从 2025 年初到 2025 年底,国内的 AI 热度实际是由有限的几个 C 端应用串联而成的,包括了:DeepSeek、元宝、千问、豆包、夸克、蚂蚁阿福等。而 AI 原生 App 的月活,在这些应用的影响下,量级也来到了数以亿计。剩下一部分公共注意力,则被具身智能包揽。

AI ToC 应用的火爆,加速了 AI 的落地。

由于 C 端火热,全民对 AI 的前景抱有期待,让企业内部“要不要上 AI”更容易达成共识。此外大量 C 端产品的出现,造成了技术价值外溢,间接推动提示词工程、Agent 工作流、评测方法、开源工具带入企业。

最后,20% 的头部 ToC 产品瓜分了互联网 80% 的流量,作为数字世界入口,它们把 AI 做成默认功能,倒逼企业被动升级对接与治理策略(尤其是权限、数据边界、知识库)。

应该说,过去一年, AI ToC 实在太热闹了,以至于在 AI 时代,市场教育经常是不需要的。

如果将这些 C 端产品的北极星指标定为“用户价值 x 增长效率 x 商业化质量”,前两者看似已经完成了,独独商业化质量成为了“拦路虎”。

北美 AI ToC 类工具,无论是 Coding 工具,还是搜索工具,一般都是付费订阅的,最低档通常为 20 美元 / 月。而国内大部分 C 端 AI 工具,通常是免费的,没有订阅收入。换句话说,“用户愿付费的核心场景”还没找到。当 C 端竞争主要集中在渠道和入口问题上,这种从“热闹”到“留存 / 付费”的落差,成为了 2025 AI ToC 最大的结构性矛盾。

AI 在 B 端的进展,某种程度上要比 C 端的进展更为顺利。至少在业务的核心评估模型上,不存在明显短板。AI ToB 领域以云模式、项目制 / 交付制为主,目标主要包括:

  1. Attach Rate(云挂载率,有多少项目最终绑定了云用量 / 云产品)

  2. Time-to-Usage(从验收到产生稳定用量的时间)

  3. Post-GoLive 90 天用量达标率(交付后 90 天,达到预期用量 / 调用量 / 活跃服务数的客户占比)

  4. 云侧 NRR(“某批上线客户”半年后 / 一年后是否扩张)

  5. 项目对云的“单位获客成本”

五大指标在 AI 的牵引下,都已经进入自增长轨道。

云计算的核心竞争标的是客群,这是阿里云的天然优势。

一方面,庞大且稳定的客群将云变成了复利生意,是将 AI 业务收入越做越厚的基础。另一方面,ToB 的关键在于需求驱动,数以百万计的客户每天反馈的问题和需求,本身就是 ToB 企业最大的护城河。有足够客群的企业,可以在工单中组装未来演进路线;没有足够客群的企业,只能靠猜和跟随。

在 2025 年 12 月底的一场小规模沟通会中,阿里云智能集团资深副总裁、公共云业务事业部总裁刘伟光表示,2025 年他拜访了 146 个客户,包括汽车主机厂、机器人、基础大模型公司、金融、手机、AI 硬件、零售行业、在线教育、物流、制造业、医疗制药、大型跨国企业、食品加工、漫剧短剧、畜牧业等,几乎覆盖了各行各业。

从拜访结果来看,企业引入 AI 改善业务流程和产品的决心,要比 C 端消费者购买一个 AI 语音助手的决心要大得多。更关键的是,企业使用 AI 具有强连续性的。

在重工业制造领域,诸如 AI 顾问、设备维修助手、智能客服、财务助手、工艺标准 AI 助手、试验在线助手这些新兴事物正在形成的过程中,价值空间巨大。

在农牧业,比如国内两家最大的龙头集团,已实现猪兽医领域大模型"猪小新"、实现猪场猪只数量识别、猪死淘鉴定、后备猪筛选、猪异常行为识别等业务场景,通过体貌图片等数据,实时获取猪群健康信息,交由 AI 系统能够在后台快速完成初步诊断。即便是新手员工,也能凭借平台系统辅助,像经验丰富的养殖专家一样快速判断猪群的健康状况,并及时处置指导,降低了对资深专家经验的依赖。

在线教育行业,习题问答、作业批改都已经是成熟场景,终端设备也从 ChatBot 过渡到学习机,甚至是智能教室这样的立体解决方案。

金融行业仍然进展最快的行业之一,在部分场景下,其技术产品的储备速度,已经不亚于国际同行。比如在车险中,从前高度依赖人工的车辆定损和理赔,今天也正尝试交由 AI 来完成。

整体来看,如果不考虑应用深度、改造程度,仅从采用率口径来看, AI 对各行业的渗透将是一个恐怖的数字。

以上共同铸就了阿里云在 2025 年叙事的第一个“反差感”:尽管诸如 Kimi 这般广为人知的模型是在阿里云上训练的,其核心定位仍然偏“幕后”和“服务”,是在推动企业把 AI 写进 KPI、写进工单、写进流程,最后写进预算。

而当 AI 开始从“有没有用过”走向“每天必须用”,衡量方式就会变化:从下载量、DAU、Token 吞吐量,走向成本结构与组织结构的重估。

阿里云的“反差感”之二:流量逻辑失效

无论是下载量、DAU,还是 Token 吞吐量,本质都是在复述流量逻辑,复述移动互联网时代的增长规则。

在 AI 时代,尤其是 ToB 领域,这显然不不合时宜。

尤其是 Token 的吞吐量,恐怕是 AI 时代集精准、模糊于一身的最矛盾指标。

一方面,Token 的吞吐量等同于模型用量;另一方面,所谓模型用量只是 MaaS 平台上的模型调用,仅为全量市场的九牛一毛,且非价值单位,不能代表模型价值。

实际上,IDC 报告里的“中国公有云调用率”,这个定语本身就存在限制:大量 AI 使用根本不是调用公有云 MaaS API ,因此不可见。

而不可见的部分至少包括:

  • 通过公共云租赁 GPU 部署模型(需要大规模部署特定领域模型的企业);

  • 采购 GPU 服务器进行开源大模型私有化部署,创建私有化推理平台内部使用(金融、制造、能源等对数据外流高度敏感行业);

  • 汽车、具身智能等端侧模型闭环(时延与隐私决定无法上云实时调用);

  • 模型蒸馏后的边缘推理(云上训练、端侧运行,消费不表现为 token);

  • 下载开源大模型在企业内部使用(诸如 AirBnb 的模式);

  • 开源衍生模型的长尾使用(下载、微调、再分发,统计口径天然缺失)。

如果只按 MaaS 平台上 Token 调用量去计量,开源生态里发生的微调、蒸馏与私域部署都会被系统性抹掉。仅 Qwen 系列模型,就已有 18 万+全球衍生模型和 全球 7 亿 + 的模型下载量——这部分‘消费’不以 Token 形式出现在公共统计数据里,却已经进入企业内部的实际生产环节。

概而言之,如果把全量的 AI token 比作一座冰山,MaaS 平台上可统计的部分只是冰山露出水面的一角而已。

我们必须重置对企业 AI 用量的认知。

来自阿里云的数据显示,截止到现在,在阿里云上调用 MaaS  API 的客户,与使用 GPU 的客户重合度竟然达到 70%,这说明中国第一批深度拥抱 AI 的客户在全方位的选择不同的方式使用 AI 技术。

所以,一批正在形成“智能预算”的企业。他们既买 Token,也买算力——他们不是在做选择题,而是在做场景分级:哪里需要公有云 Token,哪里必须结合自己数据进行后训练,哪里要端侧小模型,哪里值得自建“智能工厂”:

  • 轻量场景 用 API/MaaS:客服质检、内容生成、企业知识库问答、基础办公 Copilot、翻译审核等,强调易用、快接入、低门槛。

  • 中等复杂度场景 做后训练:把业务规则、私域知识、历史行为数据灌进模型里,用微调、RAG、强化学习把“能用”推到“稳定可用”。

  • 重资产场景 直接训 / 蒸馏 / 端侧部署:自动驾驶、具身智能、摄像头多模态理解、工业设备诊断等,强调时延、隐私、安全与闭环。

这也直接改变了对企业级 AI 用量的统计算法: “公有云用量 + 专有云用量 + 开源衍生模型用量”不等于真实用量,三者存在很大的重叠部分。

另外一个问题是,模型越先进,消耗的的高质量 Token 其实越少。所谓 Token ROI ,对于深度使用 AI 的企业而言,是核心经营概念。虽然 Token 的单价下降了,但是 Agentic AI 兴起后,一次调用产生的 Token 总数也被放大了。

因为 Token 单价会越来越便宜,所以刻意忽视企业在为更多低效 Token 而付费的事实,颇有点掩耳盗铃的味道。用“吞吐量”当成唯一指标,会把“高效智能模型”误判成“低活跃”,把“唠叨模型”误判成“高消费”。

这也是为什么阿里云不断把叙事从“Token 工厂”拉回“AI 超级工厂”——后者强调的是全链路供给能力,而不是单一化的 Token 吞吐。模型能力,是背后价值兑现的关键。

2025 年 4 月底,阿里发布了 Qwen3,成为国内首个“混合推理模型”,“快思考”与“慢思考”集成进同一个模型,对简单需求可使用低算力“秒回”,对复杂问题可多步骤“深度思考”。 AIME25 测评 81.5 分,刷新开源纪录;LiveCodeBench 评测超过 70 分,超过 Grok3; ArenaHard 测评 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

同时,  4 张 H20 即可部署 Qwen3 满血版,显存占用仅为性能相近模型的三分之一。开源版本丰富,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款稠密模型,每款模型均斩获同尺寸开源模型 SOTA(最佳性能)。

开源是阿里云在模型竞争力上最为关键的一步棋。这允许企业可以在不签大合同、不押单一供应商的前提下先跑通 POC,这对中国企业尤其重要。

AI 价值锚点在 AI 原生市场、中国企业级市场和全球化

毋庸置疑,AI 原生企业天然地拥抱 AI,深度使用 AI,它们是中国 AI 市场的“种子用户”。

在阿里云的观察里,除了 AI 原生企业,第一批深度拥抱 AI 的企业还往往具备以下共同特征:

  • 数据治理相对成熟:Agent 上限取决于模型与数据质量——这不是口号,而是工程现实。

  • 业务流程重且连续:用量曲线更像复利而非潮汐。

  • 对安全与合规敏感:这决定了“MaaS / 云上专有环境 VPC / 私有化部署 / 端侧闭环”会长期存在,市场不可能被一种形态吃掉。

这简直是对上云并能用好云的客户的精准侧写。

这意味着:阿里云如果要把“AI 超级工厂”的投入摊薄到足够低的边际成本,并把技术优势兑现为现金流,它必须走向更大的、付费更坚实的企业级市场。

这一轮中美 AI 竞争的胜负手,就在于谁能用 AI 提升改造各自的支柱产业,带来生产力的变革。

当前,中国 AI 的第一波市场聚焦在娱乐、陪聊等消费端场景;从美国 AI 市场发展看,SAP、Salesforce 等 SaaS 软件对 AI 大模型的调用量最大,其次是 AI 编程。

Open AI 和谷歌的报告也显示,ChatGPT 和 Gemini 的企业客户调用量远超 C 端个人用户调用量。

所以,“领头羊”阿里云想要做的是,让 AI 深入到各行各业,用 AI 提升生产效率。

与此同时,当中国的 AI 原生企业在海外遍地开花,当中国的第一、第二及第三产业客户纷纷出海,使得阿里云加速剑指全球化。

刘伟光表示, 2024–2025 ,中国企业的出海,不再只是把供应链优势搬出去,而是把 AI 能力当作产品溢价的一部分

  • 新能源车出海:没有智能化能力就很难维持差异化;

  • 家电、照明、厨具等传统硬件出海:正在被“自然语言对话 + 多模态理解”重新定义交互方式;

  • 机器人、安防、摄像头等品类出海:本质上都需要端云协同的模型能力。

对阿里云来说,这类客户天然会提出“海外部署”的硬需求:低时延、数据合规、跨区域运维、弹性供给,以及在海外可用的模型服务与训练推理能力。也因此,2025 年阿里云在泰国、韩国、墨西哥等地新建数据中心的动作,不只是“基建扩张”,更像是在给下一轮 AI 应用出海提前铺路。

当然,全球化竞争,激烈程度远超国内:

  • 模型能力只是门票:语言、coding、多模态缺一不可。

  • 工程化才决定可用性:稳定性、时延、SLA、合规、跨区域交付能力,决定企业是否敢把核心流程交给你。

  • 生态与接口决定渗透速度:当软件与工具链 MCP 化、API 化,云厂商能否把“可调用的能力”变成“可组合的系统”,决定了 Agent 落地的上限。

这也是为什么阿里云正在“把 3 万多个产品的 API 服务全面做 MCP 化开放”。海外更像一个“标准件市场”,一旦你能用标准件快速交付,就能更快形成规模。

阿里云的 2025 可以被理解为一场“前置换轨”:

  • 在国内,它用开源与超级工厂体系抓住最先动起来的 AI 企业,把 AI 从“试用”推向“连续使用”;

  • 在海外,它需要把这套能力转化为规模化商业闭环——不是为了讲更大的故事,而是为了让故事具备财务可持续性。

其核心在于:先把路修出来,再等车流出现。

“这十多年来,中国云计算市场各种概念曾层出不穷,价格战屡见不鲜,但阿里云始终在牌桌上。如果用更长的时间去穿越周期洞察未来,技术能力和技术布局的前瞻性永远是核心竞争力。”刘伟光说。