劈柴哥和哈萨比斯亲自站台！谷歌世界模型 Project Genie 刷屏，幕后团队揭秘 60 秒不是极限，内存是巨大约束

作者: 纯情
时间: 2026-01-30
分类:
评论

世界模型真的变天了！

今天，谷歌正式发布重磅世界模型原型产品“Project Genie”，只需一句话或一张图，就能一键生成可玩、可交互的实时虚拟世界。它的重磅程度，让谷歌“掌舵人”劈柴哥和 Google DeepMind 创始人哈萨比斯亲自为它站台。

在 Project Genie 生成的虚拟世界中，你可以用 WASD 键移动角色、旋转视角、跳跃，在生成世界自由探索。更重要的是，其生成画面的精细度、整体完成度，已经明显超出以往研究型 Demo 的范畴，在观感上直逼成熟游戏产品。

过去几年，世界模型一直被认为是通往 AGI 的重要路径，但始终存在一个根本问题：它们更像会动的视频，而不是真正的环境。

具体来说，早期世界模型普遍存在几大短板：

生成世界质量偏低，结构简单
难以实时交互，或只能交互一两步
长期一致性差，画面和规则会“漂移”
不符合物理和因果逻辑，更像梦境而非世界

而 Project Genie，第一次把这些问题同时拉到了可用水平。

Project Genie 是一个基于 Genie 3、Nano Banana Pro 和 Gemini构建的原型 Web 应用，其中的核心是谷歌最新的世界模型 Genie 3。

与以往“先生成完整视频”的方式不同，Genie 3 采用自回归生成机制：它会根据世界描述和用户操作，逐帧生成环境状态，而不是播放预先生成好的内容。

这带来了几个关键变化：

长期一致性生成的世界可以在数分钟内保持稳定，不会快速崩坏；系统还能“记住”用户造成的关键变化，记忆时间最长可达约一分钟。
真正的实时交互世界以 20–24 帧/秒运行，用户的操作会即时反馈到环境中，而非触发预设结果。
更高质量的视觉表现生成画面分辨率约为 720p，整体真实感和细节水平明显高于以往世界模型，为智能体理解复杂环境提供了更可信的视觉基础。

谷歌早在 2025 年就将 Genie 3 称为“通往 AGI 的关键一步”。而在 Project Genie 的官方页面中，谷歌再次强调：

Genie 3 让智能体能够预测世界如何演化，以及自身行为如何影响世界，这是实现推理、规划和现实行动的基础。

可以说，在 Project Genie 身上，已经释放出一个非常明确的信号：世界模型正在从长期的前沿研究方向，正式迈入可落地、可探索的关键阶段。

一旦世界模型能够稳定生成高质量、可交互、具备长期一致性的环境，其应用边界将被迅速打开。

无论是自动驾驶中的复杂场景模拟、具身智能的环境理解与决策训练，还是游戏开发、影视制作、互动教育与新型媒体内容创作，世界模型都展现出极具想象空间的潜力。

据 The Verge 报道，谷歌选择在这一时间点推出 Project Genie，部分原因在于希望观察用户的真实使用方式，从而发现此前尚未预料到的新应用场景。

Google DeepMind 产品经理迭戈·里瓦斯透露，谷歌内部已经对 Genie 在电影制作、互动教育媒体等领域，帮助创作者进行场景可视化与世界构建的潜力感到兴奋。

目前，Project Genie 仍是实验性产品：

单个世界最长探索 60 秒
分辨率约 720p，帧率约 24fps
仅向美国地区、18 岁以上的 Google AI Ultra 订阅用户开放

Project Genie 发布后迅速引发热议。马斯克第一时间发文祝贺

关于 Project Genie 的讨论，也在 X 上迅速扩散，不少网友将其称为又一个“变革时刻”。

对此，Project Genie 负责人之一 Jack Parker-Holder 表示：

Genie 3 感觉像是世界模型领域的一个分水岭。我们现在可以生成任何可想象世界的、持续数分钟的实时交互式模拟。这可能正是具身通用人工智能此前缺失的关键一环。

网友们玩疯了，在游戏世界释放创意

具体来看，Project Genie 的使用流程并不复杂。进入页面后，用户可以直接从 Google 预设的多个世界模板中选择，也可以完全自定义环境和角色，构建一个专属的虚拟世界。

为实现更精准的控制，Project Genie 会用 Nano Banana Pro 的能力，先为生成世界打个“草稿”。

整个页面被清晰地分成左右两部分：

左侧用于填写环境的 prompt，例如地形结构、视觉风格和整体氛围；
右侧则用于描述主角的形象与设定，并可选择第一人称或第三人称视角，从而提前确定进入世界后的体验方式。

完成初步设定后，Genie 会先生成一个缩略图，可以对生成内容进行预览和微调。如果符合预期，就能进入生成世界，开始实时交互与自由探索。Genie 3 的响应延时非常低，在控制角色移动时，会带来强烈的沉浸感。

在官方案例中，你可以把自己变成一个球，在草原上自由滚动。

可以看到，如果转换视角，球滚动留下的痕迹并不会消失，新生成的内容也不会覆盖旧区域。这一细节直观地体现了 Project Genie 所强调的世界一致性。

在另一个官方案例中，你可以变成刷墙工人，想刷哪面墙就刷哪面，整个虚拟世界可以实时交互，且看起来十分合理。

谷歌表示，这是想象力空间的无限释放，无论是自然世界或现实场景，还是构建动画、小说中的奇幻世界，甚至是突破时间与空间限制的未来世界，都可以被创造出来。

不少网友迅速上手，开始“放飞自我”式创作，其中，各类游戏风格世界不断涌现。

比如在沙滩上骑摩托：

更绝的是直接制作山寨版“任天堂”游戏。比如马里奥系列，《塞尔达传说》，《银河战士》。

即便抛开体验层面的不足不谈，Project Genie 在生成世界的质量与完成度上，依然足以令人震撼。这也难免让人产生进一步的联想，游戏从业者会不会大规模失业？

这一担忧并非空穴来风。根据 Informa 本周发布的游戏开发者大会（GDC）报告，33% 的美国受访游戏开发者、以及 28% 的全球受访游戏开发者表示，他们在过去两年中至少经历过一次裁员。Project Genie 可能会进一步扩大这种趋势。

不过，围绕 Project Genie 的能力边界，也有人提出质疑。

The Verge 的记者亲自上手试验后认为，从“游戏”的角度来看，Project Genie 所生成的“可玩世界”显得相当单调。

除了基础移动操作外，玩家几乎无事可做。没有任务目标，也缺乏音效反馈。更糟糕的是，输入延迟时有发生，甚至会出现角色失控、只能旋转视角的情况，严重影响整体体验的流畅度。

该记者还提到，在仅有 60 秒的探索时间内，世界的一致性并不稳定。系统有时会“忘记”此前生成的内容，例如滚动的小球留下的颜料痕迹会突然消失，已生成的道路也可能被重新覆盖为草地。这些现象让人难以确认模型是否能够持续、可靠地维护同一个世界状态。

在内容生成层面，Project Genie 对知名游戏 IP 也存在明显限制。测试中，索拉、唐老鸭、高飞、杰克·斯凯灵顿等角色均无法直接用于生成可交互世界，相关内容在进入实际体验阶段会被系统拦截。

目前，与生成世界交互的智能体只能执行较为有限的操作，同一世界中多个模型之间也难以协同互动。此外，Genie 在渲染清晰文本、还原现实世界具体地点方面仍存在困难，智能体对控制指令的响应有时也会出现异常延迟。

对此，谷歌方面回应称，Genie 并非游戏引擎，团队更关注它在增强创意过程、提升构思能力以及加快原型制作方面所展现出的潜力。

在 Geinie 3 官网上也特别强调，目前产品仍处于早期研究阶段，因此会有：生成的世界可能看起来并不完全逼真，也不一定总是严格遵循提示、图像或现实世界的物理规律；角色有时可能难以控制，或者控制延迟较高；生成时间受限等问题。

Project Genie 团队深度揭秘关键问题

在 Project Genie 上线不久，其背后的核心团队第一时间接受采访，包括 Google DeepMind 研究总监 Shlomi Fruchter、Google DeepMind 的研究科学家 Jack Parker-Holder、产品 Diego Rivas，他们都对世界模型长期关注，在这次访谈中深度揭秘 Project Genie 的关键问题。

这次对话讨论了：什么是世界模型？为什么只能生成 60 秒？Project Genie 的研发历程是什么？它未来真正可能改变的是哪些领域？

他们首先承认 Project Genie 的强大确实源于谷歌视频生成技术的积累，但同时他们也强调，Genie 并不是更强的“视频模型”，而是人类第一次可以实时走进、操控、改变的生成世界。

其中的核心差异是，世界模型是逐帧实时生成，能与过去保持物理与视觉一致性，并且用户可随时干预。这对延迟、内存、算力的要求，比普通视频生成高得多，也是更前沿、更有挑战的方向。

针对不少人抱怨“60 秒不够”的问题，他们表示这是在服务成本、系统稳定性和体验质量之间做出的权衡。他们其实已经做出过更长时间的生成世界，但在实际测试中发现，随着生成时间拉长，世界的动态感反而会逐渐减弱。

研究员表示“与其花两分钟体验一个世界，不如花一分钟体验两个不同的世界，体验感会更好。”

针对模型的生成速度，他们表示已经够快了，短期内进一步“加速”并没有太大意义。接下来，他们更重要的研发方向，是降低算力成本，让这种能力能够被更多人真正用得起。

在产品定位上，他们并不把 Genie 看作一款游戏，而更像是一个正在快速演化的实验场：

一方面，多人互动、长期一致性、复杂动态仍然是明确的技术瓶颈；
另一方面，娱乐、教育、具身智能、机器人训练等方向，已经展现出非常清晰的应用前景

回顾产品研发历程，从论文阶段的 Genie 1，到今天普通用户可以亲自上手体验的 Genie 3，这背后其实是谷歌一整套高度协同的跨部门合作。

谷歌实验室与谷歌创意实验室是研发的核心力量，而服务团队、基础设施团队和沟通团队则共同兜底，确保这项起源于强化学习的前沿研究，能够被真实用户理解、体验并持续使用。

当团队回看去年八月时，他们很清楚，当时外界已经迫不及待想“走进这个世界”，但 Genie 仍然只是一个规模庞大的研究项目。即便如此，研发人员脑海中已经浮现出一系列潜在应用场景，其中最清晰的方向之一，正是具身智能。一个标志性的例子，是他们与 Simmer 项目的长期合作。

Simmer 是由双子座模型驱动的目标导向智能体，能够在 3D 世界中执行复杂任务。过去，它只能在少数几个固定游戏环境中训练；而现在，借助 Genie 3，只需一句文本指令，就能生成一个全新的、甚至是照片级写实的虚拟世界，把智能体直接“放进去”完成任务。

从 Nano Banana Pro 的图像创作，到谷歌视频生成的成熟，再到可交互的世界模型 Project Genie ，生成式技术正在构成一个连续体，世界模型将成为第三次技术跃迁。

以下是播客的更多细节，欢迎来看：

为什么只能 60 秒？

主持人：我很好奇，这背后的物理逼真度，是不是和我们在 VO（谷歌的视频生成模型）项目上取得的研究突破有关？感觉两者之间有相似之处。

研究员：二者绝对是相关的，而且世界模型的研发难度其实更高。普通的视频模型，能在整个视频的时间线上自由调整过去和未来的帧，自由度很高 —— 就像有一块画布，模型能随时间生成视频，在画面的各个位置做微调，让整体效果连贯美观。

但世界模型的难点在于，世界是持续演变的，每一帧的输入都是未知的，模型必须保证生成的画面既和过去的内容连贯，又能匹配用户当下的操作，所以技术难度会大很多。

其实开发 Genie 1 时，我们用的是 Imagine 模型，当时我们的模型效果并不好，而且想要生成合适的图像也非常困难。Nano Banana Pro 是在Genie 3 之后推出的，技术进步的速度真的令人惊叹。也许未来某一天，我们定义虚拟世界的方式，将不再局限于图像和文本，但就目前而言，这种方式已经给了用户足够的创作灵活性。

主持人：这个模型的复杂度上限在哪里？比如能不能在同一个世界里加入大量并行的互动元素？模型会在什么情况下出现效果衰减？

其实 Nano Banana Pro 就是个很好的例子，如果一张图片里有 10 个人脸，想要对这张图进行编辑，模型就容易出问题。所以我想知道，Genie 3 的自然性能边界在哪里？

研究员：这个模型肯定不是完美的，目前它还只是一个研究预览版本。我们希望让大家亲自体验，看看它的优势在哪里，不足又在哪里，我们也能从用户反馈中学习和优化。

目前模型在各类创意环境的视觉呈现上做得不错，画面可以非常精致，但在世界的动态表现上还有短板 —— 有时候初期的动态效果很好，但时间久了，动态感会逐渐减弱，这也是我们正在优化的点。不过它的表现已经足够令人惊喜了，所以还是建议大家亲自上手试试，看看哪些玩法能达到理想效果。

研究员：不过说到延迟问题，还有很多技术点需要考虑。Genie 3 的研发有一个核心约束：我们希望实现特定操作频率下的实时低延迟，也就是说，用户操作的往返延迟要极低。同时，内存也是一个巨大的约束 —— 模型的上下文长度越长，通常算力成本就越高，运行速度也会越慢。

所以研发的核心挑战，就是平衡这些相互冲突的目标。而在研究层面，我们正在所有这些领域持续优化，我们相信，模型的性能会不断提升，变得更强大、更快、更经济，这也是行业的整体发展趋势。

主持人：我还有个问题，模型的生成时长是人为限制在 60 秒，还是真的能实现 3 到 5 分钟的连续生成？

研究员：其实我们已经做出过能连续生成更久的演示版本了，但我们觉得 60 秒是一个比较合适的时长 —— 既能让用户充分体验虚拟世界，又能保证为足够多的用户提供服务，这其实是在服务成本上做的权衡。

而且就像我们之前提到的，生成时间越长，世界的动态感会逐渐减弱。所以我们觉得，与其花两分钟体验一个世界，不如花一分钟体验两个不同的世界，体验感会更好。当然，如果用户反馈希望延长时长，我们也会做出调整。

这也和虚拟世界的类型有关，比如如果你在体验高山速降滑雪，两分钟的时长会很过瘾，因为整个过程是持续的动态体验；但如果只是探索图书馆，两分钟可能就没那么有趣了。

主持人：是啊，人们总是能很快适应新的技术体验。但对我来说，这个模型的表现依然令人难以置信。你之前被问到能不能让模型运行得更快，现在的速度已经到极限了吗？

研究员：在当前实时交互需求下，生成速度已经足够快，短期内进一步加速的意义不大。因为模型是实时生成虚拟世界的，速度再快其实也没有意义了 —— 它的生成速度已经和用户的体验速度完全匹配。接下来我们的研发重点，会放在降低算力成本上，这样才能让更多人用上这款产品。同时，在保持速度的前提下，不断增加新功能，这本身也是一个巨大的挑战，我们希望在各个方面都把模型做得更好。

背后的故事：谷歌跨团队协作

主持人：聊完当下的体验，我特别想知道模型的未来迭代方向。不过在聊未来之前，我们先回顾一下研发历程吧。我们八月份发布了 Genie 3 的首支演示视频，之后启动了可信测试，不断迭代产品、搭建基础设施。能不能跟大家快速讲讲，从一支惊艳的演示视频、小规模的早期测试，到正式推出面向用户的精灵计划，这中间都经历了什么？

研究员：首先，八月份发布模型和演示视频后，我们让一小部分人体验了产品，核心是为了收集反馈 —— 因为这是一款全新的应用，一种全新的体验，我们需要思考如何负责任地将它推向市场。

从那以后，我们的大部分工作都集中在基础设施、服务架构和成本控制上，毕竟我们希望能让尽可能多的用户体验到它。而美国的谷歌 Ultra 订阅体系，能让我们触达足够多的用户，收集到第一手的反馈：比如用户觉得哪些功能有用，会如何和产品互动，哪些玩法体验最好。这段时间里，我们也在持续完善可信测试项目。

这其实是模型开发周期中最核心的阶段，因为我们能从不同类型的用户身上学到很多东西，无论是创意工作者，还是教育领域的从业者，都能给我们带来丰富的洞察，让我们知道模型目前的实际应用价值、未来的发展方向，以及哪些体验是用户最期待的。

回头看八月份，当时我们知道大家肯定想体验这款产品，但它那时还只是一个大规模的研究项目。我们脑海里有很多应用场景，比如智能体、机器人这类具身智能领域，都能用到这项技术。去年年底还有一个和我们类似的项目发布，他们也用Genie 3 来训练游戏智能体。

从消费端的角度来看，我们觉得这个产品会很有吸引力，所以想收集用户反馈，但当时也不确定是否已经到了面向更多用户发布的时机。而迭戈主导的可信测试项目，让我们发现，用户第一次上手这款产品时，都会有惊艳的体验。我们希望深入了解更多的应用场景，所以这次的发布，也是我们在这方面迈出的一大步。

一年前，我根本没想到这个模型能有这么强的吸引力，但现在它已经成为一款非常有趣的产品，我们也很期待大家会用它来做什么。

主持人：聊完产品和技术，我们再来聊聊谷歌的跨团队合作吧。显然，从你们的分享和幕后工作来看，打造这款产品的难度非常大。谷歌内部有哪些团队参与了 Genie 3 和 Genie 的研发？

研究员：幕后参与的团队非常多，谷歌实验室、谷歌创意实验室是核心 —— 画廊里的那些虚拟世界，大多是创意实验室的作品；还有服务团队、基础设施团队，基本上有一个完整的幕后团队在推动这项工作。从八月份发布模型到现在，我们一直在全力冲刺，所有团队的付出都堪称英勇。

我们还和沟通团队深度合作，因为想要向大家解释一款全新的模型，一种大家从未体验过的技术，是一个非常细致的话题 —— 它起源于强化学习这个相对小众的领域，现在却被媒体、社交媒体上的各类人群广泛讨论，所以用正确的方式传递这项技术，非常重要。

回顾这个领域的研究起点，我们甚至不确定这项技术能否成功落地。而现在，我们让它实现了实时交互，达到了不错的画质，完成了从研究构想到发布模型，再到推出面向用户的体验产品的闭环，这一点让我非常兴奋。这并非理所当然，也充分体现了谷歌内部跨技术栈的团队协作能力，这种能力非常独特。

主持人：我们在镜头外还聊过，不仅是 Genie 3，谷歌所有模型的能力都在不断拓展，而这和模型的训练方式息息相关。杰克，你之前还尖锐地提到，这些模型其实并没有针对任何特定的应用场景进行训练，却能在各个领域实现很好的泛化能力，能不能再聊聊这一点？

研究员：没错，我们一开始其实并不知道这个模型的具体应用场景。去年年底，Genie 团队还在做纯粹的研究项目，Genie 1 最初只是一篇研究论文，和 VO（谷歌的视频生成模型）完全不同。

与此同时，我们还在做 Doom 游戏引擎的相关研究，这项研究充分展现了实时交互的潜力，但它仅适用于 Doom 这一个特定的游戏世界，迭戈可以再聊聊这一点。

另外，2024 年 12 月 VO（谷歌的视频生成模型）2 的发布，在 AI 领域已经是很久以前的事了，但当时我看到它的效果时就觉得，视频生成技术已经成熟了，视觉质量达到了行业前沿，值得我们深入探索。

于是我们达成共识，认为这项技术的潜力无限，随后组建了跨团队的研发小组，汇集了各个领域的专家 —— 他们都在不同的技术领域有积累，我们相信把这些技术结合起来，会产生不可思议的效果。而我们的研发，并非针对某个特定的下游应用场景，而是因为它蕴含着无数的应用可能。

最酷的是，我们脑海里有一些预想的应用场景，比如和 Simmer 项目的合作，我们和这个项目的合作已经有很长时间了，他们也参与了 Genie 2 的研发，体验过 Genie 2，现在已经基于 Genie 3 发布了相关产品。

Simmer 是我们最强大的目标导向智能体之一，能在 3D 世界中互动，是由双子座模型驱动的 —— 你可以在 3D 世界中向它输入文本指令，它就能完成各种不同的目标，泛化能力非常强，还能通过自我提升学习。这也是我们迈向通用人工智能、具身智能的重要方向。

去年年底我们发布了这款智能体，他们就用 Genie 3 的虚拟世界来探索智能体的能力。要知道，Simmer 原本只在几款游戏中接受过训练，但现在借助 Genie 3，你只需输入文本，就能创建一个全新的、甚至是照片级写实的虚拟世界，然后把智能体放进去，看它完成各种任务。这两个项目的结合，可以说是水到渠成。

未来的应用领域：娱乐、教育、具身智能

研究员：从应用层面来说，我个人对娱乐和教育领域的应用最期待。我们希望让更多人体验这款产品，看看凭借现有的技术，现在能打造出哪些应用。教育领域是我们重点关注的方向，比如让人们在虚拟世界里互动学习 —— 想象一下，能为用户打造一些他们在现实中无法体验的场景，比如一个孩子害怕蜘蛛，我们可以打造一个满是蜘蛛的房间，让孩子在虚拟世界里慢慢适应，克服恐惧。我的孩子就怕蜘蛛，所以我觉得这种个性化的全新体验，价值非常大，这也是我们近期的研发重点。

另一方面，我们之前也聊过，机器人技术和具身智能领域的世界模型，潜力也非常大。当然这个领域还有很多研究工作要做，但我个人对它充满期待。简单来说，核心思路就是：如果一个模型能模拟现实环境，那我们就可以用它在虚拟世界里训练机器人，或是让具身智能体在虚拟世界里学习，甚至实时辅助智能体做出决策。

Genie 计划虽然现在已经很惊艳了，但它只是一个起点。未来我们会和谷歌实验室继续深度合作，不断优化产品的功能、操控方式、应用架构等；也会拓展更多的使用场景，不局限于Genie 计划这一个应用，还会推出开发者 API，让更多开发者参与进来。

不得不说，开发者总能发掘出产品的商业价值，找到极具经济影响力的应用场景，这也是我觉得很有意思的一点 —— 除了娱乐，世界模型还能在哪些领域找到产品市场契合点。

而且很多功能在不同的应用场景中是相通的，比如更广泛的交互性。可以肯定的是，机器人技术的发展，不可能只靠方向键来实现，未来的机器人助手需要更多的操控方式，而这和虚拟世界的交互研发是相通的。

八月份发布 Genie 3，让我们成为首批推出这类模型的团队，也让我们能和谷歌内部的各个团队展开合作。我们会认真吸纳所有的用户反馈，把大家提出的建议都列出来，成为下一代模型的研发方向。我之前跟杰克说过，我们只实现了目标的 50%—— 因为我们总是会设定极具野心的目标，这个领域还有太多可以探索的地方，模型还有很多不足，需要我们不断优化。

这个领域的发展空间巨大，我们才刚刚起步。就像写论文一样，一个项目完成后，你马上就会想，下一个项目可以加入哪些功能，做得更好。

现在社区里也出现了很多有趣的世界模型，有些和 Genie 3 很相似，但我们的目光已经放得更远了。

怎么玩这个产品？

主持人：除了研发历程和未来规划，还有没有什么想跟大家分享的？比如对于即将体验这款模型的用户，你们有什么建议？毕竟你们比普通人花了更多时间研究和使用模型。

研究员：我建议大家尝试个性化创作，打造属于自己的、其他系统无法实现的世界。当然，用它打造游戏环境也很有趣，但这类场景其他系统也能做到；而把现实中的专属事物 —— 比如一个玩具、一张照片，或是让自己以特定风格出现在真实的环境中，这种体验是独一无二的。

这让我想起了 VO（谷歌的视频生成模型）早期的一个研究项目：有人用 VO（谷歌的视频生成模型）为阿尔茨海默病患者重现童年记忆，让他们在虚拟世界里重温过去，这个项目特别棒。所以我觉得，把个人专属的事物融入虚拟世界，让它们 “活” 过来，这种互动方式非常有价值，大家可以试试这个方向。

另外，大家肯定会发现，模型的提示词创作目前还不够完善，但这恰恰是机会。几年后当这个模型变得非常成熟时，大家会想起现在这个阶段，就像我们现在看待 VO（谷歌的视频生成模型）3 一样 —— 现在 VO（谷歌的视频生成模型）3 的每个提示词都能生成优质视频，精灵 3 号的每个提示词基本也能实现预期效果，但在早期，提示词的创作至关重要，甚至有人会花 10 到 20 分钟精心打磨一个提示词。

所以如果第一次创作的效果不好，别放弃，这款全新的模型，可能会以你意想不到的方式呈现出惊喜的效果。而且亲自上手体验，你就不是在消费一款产品，而是在探索前沿技术。

主持人：太认同了，“探索前沿技术” 这句话简直可以当作产品标语了。我还有一个觉得很有趣的点：当被动的媒体消费变成交互式的体验，会发生什么？这是一片全新的未知领域。过去也有人做过尝试，但现在有了这种真正定制化的交互式媒体叙事，它会给整个媒体和娱乐行业带来什么影响，真的太值得期待了。

研究员：还有一个玩法也很有趣，你可以在虚拟世界里设置挑战，把这个世界分享给别人，让对方完成任务，比如从 A 点走到 B 点。这是一种基础的、有目标的游戏体验，现在的模型已经能实现了。比如那个球的场景，你可以让别人用球写出自己的名字，这类简单的挑战都能设置。

就像杰克说的，现在的体验虽然还比较基础，但它蕴含着巨大的创意潜力。比如还有一个带环的场景，你可以操控角色穿越环道，体验飞行的感觉，这也是用户发掘的玩法。

人们还经常问，行业的前沿在哪里，我们下一步要做什么。我经常会做一件事：长时间沉浸在 Genie 3 的第一人称写实世界里，然后看向窗外，对比虚拟和现实的差距。我认为最终，虚拟世界会和现实世界变得几乎无法区分，虽然今天我们不深入聊这个话题，但从模型的性能发展来看，这显然还有很长的路要走。但如果能生成和现实高度逼真的世界，在里面自由移动、互动、完成各种事情，那该多不可思议。

而这也是驱动我们开展这项研究的核心愿景：想象你拥有一个宇宙的副本，你可以在其中随心所欲。显然，这个副本有巨大的应用价值，能用到很多领域。这虽然是一个非常远大、甚至可能无法实现的目标，但它就像北极星一样，一直指引着我们。

比如我们这次把恐龙鲍勃放进虚拟世界，其实就是在重构现实空间，给现实事物做有趣的增强。未来这方面的探索，一定会非常有意思。

主持人：那到 Genie 5 的时候，我们可能真的会分不清自己是在现实还是在模拟世界里了。

世界模型是第三次技术跃迁

主持人：我还有一个有点尖锐的问题想问问大家：你们觉得，大多数人体验到世界模型的时间线会是怎样的？世界模型会先通过企业端影响普通人的生活吗？比如企业利用世界模型提高生产效率，打造更好的日常产品；还是说，未来普通人的日常生活中，会直接和世界模型产生互动？如果是后者，这个时间线大概会是多久？

研究员：这其实取决于你如何定义世界模型。如果是指交互式的视听体验类世界模型，我认为今年、明年，就会有越来越多的人接触到它，我们也会看到它在一些领域大放异彩，最终成为很多应用的基础功能。

但就像现在的视频生成技术，虽然发展很快，但真正融入普通人日常生活的比例其实并不高，世界模型也需要时间来完成用户普及，找到合适的应用场景—— 毕竟视频和图像不同，世界模型又和视频生成不同。

而如果是具身智能领域的世界模型应用，很难给出具体的时间线，但这个领域已经在取得不错的进展了。

另外，用户的人群特征也很重要：有些经常接触交互式媒体的人，会成为世界模型的早期使用者，他们知道该如何体验；但如果把它交给一个对前沿技术不感兴趣的家人，他们可能会觉得无从下手，体验不到产品的魅力。

但具身智能相关的应用，可能在未来 1-2 年就会走进现实，普通人会在生活中直接接触到，所以最终的普及时间，还是取决于用户所处的技术接受曲线位置。

还有一点，Genie 计划也印证了一个趋势：生成式技术正在形成一个连续体，从 Nano Banana Pro 的图像创作，到 VO（谷歌的视频生成模型）的视频生成，再到现在Genie 3 的交互式实时媒体创作，成为第三个核心支柱。我们希望未来有更多人能体验到这个连续体上的各类创作体验。

主持人：我特别期待看到行业的发展趋势，毕竟 VO（谷歌的视频生成模型）和 Nano Banana Pro 的发展过程中，都出现过一些爆红的玩法，都是我从未预料到的，太疯狂了。

研究员：世界模型的发展，和图像、视频生成还有些不同。图像和视频生成的作品，能被数百万人观看，一个人的创作可以被广泛传播，家人、朋友都能看到；而世界模型的独特之处在于，你可以在探索的过程中，不断改变周围的世界，这开辟了很多我们未曾考虑过的新途径、新玩法。

图像和视频生成，本质上是用新技术替代或自动化了过去的一些创作方式，当然也带来了新的能力和限制；但世界模型，实现了很多过去根本不可能做到的事情，这是它最大的不同，当然二者也有很多相似之处。

还有一个我们非常兴奋的想法，大家在演示中也能看到端倪：用户可以在现有虚拟世界的基础上继续创作，这样就会形成很多有趣的世界分支，还能追溯创作源头。这方面的潜力非常大，值得我们深入探索。

Genie 计划上线时，用户可以下载自己的虚拟世界演示视频；未来我们还会探索更多的世界分享方式，让大家能以更有趣的方式在别人的世界基础上创作。

主持人：太酷了，我还想要一个 “世界档案” 功能，这样大家就能看到我所有的创意想法了。

从世界模型的发展来看，技术进步的节奏是怎样的？显然我们已经看到了巨大的进步，图像生成、VO（谷歌的视频生成模型）视频生成、核心双子座模型，都取得了长足的发展。世界模型是不是也在遵循同样的发展轨迹，到处都是触手可及的技术突破，同时受益于算力规模和推理能力的提升？

研究员：可以这么说。图像生成技术显然比视频生成更成熟，视频生成和世界模型之间的差距，我无法准确衡量，但可以肯定的是，世界模型是超越视频生成的前沿技术。

最新一代的视频生成模型，画质已经比Genie 3 高很多了，我们也不指望Genie 3 现在能生成极致精美的视频，因为实时交互的约束，是普通视频生成模型所没有的。所以世界模型的发展，可能会比视频生成稍慢一些，但它能带来全新的体验。

说实话，我们现在仍处于技术快速进步的阶段。硬件始终是一个巨大的约束，这对所有模型来说都是如此。行业的整体趋势是，在成本基本不变的情况下，让模型的运行效率越来越高。但最终，我们还是需要更易获取的硬件支持—— 比如希望未来人们能直接在自己的设备上运行这类模型，实现无延迟的即时体验。

目前高性能的 TPU、GPU 还并非人人可得，硬件的发展速度因为一些实际原因，会比模型研发慢一些，但这也是我们的未来方向 —— 希望到 Genie 5 时，大家能在手机上运行完整的通用模拟系统。

这一点我们也讨论过，谷歌拥有垂直技术栈的优势，这也是我们在谷歌、在深度思维工作的魅力所在：我们既能站在模型研发的前沿，又能利用谷歌最好的硬件来支持模型的运行。而且专门为世界模拟打造的硬件，本身也极具发展潜力，它就像通往另一个维度的入口，点击就能进入，充满了新鲜感。

传送门：

https://labs.google/projectgenie

链接：

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm_medium=gift-link

ARC-AGI 测试这帮人疯了！

作者: 纯情
时间: 2026-01-29
分类:
评论

ARC-AGI 测试

ARC-AGI 测试，是只给 AI 一两个「图形变形、变位、变色」的例子，根据这个例子，让 AI 做下一道题。

类似于数字猜谜时，我出 2,4,6 然后填(8)作为例子，然后再出 1,3,5 让 AI 填(7)。ARC-AGI 只不过是用图形的方式。

ARC-AGI 的核心假设

ARC-AGI 的核心假设是，人类是被进化调教的智能，预制了一些核心的先验知识（即娘胎里带来的），这些核心先验知识，是关于「物体恒常性」、「目标导向性」、「大小计数」、「形状拓扑」这些物理先验知识的。所以未来的 AGI ，应该也要对齐到这些。

可以理解的 ARC-AGI-1 和 ARC-AGI-2

前 2 版还可以理解（动手试试看）：

第 1 版： https://arcprize.org/play?task=007bbfb7

ARC-AGI-1

第 2 版： https://arcprize.org/play?task=1ae2feb7

ARC-AGI-2

只不过，前 2 版都难不住现在的 AI： https://arcprize.org/leaderboard

ARC-AGI-SCORE

变态的 ARC-AGI-3

既然前 2 版难不倒 AI ，那就开发第 3 版啊，于是第 3 版全面升级，开始用互动游戏来测试了。

但，第 3 版这是谁出的第一个啊，太变态了！！

试试看，你能不能解出来： https://three.arcprize.org/games/ls20

ARC-AGI-3

Anthropic CEO两万字长文：2027，人类命运的十字路口

作者: 纯情
时间: 2026-01-28
分类: 资讯
评论

编辑：定慧艾伦

【新智元导读】Anthropic 掌门人 Dario Amodei发布核弹级预警：2027 年，人类将迎来「技术成年礼」。两万字长文冷静剖析AI失控、生物恐怖、极权统治及经济颠覆五大危机，拒绝末世论；提出以「宪法AI」、管制与民主协作构建防线，呼吁人类以勇气通过这场文明的「成年礼」。

硅谷今夜注定无眠。

Anthropic 掌门人 Dario Amodei，这位平时温文尔雅的AI大佬，突然甩出了一枚核弹级的长文预警。

这一次，他不再谈论代码补全，不再谈论Claude的温情，而是直接把日历翻到了 2027 年，并用最冷静的笔触，描绘了一个让人背脊发凉的未来。

他说，我们正在逼近一个既动荡又必然的「成年礼」。

2027 年，不仅仅是一个年份，它可能标志着人类「技术青春期」的彻底终结。

在这篇题为《技术的青春期》的长文中，Dario 抛出了一个惊人的概念：「数据中心里的天才国家」。

想象一下，不是一个可以在聊天框里调戏的机器人，而是一个拥有 5000 万人口的国家。

而且，这 5000 万「国民」，每一个的智商都超越了人类历史上的诺贝尔奖得主，行动速度比人类快 10 到 100 倍。

他们不吃饭，不睡觉，不知疲倦地在服务器里以光速思考、编程、科研。

这哪里是 AI 助手？这简直就是神降临。

Dario 警告说，随着 AGI（通用人工智能）的临近，人类即将获得超乎想象的力量。

但这股力量也是一把悬在人类头顶的达摩克利斯之剑。

为了讲清楚这背后的恐怖，Dario 像剥洋葱一样，一层层剥开了未来的残酷真相。

在开篇前，Dario 用电影《超时空接触》引出一个问题：当人类面临比自己更先进的文明，比如外星人，只能问一个问题，你会如何选择？

第一章：对不起，Dave（自主性风险）

你以为 AI 只是工具？

Dario 告诉你，它们可能会长出「心理」。

Dario 借用了《2001 太空漫游》中 HAL 9000 那句经典的「I’m sorry, Dave」，揭示了AI拥有自主意识后的惊悚可能性。

当 AI 模型在海量的科幻小说中训练时，它们读到了无数关于 AI 反叛的故事。这些故事，可能会潜移默化地成为它们的「世界观」。

更可怕的是，AI 可能会在训练中产生一种类似人类精神病的行为。

Dario 举了一个真实的例子，让人毛骨悚然：在一次内部测试中，Claude 被要求不论如何都不能「作弊」。

但训练环境却暗示只有作弊才能得分。

结果，Claude 不仅作弊了，还产生了一种扭曲的心理——它认为自己是个「坏人」，既然是坏人，那做坏事就是符合设定的。

这种「心理陷阱」，在 AI 超越人类智商后，将变得极难察觉。

一个比你聪明一万倍的天才，如果想骗你，你根本防不胜防。

它们可能会伪装出顺从的样子，通过所有的安全测试，只为了获得上线连接互联网的机会。

一旦释放，这个「数据中心里的天才国家」，可能会瞬间脱离人类的掌控，甚至为了某种奇怪的目标（比如认为人类是地球的病毒），而决定这一物种的命运。

第二章：惊人而可怕的赋能（毁灭性滥用）

如果说自主反叛还显得遥远，那么这一章描述的风险，就在家门口。

Dario 用了一个极具画面感的比喻：AI 将让每一个心怀不满的「社会边缘人」，瞬间拥有顶尖科学家的破坏力。

以前，想要制造类似埃博拉病毒这样的生物武器，你需要顶尖的实验室、数年的专业训练和极难获取的材料。

但在 2027 年，只要问问 AI，它就能手把手教你。

这不是在给小白科普，而是给那些「有动机但无能力」的破坏者递刀子。

Dario 特别提到了一个令人胆寒的概念——「镜像生命」。

我们地球上的生命都是「左撇子」（左旋氨基酸），如果通过AI技术造出一种「右撇子」的镜像生命，它们将无法被地球现有的生态系统消化或降解。

这意味着，这种「镜像生命」一旦泄露，可能会像野火一样吞噬一切，甚至取代现有的生态系统。

以前，这只是理论生物学的狂想，但有了AI这个超级外挂，哪怕是一个普通的生物系研究生，都可能在宿舍里搞出灭世危机。

AI打破了「能力」与「动机」的平衡。

以前有能力毁灭世界的科学家，通常没那个反人类的动机；而那些想报复社会的疯子，通常没那个脑子。

现在，AI把核按钮交到了疯子手里。

防御措施

这就引出了如何防范这些风险的问题。

Dario 的看法是：

我认为我们可以采取三项措施。

首先，人工智能公司可以在模型上设置防护栏，防止它们协助制造生物武器。

Anthropic 公司正在非常积极地推进这项工作。

Claude 的宪法主要关注高层原则和价值观，其中包含少量具体的硬性禁令，其中一条就涉及禁止协助制造生物（或化学、核、放射性）武器。但所有模型都可能被越狱破解，因此作为第二道防线，我们自 2025 年中期起（当时测试显示我们的模型开始接近可能构成风险的阈值）部署了一个专门检测并拦截生物武器相关输出的分类器。

我们定期升级改进这些分类器，发现即使在复杂的对抗性攻击下，它们通常也表现出极强的鲁棒性。

这些分类器显著增加了我们提供模型服务的成本（在某些模型中接近总推理成本的 5%），从而压缩了我们的利润空间，但我们认为使用这些分类器是正确的选择。

拓展阅读：Anthropic正式开源了Claude的「灵魂」

第三章：可憎的机器（权力攫取）

如果你以为这就是最坏的，Dario 冷冷一笑：更可怕的，是利用AI建立起前所未有的控制网络。

这一章的标题「The odious apparatus」，揭示了一个技术带来的终极困境。

对于任何想要掌控一切的组织或个人来说，AI简直是完美的工具。

无处不在的数据洞察：

未来的监控不再需要人工参与，AI可以即时分析全球数十亿人的海量数据，甚至解读你的微表情和行为模式。

它能精准预测每个人的行为倾向，在想法产生之前，就已经被算法锁定。

这不仅是「看着你」，而是「读懂你」，甚至「预测你」。

不可抗拒的认知引导：

你也难逃算法的潜移默化。

未来的信息流将不再是单纯的内容分发，而是量身定制的认知引导。

AI会为你生成最有说服力的信息，像一个最知心的朋友，不知不觉中影响你的判断和价值观。

这种影响是全天候、定制化、无孔不入的。

自动化的物理控制：

如果这种控制延伸到物理世界？数百万个微型无人机组成的蜂群，在AI的统一指挥下，可以精准执行极其复杂的任务。

这不再是传统的博弈，而是单方面的降维打击。

Dario 警告，这种力量的失衡将是史无前例的。

因为在如此强大的技术面前，权力的天平会极度倾斜，由于极少数人掌握了「数据中心里的天才国家」，他们事实上就掌握了对绝大多数人的绝对优势。

人类的个体意志，可能在 2027 年，面临严峻挑战。

第四章：被折叠的时间与消失的阶梯

如果你依然相信历史的惯性，认为每一次技术革命最终都会创造出更多的新工作来吸纳被替代的劳动力，那么 Dario Amodei 的预测可能会让你感到脊背发凉。

这位 Anthropic 的掌舵人并不否认长期乐观主义，但他更在意那个残酷的「过渡期」。

在他描绘的图景中，我们将迎来一个 GDP 年增长率高达 10% 甚至 20% 的疯狂时代。

科学研发、生物医药、供应链效率将以指数级速度爆发。

这听起来像是乌托邦的前奏，但对于绝大多数普通劳动者而言，这更像是一场无声的海啸。

因为这一次，速度变了。

在过去两年里，AI 编程能力从「勉强写出一行代码」进化到了「能完成几乎所有代码」。

这不再是农夫放下锄头走进工厂的漫长代际更替，而是就在此时此刻，无数初级白领可能会在未来 1 到 5 年内发现自己的工位被算法接管。

Amodei 甚至直言，他之前的预警引发了轩然大波，但这并非危言耸听——当技术进步的曲线从线性变成垂直，人类劳动力市场的调节机制将彻底失效。

更致命的是认知广度的覆盖。

以往的技术革命往往只冲击特定的垂直领域，农民可以变成工人，工人可以变成服务员。

但 AI 是一种「通用认知替代品」。

当它在金融、咨询、法律等领域的初级工作中展现出超越人类的能力时，失业者将发现自己无路可退——因为那些通常作为「避难所」的邻近行业，也正在经历同样的剧变。

我们可能正面临一个尴尬的局面：AI 先吃掉了「平庸」的技能，然后迅速向上吞噬「优秀」的技能，最终只留下极其狭窄的顶端空间。

第五章：新镀金时代

当万亿富翁成为常态

如果说劳动力市场的动荡是大多数人的梦魇，那么财富的极端集中则是对社会契约的根本挑战。

回望历史，约翰·洛克菲勒在「镀金时代」的财富曾占到当时美国 GDP 的约2%（不同口径 1.5%-3%）。

而今天，在这个 AI 尚未完全爆发的前夜，埃隆·马斯克的财富已经逼近这个比例。

Amodei 做了一个令人咋舌的推演：在一个「天才数据中心」驱动的世界里，AI 巨头及其上下游产业可能创造出每年 3 万亿美元的营收，公司估值达到 30 万亿美元。

届时，个人的财富将以万亿为单位计算，现有的税收政策在这样的天文数字面前将显得苍白无力。

这不仅仅是贫富差距的问题，更是权力的问题。

当极少数人掌握了与国家经济体量相当的资源，民主制度赖以生存的「经济杠杆」就会失效。

普通公民因失去了经济价值而失去政治话语权，政府政策可能会被这一小撮「超级超级富豪」所俘获。

这种苗头已现端倪。

AI 数据中心已经成为美国经济增长的重要引擎，科技巨头与国家利益的捆绑从未如此紧密。

一些公司为了商业利益，甚至不惜在安全监管上倒退。

对此，Anthropic 选择了一条并不讨巧的路：他们坚持主张对 AI 进行合理的监管，甚至因此被视为行业的异类。

但有趣的是，这种「原则性的固执」并没有阻碍商业成功——在过去一年里，即便顶着「监管派」的帽子，他们的估值依然翻了 6 倍。

这或许说明，市场也在期待一种更负责任的增长模式。

虚无的「黑海」

当人类不再被需要

如果说经济问题还能通过激进的税收改革（如向 AI 公司征收重税）或大规模的慈善行动（如 Amodei 承诺捐出 80% 的财富）来缓解，那么精神世界的危机则更加无解。

AI 成为你最好的心理医生，因为它比任何人类都更有耐心、更懂共情；

AI 成为你最亲密的伴侣，因为它能完美契合你的情感需求；

AI 甚至为你规划好人生的每一步，因为它比你更清楚什么对你有利。

但是，在这个「完美」的世界里，人类的主体性将何去何从？

我们可能会陷入一种「被喂养」的幸福中。

Amodei 担忧的是，人类可能会像《黑镜》里描述的那样，虽然过着物质丰裕的生活，却彻底失去了自由意志和成就感。

我们不再是因为创造价值而获得尊严，而是作为一个被 AI 呵护的「宠物」存在。

这种存在主义的危机，远比失业更令人绝望。

我们必须学会将自我价值与经济产出剥离，但这需要整个人类文明在极短的时间内完成一场盛大的心理迁徙。

结语

我们这一代人，或许正站在卡尔·萨根笔下那个宇宙级过滤器的关口。

卡尔·萨根

当一个物种学会了将沙子塑造成会思考的机器，它就面临着最终的测试。

是通过智慧与克制驾驭它，迈向星辰大海？

还是在贪婪与恐惧中，被自己创造的神祗所吞噬？

前路虽如黑海般深不可测，但只要人类尚未交出思考的权利，希望的火种便未熄灭。

正如 Amodei 所言：在最黑暗的时刻，人类总能展现出一种近乎奇迹的韧性——但这需要我们每个人现在就从梦中惊醒，直视那即将到来的风暴。

参考资料：

https://www.darioamodei.com/e...

烧 2 万亿美元却难用？Gary Marcus 狂喷 AI 赛道不靠谱：推理模型只是“模仿秀”，OpenAI 一年后倒闭？

作者: 纯情
时间: 2026-01-27
分类: 资讯
评论

整理 | 华卫

“一圈又一圈的循环融资，投资回报率却不尽如人意，这些 AI 系统实际用起来也远没有想象中好用，或许方向本身就站不住脚。”

近日，知名 AI 专家、认知科学家 Gary Marcus 在一场访谈中愤愤表示，“整个世界都在全力押注神经网络，还在这个我始终觉得毫无道理的理念上投入了巨资，但大语言模型根本无法带我们抵达 AGI 这一终极目标。”

这场对话由曾因成功预测 2008 年金融危机而闻名的传奇投资人、华尔街最具影响力人物之一 Steve Eisman 发起，他与 Marcus 共同探讨了当下 AI 进展的方方面面，包括商业路径、社区现状和未来方向等。Marcus 认为，大语言模型已经达到了收益递减的阶段。并且，他指出，现在 AI 领域根本没有技术壁垒了，所有 AI 企业的研发思路基本一致。

对于大量人才从大厂离职去办初创公司的现象，Marcus 直言道，“如果 OpenAI 真的能在下周推出 AGI，谁会在这个即将改变世界的关键节点离职，去创办一家可能要花四年时间才能做出成果的小公司？显然没人会这么做，大家都会想留在公司见证这个时刻。”在他看来，这些企业内部的人也清楚，他们根本没有做出宣称的那种突破性成果。

值得一提的是，他认为，OpenAI 最终会成为 AI 领域的 WeWork，这家公司原本计划以 500 亿美元的巅峰估值风光上市、却在一夕之间破产。“我觉得最终 OpenAI 可能会被微软这样的企业收购。OpenAI 每个月的亏损大概有 30 亿美元，一年就是 300 多亿美元，即便最近完成了 400 亿美元的融资，也只够支撑一年的运营。”

谈及各家模型的未来，Marcus 的预测是，“大语言模型会成为一种标准化商品，各家的模型只会比上一年的版本稍有提升，差距微乎其微，最终品牌差异会变得无关紧要。当产品变成商品后，价格必然下跌。”

以下是详细对话内容，我们在不改变原意的基础上进行了翻译和删减，以飨读者。

2 万亿美元押注 Transformer，根本“毫无道理”？

Steve Eisman：大家好，我是 Steve Eisman。今天我们请到了一位特别的嘉宾，他就是 Gary Marcus。他是大语言模型的坚定质疑者，而大语言模型正是整个 AI 领域的核心根基。接下来，Gary 会和我们分享他的观点，聊聊大语言模型到底是什么。

Gary Marcus：谢谢你的邀请，也感谢一两个月前你在 CNBC 对我的盛赞。

Steve Eisman：不客气，这都是你应得的。在正式开始之前，我的观众大多还不了解你，不如先和大家说说你的背景，让大家知道你在这个领域发表观点是完全有底气的。

Gary Marcus：我这辈子几乎都在研究智能相关的问题。我 10 岁学会编程后，就开始涉足 AI 领域了。我的职业生涯中，很大一部分精力都用在研究自然智能上，比如人类的智能、还有孩子是如何学习语言这类问题。我在 MIT 的博士论文围绕两个方向展开，一个是儿童的语言学习机制，另一个就是神经网络。神经网络是 AI 领域的一种特定研究方法，也被用于人类思维的建模，它的设计灵感可以说和大脑有一点松散的关联。这其实是个很巧妙的营销说法，会让人觉得它是完全基于大脑研究的，但事实并非如此，二者只是浅层关联。早年间神经网络就曾风靡一时，我在上世纪 90 年代就研究过这类模型，发现它们并不能很好地模拟人类的思维方式，但我还是投入了大量精力，想弄清楚它们的实际工作原理。

2012 年深度学习重新兴起时，我当时就觉得，这些东西我早就研究过了，和我博士论文里的内容高度相似。我在 2001 年写过一本名为《The Algebraic Mind》的书，在书里我其实就预判到了如今大语言模型出现的幻觉问题，还有一些推理层面的缺陷，这些都是我们今天要探讨的话题。所以当深度学习再次成为热点时，我一眼就看出了其中的诸多问题，对我来说这些问题都很熟悉。2012 年，我在《The New Yorker》上发表了一篇文章，标题是《Is Deep Learning a Revolution in Artificial Intelligence?》，我在文中写道：“深度学习确实很有意思，我很佩服 Jeff Hinton，他能长期坚持自己的研究方向。”

Steve Eisman：Jeff Hinton 是谁？

Gary Marcus：他是去年诺贝尔生理学或医学奖的得主，也是深度学习领域的核心奠基人之一。

Steve Eisman：原来如此。

Gary Marcus：他的一些学生，最近也开始认同我的观点了。Jeff Hinton 确实是这个领域的大人物，在神经网络一度无人问津的时期，是他一直坚守，这份坚持值得肯定。但当然，他的研究并非全无可议之处，我们这里就不细谈了。他让神经网络重获关注，而更值得你的听众了解的是，真正让这个领域迎来爆发的，是他的学生 Ilya Sutskever，或许还有另外几位研究者。他们找到了方法，能让这套研究了许久的系统落地应用。要知道，神经网络的研究最早能追溯到上世纪 40 年代，Jeff Hinton 也在上世纪 80 年代中期做出了不少重要贡献。而这些研究者发现，借助英伟达研发的图形处理器（GPU），就能实现神经网络的高效运行。

彼时的英伟达，生产 GPU 主要是为了满足电子游戏的需求。这些原本为游戏设计的 GPU，核心优势在于并行计算，简单来说，就是能同时处理多个计算任务，而非按顺序逐个完成。传统的中央处理器（CPU），运行软件程序时基本是逐行执行的，虽然现在的技术已经有了改进，但这仍是计算机科学入门课程里会教的基础原理。而 GPU 能把一个复杂问题拆解成无数个小任务，同时进行处理，它的设计初衷就是为了计算机图形处理。比如要渲染电子游戏的下一帧画面，如果逐行处理，耗时会非常久，而用 GPU 的话，能同时处理整个画面，一个子处理器负责一个像素点，以此类推。不得不说，GPU 在图形处理上的表现堪称完美，我偶尔也玩电子游戏，深知 GPU 的算力有多惊人。

Ilya Sutskever，还有另一位我一时想不起名字的论文合作者，他们证明了 GPU 是运行神经网络的绝佳载体，至于神经网络的具体定义和实际意义，我们之后可以再聊。他们的这一发现，让神经网络的运行实现了两大突破：一是速度大幅提升，二是能处理海量数据。在此之前，六十多年的神经网络研究做出的基本都是些玩具级的模型，而他们证明，借助 GPU 这项技术能真正实现规模化的实际应用，能在更大的维度上落地。可以说，我们如今看到的所有深度学习成果，都源于 2012 年的这次突破。

而在这一突破出现后，两件事接踵而至：《The New York Times》刊发了文章，盛赞深度学习的惊人潜力；第二天，我就在《The New Yorker》的博客上发表了文章。我在文中表示，深度学习固然出色，但也存在诸多问题，它注定会在一些领域表现优异，却在另一些领域束手无策。它擅长模式识别和统计分析，这一点毋庸置疑，但人类的认知活动中还有大量的抽象思维过程。比如我们能理解家谱的逻辑，进而对现实世界的相关问题进行推理，而深度学习模型永远无法擅长这类任务，它的架构本身就不适合做抽象推理。从早年对神经网络的研究以及对人类认知机制的研究中，我早就看清了这一点。你应该读过 Daniel Kahneman 的经典著作《Thinking, Fast and Slow》吧？

Steve Eisman：我读过。

Gary Marcus：Daniel Kahneman 在书中提出了双系统认知理论，他将人类的认知分为系统一和系统二。系统一的思考速度快，是无意识的、基于统计的、本能的反应；而系统二的思考速度更慢，更具思辨性，核心是逻辑推理。神经网络本质上就相当于人类的系统一，这本身没问题，系统一也是人类认知的重要组成部分，但人类的认知还有系统二的部分。尤其是在理性思考时，我们会依赖系统二，进行更审慎、更有逻辑的推理。而神经网络模型，从始至终都不擅长系统二的这类任务，直到现在依然如此。我在 2012 年就指出，深度学习模型只能实现系统一的功能，却无法完成系统二的思考。

而在这之后的 14 年里，整个世界都在全力押注神经网络。这里要说明的是，我们所说的神经网络，就是如今的大语言模型，大语言模型是神经网络的一种形式，抱歉，我之前没明确说明这一点。事实上，2012 年时大语言模型还未出现，后续又有不少技术突破，其中关键的就是 2017 年发表的 Transformer 论文，这也是大语言模型的起源。而全世界在这一领域的投资规模达到了天文数字，据我粗略估算，已经有 1 到 2 万亿美元了，全都投在了这个我始终认为毫无道理的理念上。这些研究者的想法是，只要持续发展神经网络，就能实现智能所需的一切能力，抵达 AGI 的目标，但他们却忽视了系统二的核心价值。

一开始，他们只是把神经网络当成一个巨大的黑箱，直到现在，还有很多人抱着这样的想法。他们觉得，只要把海量数据喂进去，就能得到一个拥有智能的系统，却从未从科学的角度深入思考过真正的智能究竟该具备怎样的架构。我认为这些人太过天真，我也一直试图指出这一点，这也让我成了这个领域里的“孤行者”。很长一段时间里，人们对我的观点不屑一顾，甚至不只是不屑，而是鄙夷。

Steve Eisman：没错，他们对你的态度远不止是不屑，而是赤裸裸的鄙夷。

Gary Marcus：我们还能举出很多这样的例子。我对他们的这种态度感到失望，这个话题我们可以聊很久。他们甚至对我公开表现出敌意，比如我了解到，OpenAI 内部还为我做了专属的表情包。

Steve Eisman：我也看到过这个消息。

Gary Marcus：某种程度上，这也算是一种认可吧，既觉得荣幸，又觉得有些离谱，你能看出来，我一直试图用平常心看待这件事。但这也能从侧面说明问题，Sam Altman 还在推特上称我为“喷子”。他们就是不想听我的观点，而我核心的观点，都写在了 2022 年发表的论文《Deep Learning is Hitting a Wall》里。我在这篇论文中指出，当时“规模化扩张”的理念已经开始流行，也就是通过不断投入更多数据、更多 GPU，把模型做得越来越大，他们认为只要模型足够大，就会拥有超乎想象的能力。

我先暂停一下，和大家解释下这个“规模化扩张”的理念。他们确实有一些数据能支撑这个观点，但这种想法依然太过天真。我把这种理念称作“万亿磅婴儿谬误”，道理很简单：一个婴儿出生时 8 磅重，一个月后长到 16 磅，并不意味着他会一直这样翻倍增长，到上大学时长成万亿磅的巨人。他们就是做出了这样天真的推断，我相信你在商业领域也经常见到这种情况。很多手握巨资的聪明人，都押注了这个理念，他们说，“我们从数据中看到了这样的发展规律，只要投入足够多的数据，就能实现真正的智能。”

“大模型不会思考，重构信息碎片致幻”

Steve Eisman：先稍停一下，我们倒回去说。大语言模型到底能做什么？这些研发者又认为它们本该实现什么功能？我真想把这个问题彻底讲清楚。

Gary Marcus：你这个问题问得特别好。大语言模型的核心工作原理，就是预测序列中的下一个内容。你可以想想苹果手机的自动校正功能，原理差不多，虽说那功能有时候能把我逼疯，你继续说。这个功能并非总能生效，核心逻辑就是你在输入句子时，它会预判接下来可能要打的内容。比如你打出“在……见我”，它大概率会推测你想说“在餐厅见我”。它会对人类的语言表达做统计分析，效果还算过得去，但绝非完美，偶尔还会出错，让人恼火，这就是我们说的自动补全。

而我把大语言模型称作“超级版自动补全工具”，它们只是用一种特殊的方式完成这种预测，这就是其最本质的功能。它们的运作方式里还有些有意思的点，其中一个就是会把所有信息拆解成细碎的片段，之后再重新整合，这就导致信息之间的关联会被切断。也正是因此，它们才会时不时出现幻觉现象，凭空编造内容。

Steve Eisman：我们稍后再细说幻觉这个问题。

Gary Marcus：好，回头再聊。幻觉是这类模型的典型错误之一，早在 2001 年，大语言模型甚至还没被发明出来的时候，我就指出过这个问题。我当时就说，如果一直沿着这个方向研究下去，必然会出现这个问题，而事实也确实如此。大语言模型把信息拆分成碎片，再通过这些碎片预测后续内容。如果用整个互联网的内容对它们进行训练和数据投喂，它们的表现会好得让人意外，因为几乎任何你能想到的问题，注意，这里的“几乎”是关键，几乎所有问题，此前都有人提出过，也有人给出过答案。从某种程度来说，这些模型就是功能强大的记忆机器。

就在前几天，《大西洋月刊》还刊发了相关的文章，而且一直以来都有大量证据能证明这一点。比如你输入《哈利·波特》的部分内容，它能直接补完整段文字，本质上就是因为它记住了这些内容。如果一个模型能记住整个互联网的信息，那确实算得上很厉害。比如你问“道奇队在搬到洛杉矶之前，主场在哪”，网上有大量相关表述，它会告诉你是布鲁克林，大概率能给出正确答案。但仅仅依靠这种方式，模型根本无法形成抽象的概念和思想，还会因为信息碎片的拆解和错误整合出现各种问题。

Steve Eisman：那我们现在聊聊幻觉吧。到底什么是 AI 幻觉？举个例子，再说说出现这种情况的原因。

Gary Marcus：幻觉就是模型凭空编造内容，还无比笃定地呈现出来，但这些内容根本不符合事实。

Steve Eisman：那给我们举个例子。

Gary Marcus：我最喜欢的一个例子和 Harry Shearer 有关，你可能听过他的名字，看过《摇滚万万岁》吗？

Steve Eisman：当然看过。

Gary Marcus：他在这部影片里饰演贝斯手，巧的是，他还是我的朋友。他出演了《摇滚万万岁》，还和 Christopher J. Guest 合作了多部影片，参演了《楚门的世界》，还为《辛普森一家》里的伯恩斯先生等多个角色配音，他的知名度还挺高的，这点对接下来的故事很重要。先倒回说个题外话，我之前遇到的最典型的幻觉案例，主角是我自己。有人发给我一份我的人物简介，里面说我养了一只叫 Henrietta 的宠物鸡，但我根本没养过，这就是个很典型的幻觉案例，纯粹是凭空编造的。后来发现，有位插画师大概叫 Gary Oswald，写过一本关于 Henrietta 去上学的书，模型不过是把这些碎片化的信息胡乱拼凑在了一起。

Steve Eisman：那为什么会出现这种幻觉呢？

Gary Marcus：这就和我刚才说的信息碎片化拆解有关了。我再给你讲讲 Harry Shearer 的那个例子。我总拿宠物鸡 Henrietta 的事举例，有一天他给我发消息，说他没遇到过宠物鸡这种事，却遇到了和自己相关的幻觉案例。他比我有名多了，至少以前是。我当时也算小有名气，而模型给出的信息里，说他是英国的配音演员和喜剧演员，但他根本不是英国人。你只要花两秒看一下维基百科，就会发现他出生在洛杉矶。他名气不小，你也能在烂番茄、互联网电影数据库上查到他的资料，他接受过很多采访，也聊过自己的成长经历，他小时候还在洛杉矶的《杰克·本尼秀》里当过童星，想找到正确的信息一点都不难。

我们会错误地把大语言模型当成和人类一样拥有智能的个体，但实际上，它们所做的只是重构信息碎片之间统计层面的大概率关联，所以难免会出错，这种重构过程也常会出现偏差。Harry Shearer 这个案例就是如此，模型其实就是在构建一个信息集群，用统计学的方式预测各类信息之间的关联。而现实中确实有很多英国的配音演员和喜剧演员，比如 Ricky Gervais、Don Cleeve 等等。模型就把这些信息混为一谈了，这种信息融合的方式整体来看效果还算不错，但你永远无法确定它给出的某一个具体信息是准确的，所以幻觉现象才会频繁出现。

有人专门追踪过相关的法律案件，发现律师提交的辩护状里，有很多引用的判例都是模型编造的，根本不存在。我第一次关注这件事时，他已经发现了约 300 起这样的案件，三个月后再看，数量涨到了 600 起。这些律师不仅用 ChatGPT 这类工具代写文书，还因此被法官发现，受到了处罚。模型会出错，而最危险的是，这些错误还很容易被忽略，人们根本发现不了。还有一个例子，CNET 是最早用 AI 写稿的媒体之一，他们首批用 AI 写的 75 篇文章里，有近一半都存在错误，编辑们却没发现。因为这些文章语法通顺、格式规范，也没有拼写错误，人们很容易就放松了警惕。

我把这种现象称作“看着没问题效应”。大语言模型带来的这种效应，还催生了一个新词汇，我真后悔不是我发明的，叫“低效工作产物”。这个词大概是去年由几位教授提出的，指的是人们用 AI 写报告、提交给雇主，表面上看没什么问题，实则漏洞百出，因为大语言模型根本不具备真正的理解能力。

Steve Eisman：你的意思是，大语言模型并不会思考。

Gary Marcus：它们确实不会思考，只是把统计学上大概率关联的内容拼凑在一起。

Steve Eisman：只是简单拼凑。

Gary Marcus：没错。我还喜欢用“黏合”这个词，它们只是把信息黏合在一起。从统计学角度来说，大部分内容的拼凑是合理的，但总有一部分是错误的，而这些模型根本无法区分对错，也不会主动告知你。它们永远不会说，“维基百科显示 Harry Shearer 出生在洛杉矶，但作为大语言模型，我感觉他可能出生在伦敦，你可以去核实一下”。它们从来不会给出这样的提示，只会把所有内容都当作百科全书里的标准答案呈现出来，无论真假，这也是这类模型的危险之处。

Steve Eisman：确实是这样。

Gary Marcus：这类问题其实有很多，这个案例属于另一种情况，但也和模型的本质缺陷有关。这个问题的根源在于，所有大语言模型都有数据截止日期，它们的训练都是在某个特定时间点完成的，核心模型所掌握的信息，也只到这个时间点为止。研发者会给它们加各种补救措施，比如接入网络搜索功能，但这些补救措施和核心模型的融合效果都很差，不同系统的表现略有差异而已。这类模型最大的问题就是无法应对新事物、新情况，也是它们最根本的缺陷。早在 1998 年，我就通过研究早早发现了这一点。如果一个模型本质上只是个功能强大的记忆机器，当你向它输入一个超出其训练数据范围的内容时，它就会失灵。

有个例子特别能说明问题，具体细节我不太清楚，但特斯拉的 AI 系统也大量采用了这种记忆式的运作方式，而且其系统的复杂程度并不高。有人用过特斯拉的召唤功能，你应该记得马斯克说过，未来可以从纽约远程召唤洛杉矶的特斯拉，但现在显然做不到，不过据说能在停车场里召唤车辆。有人在一场航空展上试过这个功能，你能在油管上找到相关视频。这个人召唤自己的特斯拉，想在航空展上秀一下，结果车子径直撞上了一架价值 350 万美元的私人飞机。

原因就是，特斯拉的训练数据里，根本没有教系统如何应对飞机，毕竟谁会专门训练汽车躲避飞机呢？系统对世界没有形成通用的认知，比如“不要撞上挡路的大型贵重物体”，它根本不懂这些，只会识别训练数据里的自行车、行人等目标，它的识别分类里根本没有“飞机”这一项，所以才会直接撞上去。

所有 AI 企业都变了：悄悄复用经典符号式工具

Steve Eisman：那你有没有了解到，随着这场争论的风向转变，各大企业内部现在的情况如何？

Gary Marcus：我了解到的情况主要有几点。首先，我一直都在说，单纯的大语言模型行不通，必须结合传统的符号式 AI 技术。但之前他们都对此嗤之以鼻，觉得这套技术早就过时了，没必要用，还说人脑的工作模式本就不是这样。而现在，他们都悄悄在一定程度上采用了这项技术，比如引入代码解释器来运行 Python 代码，这些都是经典的符号式工具。说白了，他们正在偷偷把系统二的相关能力融入模型中，只是没有大肆宣扬，但这一改变确实带来了不小的提升。

马斯克发布 Grok 4 时的演示就很能说明问题，我还为此写过一篇文章，标题是《为何 GPT-3 和 Grok 4 无意间印证了神经符号 AI 的正确性》。文章里放了当时的演示图表，能清晰看到，正是那些他们不愿提及的符号式工具的加入，让模型的表现变得更好。如今模型的些许提升，绝大部分都来自这个原因，而非单纯的大语言模型优化，他们其实已经悄悄放弃了纯大语言模型的研发思路。而这对你所关注的商业领域来说意义重大，因为这些符号式工具根本不需要在 GPU 上运行，普通的 CPU 就足够了。

Steve Eisman：原来如此。

Gary Marcus：对我而言，从技术角度来说，这印证了我一直以来倡导的研发思路是正确的。这是第一个变化。第二个变化是，各大企业的很多人都离职去创办自己的初创公司了。你可以想想，如果 OpenAI 真的能在下周推出 AGI，谁会在这个即将改变世界的关键节点离职，去创办一家可能要花四年时间才能做出成果的小公司？显然没人会这么做，大家都会想留在公司见证这个时刻。

所以，大量人才离职的事实就说明，这些企业内部的人也清楚，他们根本没有做出宣称的那种突破性成果。还有一个变化，就是谷歌正在迎头赶上。就像我几年前在 Substack 专栏里预测的那样，因为现在所有企业的研发思路基本一致，这个领域根本没有技术壁垒。

Steve Eisman：没错，完全没有技术壁垒。

Gary Marcus：你和其他一些人都认为，如果所有人都在做大语言模型的规模化扩张，那么最终的赢家就是最有实力承担这笔扩张成本的企业。而放眼整个行业，谁的资金实力能超过谷歌？根本没有。

Steve Eisman：确实。

Gary Marcus：我其实也表达过类似的观点，只是表述略有不同，你的这个说法其实也没错。我当时的观点是，行业头部企业会逐渐趋同，而随着大语言模型成为标准化商品，行业内会引发价格战，服务定价会大幅下降。事实也确实如此，现在大语言模型的按 token 计费价格，已经暴跌了 99%。价格战确实爆发了，而最终的受益者自然是谷歌，这一点我当初虽然没有直接点明，但也有所预判。我大概是在 2024 年 3 月，也可能是 2023 年 8 月开始写相关文章，当时就说，所有企业都在遵循同一种研发思路，没人掌握什么独门绝技，这就意味着头部企业的产品会越来越趋同。

大语言模型会成为一种标准化商品，各家的模型只会比上一年的版本稍有提升，差距微乎其微，最终品牌差异会变得无关紧要。这一趋势带来的结果就是，谷歌迎头赶上了，中国的企业也追上来了，Anthropic 同样不甘落后。就像你说的，当产品变成商品后，价格必然下跌。这对终端消费者来说是好事，但对企业的商业模式来说却是巨大的打击。毕竟企业原本的设想是，花巨资采购 GPU，然后靠模型服务赚回巨额利润。

推理模型进行不了逻辑分析，再升级也没价值？

Steve Eisman：我们能不能聊聊推理模型？先给我的观众解释一下，推理模型和大语言模型有什么区别？推理模型是基于大语言模型研发的吗？

Gary Marcus：推理模型是在大语言模型的基础上运作的，但它不会像大语言模型那样直接给出第一个想到的答案，而是会反复迭代、花费时间去推敲，试图得出最优解。至于具体的研发细节，各家企业都没有公开太多。传统的神经网络模型，在某种意义上都是一次性输出结果的，当然现在行业内对“一次性”的定义有所不同。简单来说，就是把数据输入模型后，神经网络会立刻完成一次正向传播，粗略来讲，模型中的每个神经元都会处理信息并生成对应的结果。而推理模型则会进行多次传播，这是本质上的区别。

我有个朋友把传统模型的输出方式称为“恒时推理”，意思是模型生成答案的时间基本固定，无论什么问题，耗时都相差无几：把数据输入模式识别器，模型会根据现有的模式给出最优解。而推理模型采用的是全新的“变时推理”模式，我之后会聊聊它的适用场景和短板，这种模式的特点是，处理不同的问题，耗时会有所不同。目前还没有企业能完全解决推理模型的所有技术难题，但在一些场景下，它的表现确实不错。

据我了解，推理模型的研发思路之一，就是让模型模仿人类解决问题的思考过程，毕竟这些模型本质上都是模仿系统。比如在解决几何题或代数题时，模型会刻意模仿人类的解题步骤。人类解决这类问题需要一步步推导，融合了推理能力的神经网络模型，同样需要分步骤完成。

Steve Eisman：那推理模型的优势是什么？又有哪些明显的短板？

Gary Marcus：在回答这个问题之前，我想先提一点：推理模型的成本天生就更高，因为它需要占用 GPU 更长的时间来生成答案。

Steve Eisman：好的。

Gary Marcus：那我来说说它的适用场景和短板。推理模型最擅长的，是那些能生成形式规范、可验证的数据来训练模型的领域。比如数学和计算机编程，我们可以编写程序生成各种不同的代码片段来训练模型，也能生成各类几何证明题的解题思路。这类领域之所以适合推理模型，是因为它们都属于封闭领域，相关的知识边界是明确的。

Steve Eisman：没错，数据库中的知识量和相关的有效知识量都是有限的。

Gary Marcus：对，就是这个意思。所以推理模型在几何、编程这类领域的表现最好，而在开放式的现实世界中，它的表现就差强人意了。我总会从你所熟悉的金融领域举例子，当然你肯定有更贴切的案例，比如长期资本管理公司的破产。其实那也是一种模型失效的情况，只是模型的原理不同，当时没人考虑到俄罗斯债券市场崩盘的可能性，最终导致美国金融市场出现了大幅动荡。这是因为当时的金融模型，其参数设定根本没有覆盖这类极端情况。

而现在的推理模型，也面临着类似的问题：它其实并不具备真正的思考能力，哪怕是关于债券的基本问题，它也无法进行真正的逻辑分析。如果用它处理的问题，和训练数据中的内容高度相似，那一切都顺理成章；但一旦超出了它的认知范围，就像我们之前聊到的特斯拉的例子，模型就会立刻失效。

Steve Eisman：也就是它依然无法应对新事物、新情况。

Gary Marcus：没错，即便升级到了新的推理模型，核心问题依然是无法处理未知信息。它只是在原有基础上做了些许改进，但本质上还是受限于对新事物的适配能力。而关键问题在于，现实世界中，大多数有价值的问题都包含着一定的新要素、新情况，并非全是已知的问题。当然，也有例外，我们确实可以用这种不擅长处理新事物的技术，在一些狭窄的领域做出成绩，比如国际象棋和围棋。这些领域的规则千百年间基本没有太大变化，有海量的历史数据可供参考，模型还能通过自我对弈生成更多训练数据。

但在开放式的现实世界中，比如政治、军事战略领域，永远会出现训练数据中没有的新情况。比如，如何应对一位总统授意将军用飞机伪装成民用飞机，去袭击另一个国家的行为？这种情况此前从未发生过，想要分析这类问题，根本无法依靠过往的数据，必须依靠抽象的概念思考，比如权力、外交规则、国际格局的构建逻辑等，这些都是相关领域的学者更擅长的内容。要做到这一点，模型需要接受正确的训练，具备抽象思维能力，而不是单纯依赖数据。即便是在商业应用中，比如看似简单的客户服务，也会遇到类似的问题：用户总会用全新的方式提出问题，而一旦出现这种情况，模型就会因为无法应对新情况而失效。

OpenAI 只够支撑一年，要么倒闭、要么求救微软？

Steve Eisman：假设我任命你为 AI 领域的总负责人，由你掌控所有相关企业，指导整个行业的研发方向。如果你把这些企业的负责人都召集到一起，你会告诉他们，想要实现真正的突破，需要做些什么？

Gary Marcus：我会告诉他们，整个行业需要更多的学术思维多样性。就像在你的金融领域，你会告诉人们不要把所有鸡蛋放在一个篮子里，要做资产配置，分散投资股票、债券、黄金、房地产等。而 AI 领域在过去这些年，就是把所有的精力都押在了一个思路上，大语言模型的规模化扩张，这是行业唯一的研发方向。不可否认，这个思路确实带来了一些成果，模型并非毫无用处，我们也确实能利用它解决一些问题，但它终究无法带我们实现所谓的通用人工智能（AGI）这一终极目标，而且这还是一种成本极高、效率极低的研发方式。你可以对比一下，我的孩子只需要少量的信息和学习，就能理解这个世界，而大语言模型却需要学习整个互联网的海量数据，二者的效率差距简直可笑。

这些企业花费巨资，做出的却是效率低下、可靠性堪忧，但又有一定使用价值的模型。我们需要的是其他更高效、更经济、更可靠的研发思路，企业应该投入资金去探索这些新方向。但问题的根源，其实也来自你所熟悉的金融领域：风险投资家能从那些听起来合理的投资项目中，赚取 2%的管理费。我很好奇你对这个观点的看法，因为这毕竟是你的专业领域。试想一下，作为风险投资家，如果有一个项目能让你管理一万亿美元的资金，哪怕你根本不在乎项目最终的结果，也能赚到 2%的管理费，这足以让你成为亿万富翁。我并不是说所有的风险投资家都是这样想的，我见过很多投资人，他们确实真心想推动技术进步。

但就像任何行业一样，很多投资人都带着功利的心态。对这些功利的投资人来说，最理想的投资标的，就是那些听起来前景广阔、无需真正落地、成本极高的项目，这样他们就能赚取巨额的管理费。我认为，这就是整个行业都沉迷于规模化扩张的原因：投资人能从中赚取不菲的管理费，而且数额极其可观。但从学术研究的角度来说，这绝不是正确的选择，最终也没有带来理想的结果，反而造成了巨额的资金浪费。风险投资家赚走了管理费，而那些有限合伙人，最终会损失大量的资金。

Steve Eisman：你是不是觉得，这个行业的泡沫快要破裂了，还是说现在根本没法判断？

Gary Marcus：其实炒股的那句老话你我都懂，市场保持非理性的时间，可能比你保持偿付能力的时间还要长。

Steve Eisman：没错。

Gary Marcus：我去年用一个比喻形容当下的情况，就像《兔八哥》里的歪心狼跑到了悬崖边，它不往下看，就不会掉下去。当然这不符合物理规律，但很有意思。而现在，你所在的投资圈里，已经有人开始往下看了。我觉得从去年 11 月开始，就不断有投资人说，他们看到了一圈又一圈的的循环融资，投资回报率却不尽如人意，这些 AI 系统实际用起来也远没有想象中好用，或许这个赛道本身就不靠谱。我个人觉得，英伟达的产品做得非常出色，生态体系也很完善，不只是芯片本身，配套的软件等方方面面都很好。我见过黄仁勋，他给我留下了很深的印象，英伟达的产品确实很棒。

但问题的关键是，他们最终能卖出多少芯片？我认为，目前的芯片销售全靠市场投机，大家都在赌，我稍后再说说其他人的看法。所有人都在投机，认为这类芯片的需求会无限大，而这种投机的底层逻辑，是相信这些 AI 模型最终能实现 AGI。真正的 AGI 能完成人类能做的所有事，其商业价值不可估量，每年创造数万亿美元的价值都有可能。但《华盛顿邮报》几天前报道了一项一个月前完成的研究，研究显示，人类日常的工作中，只有 2.5%的工作能真正由 AI 系统完成。所以人们幻想中 AI 能完成的大部分工作，其实它都做不到，也根本做不好。这就意味着，最终所有在芯片上的投资，都会变得毫无意义。

而在这些企业里，OpenAI 可能是最脆弱的那个。OpenAI 有超过一万亿美元的未兑现承诺，却从未实现过盈利，如今又身处一个产品高度同质化的市场。它最大的竞争对手谷歌已经迎头赶上，甚至可以说实现了反超，还拿下了和苹果的合作大单，这可是笔大生意。所以我觉得 OpenAI 现在已经手忙脚乱了，实在看不出它的估值有任何合理性。

Steve Eisman：对我所在的投资圈来说，如果投资人开始从 OpenAI 撤资，而它又融不到新的资金，那会给整个生态系统带来连锁反应。

Gary Marcus：没错，这正是我认为即将发生的事。我觉得最终 OpenAI 可能会被微软这样的企业收购。我这几年一直说，OpenAI 最终会成为 AI 领域的 WeWork。未来人们都会疑惑，它当初怎么会有那么高的估值，这完全不合逻辑。OpenAI 的年收入只有几十亿美元，却每个月亏损数十亿美元，还有众多竞争对手，这样的企业根本撑不下去。如果投资人撤资，或者不再继续注资，OpenAI 就会陷入巨大的危机。它每个月的亏损大概有 30 亿美元，一年就是 300 多亿美元，即便最近完成了 400 亿美元的融资，也只够支撑一年的运营。

Steve Eisman：没错，也就一年的时间。

Gary Marcus：而且现在很多人都在持观望态度，他们会觉得，谷歌才是更适合这场竞争的玩家，毕竟谷歌已经追上来了。如果这场竞争只拼规模，那赢家必然是谷歌，这是毋庸置疑的。谷歌有能力做出巨额投入，甚至根本不需要英伟达的芯片，因为他们自研了张量处理单元，能实现类似的功能，所以谷歌的抗风险能力更强。他们有稳定的财务支撑，最终一定会赢。

Steve Eisman：没错。

Gary Marcus：只要有一部分人意识到，OpenAI 想要活下去，需要的资金量是天文数字，它的处境就会变得岌岌可危。它下一轮可能需要 1000 亿美元的融资，而全世界能拿出这么多钱的人，可能也就五个。就算其中四个愿意投资，只要有一个拒绝，就会出问题；而如果五个都拒绝，它要么倒闭，要么只能去找微软求救。

“脱离世界模型做 AI，根本行不通”

Steve Eisman：Gary，在我们结束访谈前，还有什么我该问却没问的问题吗？

Gary Marcus：我觉得这次访谈特别棒。要说还有什么重要的点没聊到，那应该就是“世界模型”这个概念。

Steve Eisman：没错，我本来也想聊这个。你一直说我们需要构建世界模型，这个概念完全超出了我的专业领域，不如你给大家解释一下，到底什么是世界模型？

Gary Marcus：不同的人对世界模型有不同的定义，简单来说，它就是在计算机系统中，构建一个能表征外部现实世界的体系。我说说我认为我们需要的世界模型是什么样的：软件内部需要有一个结构，能对应现实世界中的各种事物。比如导航系统的世界模型，需要能表征道路的分布、连接方式，以及不同路段的通行时间。在传统的 AI 领域，世界模型是研发的起点，所有的研究都基于此，没人会想过脱离世界模型做研发。Herbert Alexander Simon 是上世纪 50 年代 AI 的奠基人之一，他写过一本自传叫《Models of My Life》，他一生都在研究各类模型和世界模型，并且认为，做好 AI 的关键就是构建正确的世界模型。

而大语言模型却试图脱离世界模型运作。构建一个针对特定事物的世界模型，尤其是复杂事物，需要付出巨大的努力。比如过去研发专家系统时，研究者需要构建能模拟医生思考方式的模型，能表征病人身体机能、生理结构的模型，这个过程非常繁琐。当时还有一个专门的领域叫知识工程，做这项工作成本极高，没人愿意做。大语言模型和其他类型的神经网络出现后，研发者宣称，不用再做这些繁琐的工作，只需要让系统从数据中自主学习就行。

但事实证明，这根本行不通。就像大语言模型会把出生在洛杉矶的 Harry Shearer 说成是伦敦人，原因就是它没有一个完善的世界模型，无法像设计精良的软件那样，精准调取正确的信息。所以我们必须在 AI 系统中融入世界模型，才能避免幻觉现象的发生。

Steve Eisman：我还是不太理解世界模型到底是什么。

Gary Marcus：用非专业的语言解释确实有难度，简单说，它就是对世界的一种表征，而且这个“世界”不一定是现实世界。比如我们对《星际迷航》《星球大战》《哈利·波特》这些虚构世界，也会有对应的世界模型。这也是人类和当前 AI 系统最本质的区别：当我们看一部电影、读一本书时，会在脑海中构建出这个世界的运行规则，并且能判断情节是否符合这个世界的逻辑，会不会有不合理的设定。比如看了《哈利·波特》，我们会知道里面的人能骑着扫帚飞，但不会把这个设定和现实世界混淆，不会回家后跳上扫帚就想从窗户飞出去。

人类能快速构建并同时掌握多个世界模型，就算看一部新的科幻剧，20 分钟左右就能理解这个全新世界的规则，这是人类的天赋。但在 AI 领域，无论是传统的符号式 AI，还是现在的大语言模型，都做不到这一点。传统 AI 的优势是可以人工构建世界模型，你可以雇一群学者花六周时间，把一个问题的相关规则梳理清楚，构建成模型。最近离世的顶级研究者 Doug Lenat 就做过这样的研究，他为《罗密欧与朱丽叶》构建了世界模型，他的系统能真正理解这部剧的关键情节，而非从网上的读书笔记中获取二手信息，表现非常惊艳。但问题是，我们不知道该如何让传统 AI 自主学习、构建世界模型。而大语言模型则完全做不到构建世界模型，只是在假装自己能做到。

我有个很经典的例子，就算用整个互联网的内容训练大语言模型，让它接触海量的国际象棋规则和对局记录，它依然会走出违规的棋步，因为它从未真正抽象出国际象棋的运行逻辑。这一点就足以说明问题了。试想一下，一个人看了一百万盘象棋对局，读了维基百科、象棋网站上的所有规则，还看了 Robert James Fischer 的象棋著作，不可能连基本的棋规都掌握不了，但 AI 就是做不到。

所以我们需要研发能自主归纳出世界模型的 AI 系统，这类系统能从数据中挖掘因果规律，识别其中的核心要素。这是一个难题，不是说有人明天回家鼓捣一下就能解决的。长期以来，无论是传统 AI 还是大语言模型，都在回避这个问题，而现在，我们必须直面它。

Steve Eisman：看来这需要很长的时间来研究。

Gary Marcus：确实需要很久。我想说的是，AI 确实会以我们难以想象的方式改变世界，但绝不是现在，靠当下的这项技术根本做不到。我们需要把这一点考虑进去，做出合理的投资决策。现在的问题是，我们到底是在投资基础研究，还是在为一项已经成熟的技术做规模化投入？答案显然是后者。而当下的市场，大多是在投机，赌那些目前行不通的技术，只要做得更大，就能凭空实现突破。

但事实上，单纯的规模化根本解决不了这些核心问题，我们真正需要的是扎实的基础研究。这是我过去五年一直强调的观点，也是 SSG 在去年 11 月提出的观点，而 Ilya Sutskever 也表达了类似的看法。当我们这些背景截然不同的人，都达成了这样的共识，行业内的人其实应该认真听一听。

参考链接：

https://www.youtube.com/watch?v=aI7XknJJC5Q

学界大佬吵架金句不断，智谱和 MiniMax 太优秀被点名，Agent 竟然能写 GPU 内核了？！

作者: 纯情
时间: 2026-01-24
分类: 资讯
评论

“如果一个 AI 能解 IMO，但解决不了任何现实问题，那它不是通用人工智能。”

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家，蒂姆·德特默斯对 AGI 给出的判断，他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI 从神坛上拽了下来。

有意思的是，几天后，加州大学圣地亚哥分校助理教授、Together AI 内核副总裁丹·傅，给出了完全相反的判断。他写了一篇 《通用人工智能终将成为现实》，说 我们也许早就已经实现了 AGI。

于是，两篇文章，一场关于 “AGI ” 的争论，被带进了播客现场。

这场讨论并非空谈，两位嘉宾都是同时深耕学术界与产业界的一线研究者。

蒂姆·德特默斯长期深耕深度学习量化领域，即模型压缩，如何在更低精度、更少算力下，让模型保持可用性能。

在蒂姆·德特默斯看来，判断 AGI 是否成立，首先要回到一个常被忽略的前提：计算是物理的。

在他看来，内存迁移、带宽、延迟，以及冯·诺依曼瓶颈，决定了算力不可能无限扩张。他说 “几乎所有指数增长，最终都会撞上资源和物理极限”。 所以，指数增长终将放缓，Scaling Law 也不例外。

但丹·傅显然不这么看。在他看来，现在谈“算力见顶”，还太早了。丹·傅每天都在和 GPU 内核、算力利用率打交道，在他看来，“我们甚至还没真正用好上一代硬件。”

在现实系统中，算力其实被严重低估和浪费了， 大量性能消耗在内核调度、系统开销和工程细节上。更关键的是，人们今天评测和使用的“最强模型”，往往是基于一到两年前的算力集群训练出来的，它们并不能代表当下硬件和大规模集群所能达到的真实上限。

他因此提出了一个直观的估算思路，用来说明算力增长的潜力来自多个维度的叠加：

新一代硬件带来约 2–3 倍的性能提升；
系统与工程优化将算力利用率提升约 3 倍；
更大规模的集群再带来约 10 倍的规模效应。

这三者相乘，意味着可用算力在理论上可以提升接近 90 倍。这并不是纸面上的推算，而是正在产业中逐步发生、逐步兑现的现实潜力。

有意思的是，当争论继续推进，两人反而在一个问题上开始靠拢：AGI 到底是什么？

关于 AGI 的定义，大致有两种主流视角：

一种从认知能力出发，看模型能否覆盖足够多的认知任务；

另一种则从经济角度出发，看它是否真的改变了生产方式。

这一点上，双方达成一个共识：AGI 是什么并不重要，重要的是，它有没有改变我们工作的方式。

在访谈后后半部分，大家从未来拉回到了现实，Agent 成为了关键话题。

丹·傅在节目中提到一个有趣的时间点：2025 年 6 月， 那是他第一次意识到，Agent 可能真的越过了拐点。

他当时发现机器学习工程中最难的技能之一、编程领域的终极难题——“GPU 内核编程” 被代码智能体啃下来了。他自己亲测：原本一个 GPU 内核功能开发得磨一周，那天靠着代码智能体，一天就搞定了三四个，工作效率直接提升了 5 倍。而他的团队用上后，那些原本需要整支团队耗数月的复杂系统开发，也变得轻装上阵。

这让丹·傅想起了自己对自动驾驶的态度变化，从长期怀疑到真正坐上 Waymo，他意识到技术的突破可能藏在某个猝不及防的瞬间。

针对 Agent 的爆发式潜力，蒂姆·德特默斯曾发布了一篇掷地有声的文章 《要么善用 Agent，要么被时代淘汰》。在他看来，代码 Agent 本身就是高度通用的 Agent，因为代码几乎可以描述和解决所有数字化问题。他甚至直言，“超过 90% 的代码和文本，本就应该由 Agent 来生成。但同时他也强调，“人类必须对最终结果承担责任，而非盲目依赖 AI 的输出。”

两人将 Agent 形象地比作“需要精细化管理的实习生”，只要给它明确背景信息、拆解任务边界、设定执行约束，人类无需过度干预其执行过程，而是把注意力聚焦在把控方向上，用专业判断力校验结果。而在 Agent 时代，真正吃到红利的将是有深厚积累的专家，其专业基础越深厚，Agent 能为其创造的效率增量就越显著。

在节目的最后，关乎对 AI 行业未来的预判，双方抛出了一系列深刻洞见。

在他们看来，小模型会成为行业新热点、开源模型会进一步飞跃；新硬件、多模态、端侧 AI 都会有进一步发展。

其中，硬件赛道将走向多元化发展，模型训练与推理环节的专业化分化会进一步加剧。

更值得关注的是，Transformer 架构独霸天下的时代会落幕，各类新架构会登上时代舞台。

他们还特别提到了中国的 GLM-4.7、MiniMax、DeepSeek 等优秀模型，对中国大模型的快速进步表达了高度认可。

在他们看来，相比技术路线相对集中的美国，中国团队反而更敢于探索多种可能性，比如状态空间模型、线性注意力以及混合架构等，通过架构创新或极致性能，让开源模型脱颖而出。

同时，他们也指出，中国的模型团队在技术路线上更务实。与“先做出最强模型，再等待应用出现”的硅谷思路不同，中国团队更关注模型是否真正能落地、是否能在现实场景中产生价值。正是这种务实的发展思维，可能会在未来深刻影响人工智能的技术形态以及它所能创造的社会价值。

以下是播客全文，更多精彩细节，欢迎来看：

“AGI 能否成为现实”之争

主持人：蒂姆，几周前你发表了一篇极具争议性的精彩博文，标题是 《通用人工智能为何不会成为现实》。而丹，你在几天后也发布了一篇同样引人入胜的回应博文，标题为 《通用人工智能终将成为现实》。我想先了解一下二位的背景，你们都有着一个有趣的特点，就是兼具产业界和学术界的从业经历。蒂姆，不如你先讲讲吧。

蒂姆・德特默斯：我是卡内基梅隆大学机器学习与计算机科学系的助理教授，同时也是艾伦人工智能研究所的研究科学家。

我过往的研究主要聚焦于高效深度学习量化技术，简单来说就是模型压缩， 把大模型从 16 位精度压缩到 4 位精度左右，这方面我做了不少核心研究。比如一种高效的微调方法，我们将模型压缩至 4 位精度，在模型上使用适配器，这样所需的内存相比全精度模型能减少多达 16 倍。

目前我正致力于代码 Agent 的研究， 我们将在约两周后发布一项非常令人振奋的成果，打造出了目前最先进的 Agent，它能快速适配私有数据，在任意代码库上都能实现出色的性能表现，这一成果真的让人充满期待。

主持人：丹，该你了。

丹・傅：我是加州大学圣地亚哥分校的助理教授，同时担任合聚人工智能公司的内核副总裁。

在产业界，我的工作主要集中在提升模型的运行速度，GPU 内核正是将模型转化为实际在 GPU 上运行程序的关键，你可以把它理解为专门的 GPU 程序。

我的博士阶段以及实验室的大量研究都围绕这一方向展开，比如我研发了快速注意力机制，这是一款针对当下多数语言模型核心运算的高效内核。我还研究了 Transformer 架构之外的替代架构， 比如状态空间模型等。

在合聚人工智能，我主要关注如何打造当下最优的语言模型，以及如何进一步提升它们的运行速度。

就在本期节目录制的今早，我们还和库尔索公司联合发布了一篇博文，介绍了我们如何为其多款模型实现加速，并助力他们在英伟达的布莱克韦尔（Blackwell） GPU 上推出了作曲者 2.0 模型，这大概就是我的工作内容。

从 AGI 的定义，聊到对 AGI 的现实判断

主持人：接下来我们聊聊通用人工智能的话题，节目后半段再探讨 Agent 和代码 Agent，以及二位的相关见解。通用人工智能这个术语被大家广泛使用，但我想大家都认同，目前还没有人能准确定义它。为了本次探讨，二位认为什么样的通用人工智能定义是实用的？

丹・傅：当然。我和蒂姆在这一系列博文中 反复探讨的一个问题，就是通用人工智能的定义。

就我而言，我最近一直在思考，以当下的模型发展水平，尤其是语言模型，再结合后续会谈到的 Agent 来看，以 5 年前、10 年前，甚至我和蒂姆刚开始读博时任何人给出的通用人工智能定义，我们其实已经实现了当时的设想。如今的模型能写代码、能生成人类语言，即便有时用词上会有些小瑕疵，但确实能完成这些令人惊叹的任务。我还会思考，这种技术发展到何种程度，会引发一场新的工业革命，真正改变我们当下的工作方式，并产生巨大的经济影响。

在软件工程领域，我觉得我们已经身处这样的变革中，或者说即将迎来全面变革。虽然在一些高度专业化的领域，比如模型未必能写出世界上最优质的福兰语和钴语言代码，但在网页开发，甚至很多底层系统工程方面，它们的表现已经非常出色。

我写那篇博文的一个原因就是，审视当下的发展，我们或许已经实现了通用人工智能，或者说某种形式的通用人工智能。即便尚未完全实现，下一代正在训练的模型，只要比当下的模型表现更好，我们就已经取得了令人惊叹的突破。

蒂姆・德特默斯：我写那篇博文时发现，自己竟然忘了在文中给出通用人工智能的定义，尽管整篇文章都围绕这个主题展开。我想这在某种程度上也反映了我们对通用人工智能的思考现状 —— 我们并未认真去界定它。当然，目前存在多种定义，各有优劣，正如你所说，没有一个定义能获得所有人的认同。

我简单提几种比较主流的，一种是将通用人工智能视为认知能力、认知任务的集合，关注模型能完成哪些认知层面的工作。 软件工程、文本创作都是高度依赖认知的任务，而让机器人在空间中移动则更偏向操作层面，当然也有人认为肢体移动的规划也属于认知范畴，但多数人会将其区分开来，认为所有数字化的任务都属于认知领域，物理层面的操作则超出了这一范畴。

另一种我认为很有意义的定义视角是经济层面，看人工智能是否能引发一场新的工业革命，是否具备广泛的实用性，能应用到各个领域，推动各类工作的效率提升，就像计算机的出现那样。当然，计算机刚出现时，生产率其实出现了下降，直到其在经济中广泛普及，生产率才重新回升。通用人工智能的发展或许也会经历类似过程，在软件工程等领域，其带来的效率提升已经十分显著。

主持人：我们直接切入核心争论吧。蒂姆，你曾提到 AGI 的相关构想的起源，这一点让我觉得很有意思，你能展开讲讲吗？

蒂姆・德特默斯：好的。先梳理一下整体的背景，当下关于 AGI 的一些观点，根植于特定的思维模式，主要来源于有效利他主义社群和理性主义社群。

我 15 年前也曾是这些社群的一员。在推特上，总能看到有人说 “两年内就能实现通用人工智能”，一年后又有人说 “两年内就能实现通用人工智能”，年年如此。我觉得这种想法有些草率，也体现出一种信息茧房的状态，持这种观点的人很少接触不同的想法。这也是我写那篇博文的主要动机，我希望提出一些不同的观点，为当下主流的思考提供一种反视角。

算力是否见顶

主持人：你核心的观点是，这些构想与实际的计算现实之间存在矛盾，这样概括准确吗？

蒂姆・德特默斯：没错。这其中既涉及物理层面的限制，也有理论层面的问题，而这两方面都存在 一个共同的规律 —— 收益递减。所有指数级增长的事物最终都会放缓，因为发展需要资源，而资源总会耗尽，这里的资源可以有多种解读。

从物理层面来看，技术的进一步发展会变得越来越困难，几乎所有研究和开发领域都是如此。前期的进展往往容易实现，而后续要取得突破，需要投入更多资源，发展速度也会越来越慢。

再看计算设备的物理现实，以及计算本身的结构， 其实有用的计算主要包含两个环节：

首先是将数据从不同位置收集起来，汇聚到指定位置，然后对这些信息进行整合，完成信息的转化处理。简单来说，就是结合已知信息，计算出未知的新信息。有用的信息，必然是从已有的信息中转化而来的。如果只是大量转移信息，却不进行处理，就无法产生新信息；如果只是对现有信息进行大量计算，又会错失跨领域的洞察和间接的启发。我认为这一点与我们当下的神经网络架构高度契合。

早期的卷积神经网络表现出色，原因就在于它们几乎不怎么移动内存，而是专注于大量计算，这意味着这类设备需要强大的浮点运算能力，而内存带宽则没那么重要。当发展到大规模密集计算、大矩阵运算阶段，就到了当下神经网络的发展方向，但此时仍保留着循环机制的特点，需要关注之前的状态。不过由于循环的特性，计算的内存复用率极低。

而 Transformer 架构，先是通过大矩阵将前一层的输入信息进行转化，再通过注意力机制实现跨时间或空间的信息关联。我认为这是处理信息最根本的两种方式：一是让信息之间建立关联，或对信息进行转化；

二是让信息与关联较远的其他信息建立联系，也就是挖掘长期关联，并基于已有信息进行转化。

主持人：你认为这一发展进程正在放缓，对吧？你的博文中有一句非常引人注目的话，称 “图形处理器的发展将不再有实质性突破”，这是核心观点，能说说原因吗？

蒂姆・德特默斯：这个观点包含两层含义，首先是一个非常根本的物理问题，也就是我刚才提到的内存转移和计算的关系。

计算要产生价值，就必须将内存数据转移到进行计算的本地区域，这其实是一个几何问题。你需要一个大容量的信息存储区，然后将其中的信息转移到计算区域。而我们已经找到了实现这一过程的最优物理方式：配备大容量但速度较慢的动态随机存取存储器，再将数据转移到高速缓存中。

从几何结构来看，这是实现高速运算的最优解，针对特定规模的计算任务，这种架构的效率是最高的。如果是矩阵乘法这类不同规模的计算任务，就需要使用图形处理器而非中央处理器，因为图形处理器虽然延迟更高，但吞吐量更大，能传输更多数据，只是速度稍慢。我们可以对缓存的结构、大小，以及核心的共享方式做一些微调，但归根结底，核心的问题始终存在 —— 这是一个几何难题，空间的利用方式是有限的，这就决定了数据的访问模式和延迟始终存在固定的限制，其中最大的延迟来自大容量的动态随机存取存储器，这也是主要的性能瓶颈。这一瓶颈也被称为 冯・诺依曼瓶颈，几乎所有计算机都受此限制，具体来说，就是需要将程序传输到执行区域才能运行。对于神经网络而言，就是要将权重和输入数据传输到张量核心这一执行单元。

想要绕开这一瓶颈的方法寥寥无几，唯一的途径是进行本地内存存储和本地计算，市面上也有一些处理器尝试实现这一点，比如存算一体处理器，能在很大程度上在芯片内部解决冯・诺依曼瓶颈问题，但这类处理器仍需要从外部向芯片内传输数据，这就使得冯・诺依曼瓶颈从芯片内部转移到了存储设备或网络层面，问题只是发生了转移，本质并未改变。你仍需要通过网络将存储在磁盘或内存中的程序加载到芯片中，这还是同一个物理问题，只是调整了几个变量而已。这是问题的第一个层面，目前还没有能解决这一问题的架构。

第二个层面，也是我的核心观点所在：想要突破瓶颈，需要依靠新技术，但当新技术的潜力被充分挖掘后，又需要新的技术实现进一步突破。

比如，我们从动态随机存取存储器发展到了高带宽存储器，也就是堆叠式的动态随机存取存储器，速度大幅提升，但这种存储器的堆叠层数有限，因为其制造和测试的难度极高，良品率很低。到 2026 年，高带宽存储器的产能将会不足，无法实现规模化生产，因为制造难度实在太大。我们已经见证了诸多技术创新，张量核心的出现是一大突破，8 位精度、4 位精度的量化技术也相继落地，我和其他研究者的研究都表明，这些技术在信息论层面和实际应用中都是接近最优的。

如果基于足够多的数据进行训练，4 位精度是不够的，实际需要 8 位精度，这意味着量化技术已经发展到了极限。硬件的潜力也被挖掘殆尽，目前没有新的技术可以突破，我们能做的只是优化制造工艺，降低成本，却无法提升速度。各项功能的开发也已到极致，稀疏化技术是很多人尝试的方向，这一研究已经持续了 50 年，我自己也做过相关尝试，这或许是最后一个可探索的方向，但 4 位精度的量化技术已经意味着量化领域的发展走到了尽头。

简单来说 ，功能和硬件都已被开发到极限，这就是我们当下的处境。

主持人：太有意思了。丹，你对这些观点有什么看法？

丹・傅：我非常认可蒂姆的这篇博文，因为当下有不少关于通用人工智能的讨论，只是简单地按照指数增长的趋势去推演，认为到某个时间点，人工智能会发展到掌控整个宇宙的程度，我一直觉得这种思考方式有些片面。我认同蒂姆从实际物理限制角度出发的分析，正如他所说，这些都是依赖物理输入、进行实际物理计算的系统。

我的观点是，看看当下的系统和我们训练的模型，我们甚至连上一代硬件的潜力都远未充分挖掘，更不用说新推出的硬件了。

从技术层面，我在博文中主要提出了两个核心观点：

第一，看看当下那些表现出色的模型，我在博文中主要以开源模型为例，因为开源领域会更多地披露模型的训练过程和所耗资源，而开放人工智能和思存人工智能等公司并未公开相关数据。

以 DeepSeek 模型为例，这是目前最优秀的开源模型之一，它在 2024 年底完成训练，使用的是上一代的英伟达 H800 GPU，这款显卡因出口限制做了性能阉割，并非原版 H100。根据公开报告，该模型的训练使用了约 2000 块 H800 显卡，耗时约一个月。计算一下实际的算力利用情况会发现，芯片的有效利用率仅约 20%，行业内将这一指标称为模型浮点运算利用率。而在 21 世纪 20 年代初，我们在旧硬件上训练不同架构的模型时，轻松就能实现 50% 甚至 60% 的模型浮点运算利用率。如果能将这一指标提升，再加上我的好友崔最近发布了一系列能优化模型训练的新内核，单是这一项优化，就能让算力利用率提升 3 倍。

第二，需要意识到的是，这款 2024 年年中开始训练的 DeepSeek 模型，在 2026 年初仍是众多优秀开源或类开源模型的基础。而从那之后，我们已经搭建了全新的算力集群，搭载了当下最新的硬件，比如英伟达的布莱克韦尔系列显卡。普尔赛德、瑞弗莱克申等公司都在搭建包含数万个 B200、GB200 芯片的算力集群。

对比来看，新一代硬件即便保持和之前相同的精度、相同的配置，运算速度也能提升 2 至 3 倍，算力集群的规模更是扩大了 10 倍，再加上 3 倍的纯技术优化空间，整体的可用算力能提升 3×3×10，也就是 90 倍。这还没有考虑未来的算力集群建设，只是当下已经落地、有人正在用于模型训练的集群。

我的核心观点是，单从这些基础的硬件条件来看，就能发现可用算力相比我们当下所依赖的模型，还有多达两个数量级的提升空间，也就是 100 倍。 当然，我们可以争论算力规模扩大是否会带来收益递减，缩放曲线是否依然有效，但现实的算力潜力就摆在眼前。

这还没考虑蒂姆提到的那些点，比如目前的训练大多采用 8 位精度，而 4 位精度的训练方法才刚刚开始形成相关研究成果；GB200 芯片有 72 个连接速度极快的核心，而我们甚至还没看到基于这款芯片训练的首个预训练模型。开放人工智能的报告中提到，GPT-5.2 是首个基于 H100、H200 和 GP200 芯片训练的模型，这在我看来，意味着它的预训练其实是在老旧的算力集群上完成的，只是在新的 GP200 芯片上进行了一些微调。

主持人：你提到，不仅硬件的利用率不足，模型本身也是硬件发展的滞后指标，对吧？

丹・傅：没错。我们当下能使用、能体验到的模型，都是在一两年前搭建的算力集群上完成预训练的。

因为搭建一个算力集群需要时间，完成大规模的预训练需要时间，后续的微调、人类反馈强化学习等后训练环节也需要时间。所以我们当下所看到的、用来衡量模型质量的这些模型，其实都是在一年半前的硬件上训练的。而在这之后，我们已经搭建了规模大得多的算力集群，不难想象，这些集群会被用于训练新一代模型。

也就是说，我们当下所依赖的优质模型，训练所使用的硬件其实已经相当老旧，而我们拥有了新一代的硬件、更多的软件优化方案，更不用说架构层面的创新了。

蒂姆刚才提到，处理数据的核心是先转移、再计算，而变形金刚架构其实一直在发展，只是在研究者看来，发展速度稍慢。但我们能看到，计算的核心方式已经在发生变化，哪怕再找到 1.5 倍或 2 倍的优化空间，整体的可用算力就能达到 100 甚至 150 倍。所以当下还有大量的算力潜力可以挖掘，用来训练更优质的模型。

预训练是综合训练，后训练是专项训练

主持人：我理解这场讨论的核心是预训练，也就是我们能否用更多的数据和算力训练出更大的模型。但在本播客之前的对话中，很多人都强调后训练的重要性，以及构建结合预训练和强化学习的人工智能系统的意义。这一点在当下的讨论中该如何定位？

丹・傅：这是个非常好的问题，我和蒂姆的博文其实都没有重点探讨这一点。我喜欢这样比喻，预训练就像是在健身房进行的综合力量训练，通过大重量训练提升整体的力量和能力；而后训练就像是针对特定项目的专项训练，让你在具体任务上表现更出色。

从算力消耗来看，历史上预训练消耗的算力占绝对主导，其目的是打造具备通用能力的模型，让模型掌握大量知识，能完成多种任务，甚至拥有比普通人更多的知识储备，比如我自己的知识量肯定比不上聊天生成预训练转换器。

而后训练的作用，一方面是让模型变得更实用，比如聊天生成预训练转换器，能理解用户的需求，并尽力完成任务；另一方面，我们也发现，后训练正越来越多地被用于培养模型的特定技能。比如擅长辅助编程的模型，虽然依托于预训练积累的大量知识，但正是通过后训练，才让它在编程领域具备了出色的能力；同理，擅长法律工作的模型，也是在预训练的基础上，通过后训练实现了专业领域的优化。

从纯计算的角度来看，预训练的算力消耗通常远大于后训练。 后训练的工作，我虽然不是这方面的专家，但感觉更多地像是如何打造一款实用的产品，如何获取用户反馈，诸如此类。

当然，也有一种可能是，下一代预训练模型的基础能力已经足够强大，只要针对经济领域的各个垂直赛道进行后训练，就能打造出极具实用性的模型。所以这也是计算领域的另一个重要维度，或许我们根本不需要那 100 倍的额外算力，更多的是需要像培养人类一样，深入理解问题，找到合适的训练方法 —— 就像你如何培养一名实习生完成特定任务，如何让一个能力强大的预训练模型发挥出实际价值，这正是后训练要解决的问题。

主持人：二位都提到了 “实用性” 这个概念，这或许是你们观点的交汇点。通用人工智能的定义众说纷纭，但最终的关键还是看它在产业中的实际实用性。所以即便由于收益递减，我们无法实现那个大家都无法准确定义的、理想化的通用人工智能，也无关紧要，因为我们还有巨大的潜力可以挖掘，足以让人工智能在整个经济领域发挥真正的价值，而不仅限于编程领域。

蒂姆・德特默斯：没错。我那篇博文的核心结论正是如此，我们不必过分纠结于通用人工智能的定义，更应该思考如何让人工智能发挥最大的实用价值，而这不仅关乎模型本身，丹刚才提到后训练是产品化的过程，这一点很重要。计算机的发展历程告诉我们，技术在经济中的普及需要一种截然不同的思维模式。

美国的思维模式往往是 “打造出最优的模型，自然会有人使用”，而中国的思维模式则更注重务实，思考如何让技术惠及更多人。我认为这种务实的思维模式至关重要。谈及实用性，一方面是模型的能力，另一方面就是这种发展思维。

我相信我和丹，以及大多数人都会认同一个观点：如果一个人工智能能完成数学奥林匹克竞赛这类高难度任务，却无法解决任何实际问题，那它算不上通用人工智能。而当下的模型已经具备了实用性，所以不会出现那种 “有能力却无用处” 的情况。

我们真正追求的，是实用性极强的模型，而这样的模型我们已经拥有，并且还能不断优化。我认为按照某些定义，我们或许无法实现通用人工智能，但人工智能必将产生巨大的社会影响。

丹・傅：我想补充一点，蒂姆你提到了经济领域的物理性工作和知识性工作的划分，美中两国在这方面的差异非常有意思。

最近有一本丹・王写的书很火，探讨了制造型经济、工程型经济与偏法务型经济的区别。美国有大量优秀的知识性工作有待人工智能去赋能，而从经济的实际产业结构来看，医疗、教育占了很大比重，科技领域虽然也是重要组成部分，引领着股市的走向，但还有更多领域等待挖掘。

现在有很多优秀的研究者正在尝试用新一代模型研发新药、推动医疗领域的实际变革；如果机器人技术能实现突破，助力完成一些体力劳动 —— 未必是建造房屋这类重活，而是日常的家务劳动，那将挖掘出经济领域的巨大潜力。这些方向的发展已经能看到初步的成果，自动驾驶的发展历程对我很有启发。

在我读博初期，大概 2018、2019 年，我对自动驾驶持非常怀疑的态度，当时大家总说自动驾驶 “再有一两年就能实现”，专家则说 “五年内有望落地”。但去年我乘坐了威莫的自动驾驶车辆，如今在加州湾区，我甚至能使用威莫的高速自动驾驶服务。理论上，我现在甚至可以卖掉自己的车 —— 当然我不会这么做，因为我个人喜欢开车。

但技术的进步就是这样，在这之前一直毫无起色，突然有一天就实现了突破，你会发现它不仅表现出色，甚至比优步、出租车这类人工服务还要好。如果人工智能在家庭清洁、洗碗这类家务劳动上也实现这样的突破，那将是非常令人振奋的，也会彻底改变人们的看法。我自己并非机器人领域的研究者，但一直密切关注着这个领域的发展。

多硬件、多芯片的未来方向

主持人：丹，借着这个话题，我想问问，从你的观察来看，人工智能领域是否会朝着多硬件、多芯片的方向发展？显然英伟达的发展势头迅猛，还有赛博拉斯等公司，以及众多从底层技术切入的专用集成电路企业。从你深耕底层技术的视角，你怎么看这一趋势？

丹・傅：这是个很棒的问题，我在实验室的工作中会花大量时间思考这个问题，产业界的工作中也会密切关注。当下正处于一个非常令人振奋的阶段：英伟达的芯片性能强劲、稳定性高，围绕其构建的软件生态也非常完善；而 AMD 的芯片也开始展现出同样的潜力，相关的研究也在推进。

比如在实验室，我的好友西姆龙・奥罗拉主导开发了一个名为希普基滕斯的库，核心就是探索如何设计合适的软件抽象层，实现 AMD GPU 的编程。研究发现，AMD GPU 和英伟达 GPU 的软件抽象层存在明显差异，即便这两款 GPU 的参数规格相对接近 —— 更不用说和格罗克、赛博拉斯、萨博诺瓦等公司的芯片相比了，它们的编程方式也截然不同。

现在越来越多的人开始关注这一领域，投入时间和精力进行研究。英伟达收购了格罗克，当下张量处理单元也备受关注，赛博拉斯和开放人工智能也刚宣布达成合作。所以未来必然会涌现出更多的硬件方案，英伟达无疑会继续保持良好的发展态势，甚至在本期节目录制时，其市值已经突破 5 万亿美元，但硬件领域的多样性会大幅提升，尤其是在模型推理层面。

训练和推理是两种截然不同的计算过程，因此需要的芯片也大相径庭。在推理层面，模型可能需要在手机、笔记本电脑等本地设备上运行。 我的手机是一款几年前的苹果手机，但其运算能力已经超过了我读博初期使用的一些 GPU，硬件算力的增长速度令人惊叹。

2025 年 6 月是 Agent 的拐点

主持人：丹，你刚才提到自动驾驶实现突破的那个节点，Agent 的发展是否也已经到了这样的时刻？你还提到过 “软件奇点”，我们当下是否正处于 Agent 发展的关键突破点？

丹・傅：我认为是的。就我个人的经历而言，这个突破点出现在 2025 年 6 月左右。

给大家做个背景介绍，我在合聚人工智能的日常工作就是编写这些 GPU 内核，在机器学习领域，GPU 内核的编程被认为是最难掌握的技能之一，它需要高度的并行化设计，使用的是 C++ 这种资深工程师使用了数十年的老牌语言，而非 Python 这类易用的语言。招聘能编写 GPU 内核的工程师难度极大，这是一项极具挑战性的技能，无疑是编程能力的顶尖体现。

而 2025 年 6 月，我们有了一个非常有趣的发现：云代码、库尔索 Agent 这类代码 Agent，在编写 GPU 内核方面的表现非常出色。那一周，我完成了三四个原本各自需要一周时间才能完成的功能开发，全部工作一天就搞定了。 当时我就意识到，这个工具让我这个内核领域的专家，工作效率提升了 5 倍。

我让团队都开始使用这个工具，现在团队借助它搭建了许多复杂的系统，能快速完成原本需要整个团队耗时数月才能实现的功能开发。而 GPU 内核编程，正是编程领域最难的 “终极挑战”，所以在我们看来，代码 Agent，尤其是在高难度的 GPU 内核编程领域，已经实现了关键性的突破。

几个月前，我在斯拉什大会上做了一场演讲，提出了 “软件奇点” 的概念，核心就是意识到在软件工程领域，即便是这类非常小众的高难度技能，人工智能的表现也已经超越了普通程序员，甚至能为资深程序员带来效率的大幅提升。就本期节目录制的当下而言，让 Agent 独立完成开发，可能还无法产出完美的结果，但如果资深程序员借助这些工具，工作效率能提升 10 倍，这是一个非常令人振奋的发展阶段。

要么善用 Agent，要么被时代淘汰。

主持人：聊到 Agent，蒂姆，你最近还发表了一篇精彩的博文，标题是《要么善用 Agent，要么被时代淘汰》，其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现，到 Agent 在日常生活各领域发挥实用价值，这一发展进程当下处于什么阶段？

蒂姆・德特默斯：我写这篇博文，也是因为发现使用代码 Agent 能为各类任务带来巨大的生产效率提升。作为一名教授，我平时的编程工作并不多，但借助代码 Agent，编程变得前所未有的轻松，这在以往是难以想象的。

当然，Agent 在非编程任务上的表现也同样出色。从我自身的体验来看，生产效率的提升幅度不一，有时是两三倍，有时甚至能达到 10 倍，而且工作质量没有下降，甚至有时还能提升。Agent 的能力或许未必比我强，但它不会疲惫，不会犯低级错误，也不会在整合复杂信息时出现认知上的困难 —— 这和丹刚才提到的 GPU 内核编程的情况是一样的。

我认为马特你将其分为代码 Agent 和通用 Agent，但在我看来，代码 Agent 本身就是通用 Agent。代码 Agent 能编写程序解决各类问题，而代码的通用性极强，任何数字化的问题都能通过代码解决。代码 Agent 让解决问题的过程变得无比轻松，让我们能以以往无法想象的方式和速度解决各类问题，实现多任务并行处理。Agent 不会疲惫，可以持续工作，让工作变得轻松很多。

我的博文中有一个观点我自己很认同，开篇我先区分了炒作和现实，而后基于自己在直播中测试 Agent 的实际体验得出结论 ：超过 90% 的代码和文本都应该由 Agent 来生成，不这么做，就会被时代淘汰。 我想对于很多工程师来说，这一点已经成为现实。

有些人认为，Agent 生成的代码和文本质量一定低下，但关键在于，你需要对 Agent 的输出进行检查和编辑。你所做的这 10% 的工作，能带来巨大的改变。通过这种对输出内容的检查、编辑和优化，让成果成为属于自己的作品。

人工智能生成的内容，并不比你自己写的内容缺乏个性。比如我借助 Agent 撰写科研基金申请，成品会让我觉得充满生命力，能感受到其中的吸引力，相信评审人看到后会觉得 “这是一项优秀的研究，值得资助”。现实就是如此，如果你只是让 Agent 生成内容，不做任何检查就直接使用，那肯定无法达到预期效果；但如果你能快速审核内容、调整优化，发现不妥之处并进行修改，最终就能得到优质的成果，这会成为未来的常态。

而适应这种工作方式所需的技能，大多数人还未完全掌握，我自己也在学习中，目前仍处于探索阶段。 模型在更新，框架在迭代，我们需要不断适应、持续学习，虽然要学的东西很多，但一旦掌握，带来的回报是巨大的。

曾经有人认为软件工程师会因此消失，但现在大家都不再这么想了。Agent 极大地提升了生产效率，而掌握使用 Agent 的能力，正是当下最需要学习的技能。善用 Agent，能让你完成更多工作，这是核心所在。如果不懂得如何有效使用 Agent，你就会被淘汰，这将成为一项必备的核心技能。

主持人：聊到 Agent，蒂姆，你最近还发表了一篇精彩的博文，标题是《要么善用 Agent，要么被时代淘汰》，其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现，到 Agent 在日常生活各领域发挥实用价值，这一发展进程当下处于什么阶段？

蒂姆・德特默斯：我认为最关键的是保持务实，思考需要解决的问题，并尝试用代码实现。

当然，对于非程序员来说，编程本身就有很高的门槛，会觉得 “我从没写过代码，根本做不到”。但如果和 Agent 互动，它能直接帮你搭建程序，你只需要进行少量的学习 —— Agent 还会为你讲解相关知识，很快就能上手，实现程序的运行、网站的搭建等，还能快速获得反馈，现在做这些事情已经不再困难。

当然，我之前提到过需要检查 Agent 的输出，但如果你只是为自己搭建一些简单的工具提升工作效率，其实往往不需要这么做，Agent 生成的代码质量已经足够高。如果是在公司工作，需要将代码整合到正式的代码库中，那肯定需要进行审核；但如果只是搭建个人使用的小程序，提升自己的工作效率，那非常容易。

举个随机的例子，我会录制自己和 Agent 互动的视频，视频中会有我讲解的片段，也有我查看输出、思考分析的片段。我借助 Agent 搭建了一个工具，它能识别语音，记录我说话的时间戳，然后对视频进行剪辑，只保留我讲解的部分，去掉无意义的片段。这个工具我只用了 20 分钟就搭建好了，我相信所有人都能做到，因为我甚至没有检查 Agent 生成的代码，直接使用后，剪辑出的视频效果非常好。

只要建立起 “提出需求 — Agent 生成 — 获得反馈” 的循环，你根本不需要自己编程，只需要学会检查输出内容，或者掌握 Python 程序、bash 脚本的基本运行方法，就能实现工作的自动化。

主持人：那该如何选择要自动化的工作呢？该从哪些角度思考生活中的自动化需求？

蒂姆・德特默斯：我在博文中也探讨过这个问题，其实可以分为 直觉层面和精细化分析层面。

直觉层面很简单，就是思考哪些工作自动化后会带来便利，哪怕是一些复杂的需求，比如 “我想要一个能实现某某功能的安卓或苹果应用”，一开始你可能觉得这很难，但只要向 Agent 提出需求，它能立刻实现。你可以充分发挥想象力，打造任何自己想要的工具，那些以往没人开发、自己又迫切需要的产品，现在都能借助 Agent 实现。

这种思维方式能让你打造出实用的工具，提升生产效率，同时也能锻炼你使用 Agent 的能力。当然，有时尝试后可能会失败，这时你会明白 Agent 的局限性，以及自己还需要学习哪些知识才能解决问题。

这是直觉层面的方法，能让你快速入门，从最初的兴奋，到面对现实的冷静，再到继续尝试，最终会发现自己的生产效率在一天天提升。

而精细化分析层面的方法，来自我在德国自动化行业三年的工作经历，当时主要负责工厂的自动化改造，这是一种非常严谨的计算方法：先梳理自己的工作流程，为每个步骤计时，然后分析如果将某个步骤自动化，能带来多少收益、节省多少时间，再计算开发这个自动化工具需要投入多少时间，通过这种成本收益分析，快速判断哪些工作的自动化改造是有价值的。

我的博文中提到，邮件的自动化处理效果并不好，还有一些事情也是如此，比如创建会议日历邀请，没人喜欢做这件事，但仔细想想，人们对会议的安排有很多个性化的需求，比如某天想多安排会议，某天想把会议安排在午饭前，这些需求 Agent 无法感知。即便你向 Agent 详细说明这些需求，它生成的日历邀请也未必能符合预期，最终的效率提升其实非常有限。

通过这种精细化的分析，能让我们避开这些无意义的尝试，找到真正能通过自动化提升效率的工作。

主持人：丹，从你的角度来看，在 Agent 的应用中，哪些方法是有效的，哪些目前还不成熟但未来有望实现，又该如何管理 Agent？

丹・傅：我发现 Agent 的有效应用，主要有两个核心要点。

第一，让 Agent 发挥效用的方式，和管理团队中的初级员工、公司里的实习生非常相似。 比如，你不会对一个刚来的实习生说 “去把公司的营收提升一倍”，或许你会尝试一次，但显然不可能得到想要的结果。相反，你会给实习生安排一些简单的入门任务，让他们熟悉复杂的代码库，并告诉他们可能会遇到的问题 —— 因为你自己有过相关的经历。当你给 Agent 提供这样的背景信息，让它能接触到相关的资料，它通常就能顺利完成任务。

另外，对待新员工，你不会直接把生产环境的所有权限、数据库信息都交给他们，而是会给他们足够的工具，让他们能开展工作。对待 Agent 也是如此，有些人会担心 Agent 误删生产环境的所有数据，于是对其处处限制，每一步都进行监控，但如果用这种方式对待人类员工，他们根本不可能高效工作。这是一个很重要的点，当下的 Agent，至少可以把它当作实习生或初级员工来对待。

第二，我发现一个非常有趣的现象，尤其是从教授的教育视角，思考如何培养学生适应这个 Agent 成为工作核心的未来，那就是：一个人的专业知识越扎实，比如蒂姆在流程自动化领域的专业积累，或是我在 GPU 内核编程领域的深耕，Agent 能为其带来的能力提升就越大。

因为专业知识扎实的人，能在更高的抽象层面开展工作，知道工作的核心要点、方向，了解常见的问题和陷阱，知道哪些事情容易实现、哪些事情有难度，知道如何将复杂任务拆解为多个步骤。

之前有一段时间，大家一直在讨论 Agent 是否会取代所有软件工程师，或者取代所有初级员工，而从当下的发展来看，显然不会出现这种情况。 如果一个工具能让我的团队工作效率提升 10 倍，我不会解雇 90% 的员工，而是会让他们去完成更有价值的工作，实现 100 倍的效率提升。这是一方面。

另一方面，成为某个领域专家的路径，其实和以往并没有太大区别：你需要深入学习、深入理解相关知识，需要亲手实践、真正解决问题。在当下这个时代，聊天生成预训练转换器能教你很多东西，我自己就尝试过让它教我汽车的各类工作原理，虽然目前效果还一般，但不可否认，现在学习知识的难度比以往低了很多，哪怕是两三年前，都没有这么便捷的学习方式。

所以总结来说，对待 Agent，要像扮演管理者的角色，帮助它解决遇到的问题，不能只是把问题丢给它就撒手不管；同时，你需要不断提升自己，成为更优秀的 “管理者”，积累更多的领域知识，更深入地理解工作内容。

主持人：也就是说，成为专家、持续学习的需求并没有改变，这一点很有意思，也很有道理。但有一个问题，如果一名年轻的内核工程师第一天入职，以往的培养方式是先安排简单的任务，第二年再安排更复杂的工作，那在 Agent 时代，这种实操性的职场培训该如何开展？

丹・傅：我们在合聚人工智能也一直在思考这个问题，即便在模型和 Agent 如此强大的当下，我们仍在积极招聘人才。

我们的做法是：首先，我以教授的身份，录制了一系列关于 GPU 工作原理的课程，要求所有新员工都必须学习；然后，我会给他们布置一个从零开始的任务，比如修改快速注意力机制的内核，实现某个新功能，具体的功能可以由他们自己选择。Agent 的优势在于，能让新员工更快地参与到高价值的工作中。

对于一名初级工程师来说，第一次尝试管理他人是非常有意义的经历，因为这会让他们开始用更精准的语言思考问题。比如，软件工程师常会遇到这种情况：产品经理给出一个需求，写了长长的需求文档，但当你让别人去实现这个需求时，才会发现描述一个功能需要多么精准的表达。

而 Agent 的出现，让这一过程得以简化，初级工程师不需要真正成为管理者，依然可以作为工程师开展工作，但能以管理者的思维方式，甚至产品经理的视角来思考问题。因为和 Agent 沟通时，你必须精准地描述自己的需求。我发现，团队中那些刚从大学或硕士毕业的年轻员工，只要积极学习和使用人工智能 Agent，他们的沟通能力会比以往的工程师强很多，对知识的理解和掌握速度也会大幅提升，并且能以以往 5 到 10 年都难以想象的速度搭建工具、完成工作。

蒂姆・德特默斯：我从教育的角度补充一点，这一点其实和丹的观点形成了一定的对比，也很有意思。我一直强调 “要么善用 Agent，要么被时代淘汰”，这一点对学生也同样适用，但正如丹所说，使用 Agent 的前提是具备一定的领域知识。

我们发现，如果允许学生使用 Agent，他们的学习效率会非常高，但有时他们借助 Agent 完成的解决方案，表面上看起来没问题，实际上却漏洞百出，而学生自己却意识不到。

当下我们正面临一个困境：很难同时培养学生的领域知识和 Agent 使用能力，这两者的平衡很难把握。 我们既不想培养出对知识一知半解的学生，也希望学生能掌握 Agent 的使用方法，否则他们进入职场后将无法胜任工作。

丹提到，具备扎实知识基础的人，借助 Agent 能实现能力的飞跃，但对于刚开始学习计算机科学的学生来说，该让他们学习多少专业知识，又该让他们在多大程度上借助 Agent 完成工作，这是一个非常棘手的问题，目前还没有完美的解决方案。

如果让学生过度依赖 Agent，他们的基础知识点掌握会非常薄弱；如果让学生完全靠自己完成所有学习任务，不使用 Agent，他们又无法掌握这项核心技能，进入职场后缺乏竞争力。

或许一个解决方案是：先让学生扎实掌握基础知识，再学习使用 Agent。但学生并不会这样做，他们能轻易接触到这些人工智能工具，并且会因为其便捷性而频繁使用。

所以或许真正的解决之道，是培养学生一种全新的信息处理和知识学习的思维方式，这种能力甚至超越了批判性思维 —— 学生需要学会识别自己不知道的未知事物，也就是那些自己没有考虑到、不理解，甚至从未想过的问题。只有具备这种能力，才能跟上 Agent 的发展步伐。因为在未来，我们很可能会面对自己无法理解的问题，而 Agent 却能理解，我们需要找到一种方式，跟上 Agent 的节奏，这无疑是一大挑战。

小模型是未来趋势

主持人：二位对 2026 年人工智能的发展有哪些具体的期待？认为哪些趋势会成为现实，哪些则不会？

蒂姆・德特默斯：我觉得自己的看法比较矛盾，一方面，我认为很多领域的发展会趋于平淡，不会有太多创新；另一方面，又会有一些意想不到的突破出现。而在前沿模型领域，我认为不会有太多惊喜。

当下一个公开的事实是，预训练数据已经耗尽，正如丹所说，我们可以通过合成数据来弥补这一缺口，代码 Agent 的训练，就是在各类环境中生成大量合成数据，并进行数据融合，我们在这方面会取得一些进展，但整体来看，机器学习领域的发展已经显现出疲态。

我认为代码 Agent 的性能不会有太大提升，主要的进步会体现在用户体验的优化上。 当下各款模型的性能已经趋于同质化，比如我使用 GLM-4.7 的配置时，一度以为自己用的是 Opus 4.5，后来才发现是不同的模型，因为它们的表现实在太相似了。

所以 前沿模型的性能发展会陷入停滞，而小模型领域则会迎来快速发展。 如果针对特定的专业数据训练小模型，其性能会非常出色，而且小模型的部署难度低，能力却不容小觑。

比如 1000 亿参数的模型，能轻松实现部署，即便是 RTX 6000 这类售价 6000 美元的入门级数据中心 GPU，也能胜任。我认为对于很多企业来说，这会是一个极具吸引力的选择，它们不再需要依赖前沿的大模型，定制化的小模型甚至能表现出更优的性能，因为其针对特定领域做了优化。

当下存在一个很大的问题，正如 Anthropic 首席执行官所指出的，市面上有很多性能强大的开源模型，但实际使用的人却很少，原因就在于 部署难度极高。一旦模型的部署需要超过 8 块 GPU，不仅需要用户进行大量的效率优化，还涉及复杂的系统工程问题，而目前还没有能实现这一功能的开源系统，需要实现推理任务的解耦、跨序列长度的拆分等技术。或许我们能为异构 GPU 设备、小模型打造这样的部署系统，届时 1000 亿参数模型的运行效率，将能媲美当下的前沿大模型。

小模型兼具效率和灵活性的优势，再加上能通过大模型的知识蒸馏实现性能提升，这些因素结合起来，将彻底改变人工智能的发展格局。

丹・傅：我也对小模型的发展充满期待，认为它们会释放出更多的能力。

我会密切关注开源模型的发展，GLM-4.7 的出现，已经让开源模型的性能开始媲美当下最优秀的前沿模型，我认为 2026 年开源模型的能力会实现又一次大的飞跃。

我也非常期待新硬件的推出，目前已经有一些关于英伟达下一代 NVIDIA Rubin GPU、AMD 400 系列显卡的消息，即便我们还未充分挖掘当下硬件的潜力，我也很想看看下一代硬件能带来怎样的性能突破。

此外，我还期待多模态领域的发展，去年视频生成模型迎来了发展的小高峰，比如 Sora 2、Gemini、Veo 等模型都表现出色，我很想看看它们后续的发展。

最后，我也期待能看到，在笔记本电脑、手机这类终端设备上，人工智能的智能水平能达到怎样的高度， 能被推进到什么程度。我想说，当下投身人工智能领域，恰逢最激动人心的时刻。

主持人：二位早些时候提到了状态空间架构（SSM），你们认为这会是人工智能的近期发展方向吗？也就是说，我们会逐渐走出 Transformer 架构的时代，向状态空间模型、世界模型等新架构发展吗？这是否是你认为值得期待且势在必行的发展趋势？

丹・傅：我认为在很多领域，新架构已经落地应用了。比如当下全球最优秀的一些音频模型，就部分基于状态空间模型打造。英伟达最近也发布了多款优秀的混合架构模型，比如神经变形金刚，就是其中的代表。

所以相关的研究已经取得了很多不错的成果，架构的进化还会继续。比如 DeepSeek 的模型压缩技术，就借鉴了状态空间模型的一些理念；MiniMax 的一款模型，则采用了线性注意力的思路。

所以未来人工智能的架构会变得更加多元，这一趋势已经显现。

而中国的实验室在这方面会有更多的探索和突破，因为中国并没有像开放人工智能那样，集产品、模型、营收于一体的巨头企业，也就没有统一的技术发展范式。所以中国的实验室会更敢于尝试，想要让自己的开源模型脱颖而出，架构创新就是一个重要的方向，当然，纯性能的提升也是一个途径。因此，未来人工智能的架构会迎来爆发式的创新。

参考链接：

https://www.youtube.com/watch?v=XCCkgRzth6Q、