标签 Google Deepmind 下的文章

Google DeepMind 学习系列笔记（1） Build Your Own Small Language Model

作者: 纯情
时间: 2026-02-04
分类: 开源
评论

语言模型是如何进行预测下一个词的？

简单来说，语言模型是通过根据当前给出句子，结合语境进行计算下一个词出现的概率分布，然后从中选择一个作为输出结果

比如：

输入: Jide was hungry so she went looking for...

可能的预测结果: food(0.75) snacks(0.2) leftovers(0.05)

最终大概率输出: Jide was hungry so she went looking for food

为什么采用概率进行预测？

采用概率的方式进行随机采样，可以改善内容生成的多样性，在大部分场景下，我们更希望同样的输出可以有不同的输出
模型有时可能会出错，采用概率的方式，可以通过执行多次生成，来得到一个更加合理的结果
尽管使用了概率，但仍然可以进行确定性的结果输出，可以通过每次都获取概率最大的词汇的方式(贪心)，来确保每次输入都可以得到同样的输出结果

N-grams 模型

概述

N-grams 模型简单来说就是先统计一个词在与其他词进行组合的概率，也就是它们一起出现的概率，然后在给定的一个句子去生成完整的一段话时，就是基于前面进行统计计算的概率进行预测；

比如说，你经常会见到"这座山很高"的描述，但你很少见到"这座山很早上"的描述，那么在给定"这座山"这个上下文去生成完整的一段话时，预测得到"很高"接在后面的概率就比"早上"要高

统计公式

N-grams 模型的统计方式就是一个简单的条件概率公式

比如：

$$
P( 水秀 | 山清 )
$$

表示在"山清"一词在前面出现的前提下,"水秀"一词它一起组合的概率

这个概率的计算结果根据条件概率公式

$$
P(B|A) = \\frac{Count(A B)}{Count(A)}
$$

得到:

$$
P( 水秀 | 山清 ) = \\frac{Count(山清水秀)}{Count(山清)}
$$

其中Count(山清水秀)表示在文本集中"山清水秀"出现的次数,Count(山清)就是在文本集中出现的次数,P( 水秀 | 山清 )就是相对于其它词与"山清"进行组合出现的概率(在文本集中不只是"水秀"和"山清"一起组合出现)

N 词统计

N-grams 中的"N"表示一个预测上下文窗口大小(由几个字组合)

当

N=1 时,就只是统计单独一个词出现的概率, 比如"桂林山水甲天下",就将拆成"桂","林","山","水","甲","天","下"去进行统计
N=2 时,统计连续两个字出现的概率,"桂林山水甲天下",将拆成"桂林","林山","山水","水甲","甲天","天下"
N=3 时,统计连续三个字出现的概率,"桂林山水甲天下",将拆成"桂林山","山水甲","甲天下"去进行统计

现在换个例子,我们假设"白云山"在文本集中出现了600次,"白云"在文本集中出现了900次,而"白云下"只出现了10次,那么

"白云"和"山"一起出现的概率是

$$
P(山|白云) = \\frac{Count(白云山)}{Count(白云)} = \\frac{600}{900} = 0.66
$$

而"白云"和"下"一起出现的概率是

$$
P(下|白云) = \\frac{Count(白云下)}{Count(白云)} = \\frac{10}{900} = 0.011
$$

当在给定"白云"时,预测下一个出现的词相比于"下","山"的出现概率会更高,即输出"白云山"的概率将远大于"白云下"

图例

![N-grams 图例](https://zpekii.github.io/assets/img/2025-11-4-google-deep-min...)

N-grams 模型的局限性

能力受语料库大小限制
无法处理数据集中从未出现过的词汇预测
因为能力受预料库大小限制,所以很容易出现高重复度的内容输出,生成不够多样
缺乏上下文意识,N-grams只考虑句子的最后 n - 1 个词,忽略了长距离文本的依赖关系,生成的内容可能出现描述前后不一致的情况

Transformer 模型

相比于 N-grams 模型, Transformer 模型生成的内容比前者更流利、上下文更相关的原因主要是以下两方面:

Transformer 模型有更大的上下文窗口
Transformer 模型基于能够学习复杂和抽象内容的神经网络

训练一个模型的过程

机器训练简单过程描述

预测：模型观察一串单词（输入），并尝试预测下一个标记（目标）
比较：然后将预测结果与实际进行比较。模型预测与目标之间的差异将记录成一个 Loss 值。高 Loss 值表示模型猜测错误，低 Loss 值表示猜测接近实际
调整：基于这一损失，模型略微调整参数以提升下一次猜测。这种猜测、检查 Loss 值和调整的过程称为优化

机器学习开发流程

准备数据集(data): 收集资料->清洗数据,过滤有害或有偏见的内容->拆分和格式化数据,将内容分解成模型能理解的小单位
训练(Train):使用一个现有的预训练模型,在此基础上进行训练(从零开始成本很高)
微调(Fine-tune): 根据特定目的和期望行为进行微调,此步骤包括
- 监督微调(SFT:Supervised Fine-tuning):预训练模型会在专门为 目标任务创建的较小且高质量的数据集上进一步训练
- 人类反馈强化学习(RLHF:Reinforcement Learning from Human Feedback):这一阶段侧重于使 AI 的行为与人类偏好对齐，使其更具帮助性和无害性
评估(Evaluate): 在正式发布给用户前,除了在准确性，还包括性能、安全性、公平性和整体实用性方面进行严格评估外,还需要进行人类评估
部署(Deploy): 在满足评估标准后,进行部署投入实际应用,并在此期间进行监控

author: Smoothcloud润云-Zpekii

劈柴哥和哈萨比斯亲自站台！谷歌世界模型 Project Genie 刷屏，幕后团队揭秘 60 秒不是极限，内存是巨大约束

作者: 纯情
时间: 2026-01-30
分类:
评论

世界模型真的变天了！

今天，谷歌正式发布重磅世界模型原型产品“Project Genie”，只需一句话或一张图，就能一键生成可玩、可交互的实时虚拟世界。它的重磅程度，让谷歌“掌舵人”劈柴哥和 Google DeepMind 创始人哈萨比斯亲自为它站台。

在 Project Genie 生成的虚拟世界中，你可以用 WASD 键移动角色、旋转视角、跳跃，在生成世界自由探索。更重要的是，其生成画面的精细度、整体完成度，已经明显超出以往研究型 Demo 的范畴，在观感上直逼成熟游戏产品。

过去几年，世界模型一直被认为是通往 AGI 的重要路径，但始终存在一个根本问题：它们更像会动的视频，而不是真正的环境。

具体来说，早期世界模型普遍存在几大短板：

生成世界质量偏低，结构简单
难以实时交互，或只能交互一两步
长期一致性差，画面和规则会“漂移”
不符合物理和因果逻辑，更像梦境而非世界

而 Project Genie，第一次把这些问题同时拉到了可用水平。

Project Genie 是一个基于 Genie 3、Nano Banana Pro 和 Gemini构建的原型 Web 应用，其中的核心是谷歌最新的世界模型 Genie 3。

与以往“先生成完整视频”的方式不同，Genie 3 采用自回归生成机制：它会根据世界描述和用户操作，逐帧生成环境状态，而不是播放预先生成好的内容。

这带来了几个关键变化：

长期一致性生成的世界可以在数分钟内保持稳定，不会快速崩坏；系统还能“记住”用户造成的关键变化，记忆时间最长可达约一分钟。
真正的实时交互世界以 20–24 帧/秒运行，用户的操作会即时反馈到环境中，而非触发预设结果。
更高质量的视觉表现生成画面分辨率约为 720p，整体真实感和细节水平明显高于以往世界模型，为智能体理解复杂环境提供了更可信的视觉基础。

谷歌早在 2025 年就将 Genie 3 称为“通往 AGI 的关键一步”。而在 Project Genie 的官方页面中，谷歌再次强调：

Genie 3 让智能体能够预测世界如何演化，以及自身行为如何影响世界，这是实现推理、规划和现实行动的基础。

可以说，在 Project Genie 身上，已经释放出一个非常明确的信号：世界模型正在从长期的前沿研究方向，正式迈入可落地、可探索的关键阶段。

一旦世界模型能够稳定生成高质量、可交互、具备长期一致性的环境，其应用边界将被迅速打开。

无论是自动驾驶中的复杂场景模拟、具身智能的环境理解与决策训练，还是游戏开发、影视制作、互动教育与新型媒体内容创作，世界模型都展现出极具想象空间的潜力。

据 The Verge 报道，谷歌选择在这一时间点推出 Project Genie，部分原因在于希望观察用户的真实使用方式，从而发现此前尚未预料到的新应用场景。

Google DeepMind 产品经理迭戈·里瓦斯透露，谷歌内部已经对 Genie 在电影制作、互动教育媒体等领域，帮助创作者进行场景可视化与世界构建的潜力感到兴奋。

目前，Project Genie 仍是实验性产品：

单个世界最长探索 60 秒
分辨率约 720p，帧率约 24fps
仅向美国地区、18 岁以上的 Google AI Ultra 订阅用户开放

Project Genie 发布后迅速引发热议。马斯克第一时间发文祝贺

关于 Project Genie 的讨论，也在 X 上迅速扩散，不少网友将其称为又一个“变革时刻”。

对此，Project Genie 负责人之一 Jack Parker-Holder 表示：

Genie 3 感觉像是世界模型领域的一个分水岭。我们现在可以生成任何可想象世界的、持续数分钟的实时交互式模拟。这可能正是具身通用人工智能此前缺失的关键一环。

网友们玩疯了，在游戏世界释放创意

具体来看，Project Genie 的使用流程并不复杂。进入页面后，用户可以直接从 Google 预设的多个世界模板中选择，也可以完全自定义环境和角色，构建一个专属的虚拟世界。

为实现更精准的控制，Project Genie 会用 Nano Banana Pro 的能力，先为生成世界打个“草稿”。

整个页面被清晰地分成左右两部分：

左侧用于填写环境的 prompt，例如地形结构、视觉风格和整体氛围；
右侧则用于描述主角的形象与设定，并可选择第一人称或第三人称视角，从而提前确定进入世界后的体验方式。

完成初步设定后，Genie 会先生成一个缩略图，可以对生成内容进行预览和微调。如果符合预期，就能进入生成世界，开始实时交互与自由探索。Genie 3 的响应延时非常低，在控制角色移动时，会带来强烈的沉浸感。

在官方案例中，你可以把自己变成一个球，在草原上自由滚动。

可以看到，如果转换视角，球滚动留下的痕迹并不会消失，新生成的内容也不会覆盖旧区域。这一细节直观地体现了 Project Genie 所强调的世界一致性。

在另一个官方案例中，你可以变成刷墙工人，想刷哪面墙就刷哪面，整个虚拟世界可以实时交互，且看起来十分合理。

谷歌表示，这是想象力空间的无限释放，无论是自然世界或现实场景，还是构建动画、小说中的奇幻世界，甚至是突破时间与空间限制的未来世界，都可以被创造出来。

不少网友迅速上手，开始“放飞自我”式创作，其中，各类游戏风格世界不断涌现。

比如在沙滩上骑摩托：

更绝的是直接制作山寨版“任天堂”游戏。比如马里奥系列，《塞尔达传说》，《银河战士》。

即便抛开体验层面的不足不谈，Project Genie 在生成世界的质量与完成度上，依然足以令人震撼。这也难免让人产生进一步的联想，游戏从业者会不会大规模失业？

这一担忧并非空穴来风。根据 Informa 本周发布的游戏开发者大会（GDC）报告，33% 的美国受访游戏开发者、以及 28% 的全球受访游戏开发者表示，他们在过去两年中至少经历过一次裁员。Project Genie 可能会进一步扩大这种趋势。

不过，围绕 Project Genie 的能力边界，也有人提出质疑。

The Verge 的记者亲自上手试验后认为，从“游戏”的角度来看，Project Genie 所生成的“可玩世界”显得相当单调。

除了基础移动操作外，玩家几乎无事可做。没有任务目标，也缺乏音效反馈。更糟糕的是，输入延迟时有发生，甚至会出现角色失控、只能旋转视角的情况，严重影响整体体验的流畅度。

该记者还提到，在仅有 60 秒的探索时间内，世界的一致性并不稳定。系统有时会“忘记”此前生成的内容，例如滚动的小球留下的颜料痕迹会突然消失，已生成的道路也可能被重新覆盖为草地。这些现象让人难以确认模型是否能够持续、可靠地维护同一个世界状态。

在内容生成层面，Project Genie 对知名游戏 IP 也存在明显限制。测试中，索拉、唐老鸭、高飞、杰克·斯凯灵顿等角色均无法直接用于生成可交互世界，相关内容在进入实际体验阶段会被系统拦截。

目前，与生成世界交互的智能体只能执行较为有限的操作，同一世界中多个模型之间也难以协同互动。此外，Genie 在渲染清晰文本、还原现实世界具体地点方面仍存在困难，智能体对控制指令的响应有时也会出现异常延迟。

对此，谷歌方面回应称，Genie 并非游戏引擎，团队更关注它在增强创意过程、提升构思能力以及加快原型制作方面所展现出的潜力。

在 Geinie 3 官网上也特别强调，目前产品仍处于早期研究阶段，因此会有：生成的世界可能看起来并不完全逼真，也不一定总是严格遵循提示、图像或现实世界的物理规律；角色有时可能难以控制，或者控制延迟较高；生成时间受限等问题。

Project Genie 团队深度揭秘关键问题

在 Project Genie 上线不久，其背后的核心团队第一时间接受采访，包括 Google DeepMind 研究总监 Shlomi Fruchter、Google DeepMind 的研究科学家 Jack Parker-Holder、产品 Diego Rivas，他们都对世界模型长期关注，在这次访谈中深度揭秘 Project Genie 的关键问题。

这次对话讨论了：什么是世界模型？为什么只能生成 60 秒？Project Genie 的研发历程是什么？它未来真正可能改变的是哪些领域？

他们首先承认 Project Genie 的强大确实源于谷歌视频生成技术的积累，但同时他们也强调，Genie 并不是更强的“视频模型”，而是人类第一次可以实时走进、操控、改变的生成世界。

其中的核心差异是，世界模型是逐帧实时生成，能与过去保持物理与视觉一致性，并且用户可随时干预。这对延迟、内存、算力的要求，比普通视频生成高得多，也是更前沿、更有挑战的方向。

针对不少人抱怨“60 秒不够”的问题，他们表示这是在服务成本、系统稳定性和体验质量之间做出的权衡。他们其实已经做出过更长时间的生成世界，但在实际测试中发现，随着生成时间拉长，世界的动态感反而会逐渐减弱。

研究员表示“与其花两分钟体验一个世界，不如花一分钟体验两个不同的世界，体验感会更好。”

针对模型的生成速度，他们表示已经够快了，短期内进一步“加速”并没有太大意义。接下来，他们更重要的研发方向，是降低算力成本，让这种能力能够被更多人真正用得起。

在产品定位上，他们并不把 Genie 看作一款游戏，而更像是一个正在快速演化的实验场：

一方面，多人互动、长期一致性、复杂动态仍然是明确的技术瓶颈；
另一方面，娱乐、教育、具身智能、机器人训练等方向，已经展现出非常清晰的应用前景

回顾产品研发历程，从论文阶段的 Genie 1，到今天普通用户可以亲自上手体验的 Genie 3，这背后其实是谷歌一整套高度协同的跨部门合作。

谷歌实验室与谷歌创意实验室是研发的核心力量，而服务团队、基础设施团队和沟通团队则共同兜底，确保这项起源于强化学习的前沿研究，能够被真实用户理解、体验并持续使用。

当团队回看去年八月时，他们很清楚，当时外界已经迫不及待想“走进这个世界”，但 Genie 仍然只是一个规模庞大的研究项目。即便如此，研发人员脑海中已经浮现出一系列潜在应用场景，其中最清晰的方向之一，正是具身智能。一个标志性的例子，是他们与 Simmer 项目的长期合作。

Simmer 是由双子座模型驱动的目标导向智能体，能够在 3D 世界中执行复杂任务。过去，它只能在少数几个固定游戏环境中训练；而现在，借助 Genie 3，只需一句文本指令，就能生成一个全新的、甚至是照片级写实的虚拟世界，把智能体直接“放进去”完成任务。

从 Nano Banana Pro 的图像创作，到谷歌视频生成的成熟，再到可交互的世界模型 Project Genie ，生成式技术正在构成一个连续体，世界模型将成为第三次技术跃迁。

以下是播客的更多细节，欢迎来看：

为什么只能 60 秒？

主持人：我很好奇，这背后的物理逼真度，是不是和我们在 VO（谷歌的视频生成模型）项目上取得的研究突破有关？感觉两者之间有相似之处。

研究员：二者绝对是相关的，而且世界模型的研发难度其实更高。普通的视频模型，能在整个视频的时间线上自由调整过去和未来的帧，自由度很高 —— 就像有一块画布，模型能随时间生成视频，在画面的各个位置做微调，让整体效果连贯美观。

但世界模型的难点在于，世界是持续演变的，每一帧的输入都是未知的，模型必须保证生成的画面既和过去的内容连贯，又能匹配用户当下的操作，所以技术难度会大很多。

其实开发 Genie 1 时，我们用的是 Imagine 模型，当时我们的模型效果并不好，而且想要生成合适的图像也非常困难。Nano Banana Pro 是在Genie 3 之后推出的，技术进步的速度真的令人惊叹。也许未来某一天，我们定义虚拟世界的方式，将不再局限于图像和文本，但就目前而言，这种方式已经给了用户足够的创作灵活性。

主持人：这个模型的复杂度上限在哪里？比如能不能在同一个世界里加入大量并行的互动元素？模型会在什么情况下出现效果衰减？

其实 Nano Banana Pro 就是个很好的例子，如果一张图片里有 10 个人脸，想要对这张图进行编辑，模型就容易出问题。所以我想知道，Genie 3 的自然性能边界在哪里？

研究员：这个模型肯定不是完美的，目前它还只是一个研究预览版本。我们希望让大家亲自体验，看看它的优势在哪里，不足又在哪里，我们也能从用户反馈中学习和优化。

目前模型在各类创意环境的视觉呈现上做得不错，画面可以非常精致，但在世界的动态表现上还有短板 —— 有时候初期的动态效果很好，但时间久了，动态感会逐渐减弱，这也是我们正在优化的点。不过它的表现已经足够令人惊喜了，所以还是建议大家亲自上手试试，看看哪些玩法能达到理想效果。

研究员：不过说到延迟问题，还有很多技术点需要考虑。Genie 3 的研发有一个核心约束：我们希望实现特定操作频率下的实时低延迟，也就是说，用户操作的往返延迟要极低。同时，内存也是一个巨大的约束 —— 模型的上下文长度越长，通常算力成本就越高，运行速度也会越慢。

所以研发的核心挑战，就是平衡这些相互冲突的目标。而在研究层面，我们正在所有这些领域持续优化，我们相信，模型的性能会不断提升，变得更强大、更快、更经济，这也是行业的整体发展趋势。

主持人：我还有个问题，模型的生成时长是人为限制在 60 秒，还是真的能实现 3 到 5 分钟的连续生成？

研究员：其实我们已经做出过能连续生成更久的演示版本了，但我们觉得 60 秒是一个比较合适的时长 —— 既能让用户充分体验虚拟世界，又能保证为足够多的用户提供服务，这其实是在服务成本上做的权衡。

而且就像我们之前提到的，生成时间越长，世界的动态感会逐渐减弱。所以我们觉得，与其花两分钟体验一个世界，不如花一分钟体验两个不同的世界，体验感会更好。当然，如果用户反馈希望延长时长，我们也会做出调整。

这也和虚拟世界的类型有关，比如如果你在体验高山速降滑雪，两分钟的时长会很过瘾，因为整个过程是持续的动态体验；但如果只是探索图书馆，两分钟可能就没那么有趣了。

主持人：是啊，人们总是能很快适应新的技术体验。但对我来说，这个模型的表现依然令人难以置信。你之前被问到能不能让模型运行得更快，现在的速度已经到极限了吗？

研究员：在当前实时交互需求下，生成速度已经足够快，短期内进一步加速的意义不大。因为模型是实时生成虚拟世界的，速度再快其实也没有意义了 —— 它的生成速度已经和用户的体验速度完全匹配。接下来我们的研发重点，会放在降低算力成本上，这样才能让更多人用上这款产品。同时，在保持速度的前提下，不断增加新功能，这本身也是一个巨大的挑战，我们希望在各个方面都把模型做得更好。

背后的故事：谷歌跨团队协作

主持人：聊完当下的体验，我特别想知道模型的未来迭代方向。不过在聊未来之前，我们先回顾一下研发历程吧。我们八月份发布了 Genie 3 的首支演示视频，之后启动了可信测试，不断迭代产品、搭建基础设施。能不能跟大家快速讲讲，从一支惊艳的演示视频、小规模的早期测试，到正式推出面向用户的精灵计划，这中间都经历了什么？

研究员：首先，八月份发布模型和演示视频后，我们让一小部分人体验了产品，核心是为了收集反馈 —— 因为这是一款全新的应用，一种全新的体验，我们需要思考如何负责任地将它推向市场。

从那以后，我们的大部分工作都集中在基础设施、服务架构和成本控制上，毕竟我们希望能让尽可能多的用户体验到它。而美国的谷歌 Ultra 订阅体系，能让我们触达足够多的用户，收集到第一手的反馈：比如用户觉得哪些功能有用，会如何和产品互动，哪些玩法体验最好。这段时间里，我们也在持续完善可信测试项目。

这其实是模型开发周期中最核心的阶段，因为我们能从不同类型的用户身上学到很多东西，无论是创意工作者，还是教育领域的从业者，都能给我们带来丰富的洞察，让我们知道模型目前的实际应用价值、未来的发展方向，以及哪些体验是用户最期待的。

回头看八月份，当时我们知道大家肯定想体验这款产品，但它那时还只是一个大规模的研究项目。我们脑海里有很多应用场景，比如智能体、机器人这类具身智能领域，都能用到这项技术。去年年底还有一个和我们类似的项目发布，他们也用Genie 3 来训练游戏智能体。

从消费端的角度来看，我们觉得这个产品会很有吸引力，所以想收集用户反馈，但当时也不确定是否已经到了面向更多用户发布的时机。而迭戈主导的可信测试项目，让我们发现，用户第一次上手这款产品时，都会有惊艳的体验。我们希望深入了解更多的应用场景，所以这次的发布，也是我们在这方面迈出的一大步。

一年前，我根本没想到这个模型能有这么强的吸引力，但现在它已经成为一款非常有趣的产品，我们也很期待大家会用它来做什么。

主持人：聊完产品和技术，我们再来聊聊谷歌的跨团队合作吧。显然，从你们的分享和幕后工作来看，打造这款产品的难度非常大。谷歌内部有哪些团队参与了 Genie 3 和 Genie 的研发？

研究员：幕后参与的团队非常多，谷歌实验室、谷歌创意实验室是核心 —— 画廊里的那些虚拟世界，大多是创意实验室的作品；还有服务团队、基础设施团队，基本上有一个完整的幕后团队在推动这项工作。从八月份发布模型到现在，我们一直在全力冲刺，所有团队的付出都堪称英勇。

我们还和沟通团队深度合作，因为想要向大家解释一款全新的模型，一种大家从未体验过的技术，是一个非常细致的话题 —— 它起源于强化学习这个相对小众的领域，现在却被媒体、社交媒体上的各类人群广泛讨论，所以用正确的方式传递这项技术，非常重要。

回顾这个领域的研究起点，我们甚至不确定这项技术能否成功落地。而现在，我们让它实现了实时交互，达到了不错的画质，完成了从研究构想到发布模型，再到推出面向用户的体验产品的闭环，这一点让我非常兴奋。这并非理所当然，也充分体现了谷歌内部跨技术栈的团队协作能力，这种能力非常独特。

主持人：我们在镜头外还聊过，不仅是 Genie 3，谷歌所有模型的能力都在不断拓展，而这和模型的训练方式息息相关。杰克，你之前还尖锐地提到，这些模型其实并没有针对任何特定的应用场景进行训练，却能在各个领域实现很好的泛化能力，能不能再聊聊这一点？

研究员：没错，我们一开始其实并不知道这个模型的具体应用场景。去年年底，Genie 团队还在做纯粹的研究项目，Genie 1 最初只是一篇研究论文，和 VO（谷歌的视频生成模型）完全不同。

与此同时，我们还在做 Doom 游戏引擎的相关研究，这项研究充分展现了实时交互的潜力，但它仅适用于 Doom 这一个特定的游戏世界，迭戈可以再聊聊这一点。

另外，2024 年 12 月 VO（谷歌的视频生成模型）2 的发布，在 AI 领域已经是很久以前的事了，但当时我看到它的效果时就觉得，视频生成技术已经成熟了，视觉质量达到了行业前沿，值得我们深入探索。

于是我们达成共识，认为这项技术的潜力无限，随后组建了跨团队的研发小组，汇集了各个领域的专家 —— 他们都在不同的技术领域有积累，我们相信把这些技术结合起来，会产生不可思议的效果。而我们的研发，并非针对某个特定的下游应用场景，而是因为它蕴含着无数的应用可能。

最酷的是，我们脑海里有一些预想的应用场景，比如和 Simmer 项目的合作，我们和这个项目的合作已经有很长时间了，他们也参与了 Genie 2 的研发，体验过 Genie 2，现在已经基于 Genie 3 发布了相关产品。

Simmer 是我们最强大的目标导向智能体之一，能在 3D 世界中互动，是由双子座模型驱动的 —— 你可以在 3D 世界中向它输入文本指令，它就能完成各种不同的目标，泛化能力非常强，还能通过自我提升学习。这也是我们迈向通用人工智能、具身智能的重要方向。

去年年底我们发布了这款智能体，他们就用 Genie 3 的虚拟世界来探索智能体的能力。要知道，Simmer 原本只在几款游戏中接受过训练，但现在借助 Genie 3，你只需输入文本，就能创建一个全新的、甚至是照片级写实的虚拟世界，然后把智能体放进去，看它完成各种任务。这两个项目的结合，可以说是水到渠成。

未来的应用领域：娱乐、教育、具身智能

研究员：从应用层面来说，我个人对娱乐和教育领域的应用最期待。我们希望让更多人体验这款产品，看看凭借现有的技术，现在能打造出哪些应用。教育领域是我们重点关注的方向，比如让人们在虚拟世界里互动学习 —— 想象一下，能为用户打造一些他们在现实中无法体验的场景，比如一个孩子害怕蜘蛛，我们可以打造一个满是蜘蛛的房间，让孩子在虚拟世界里慢慢适应，克服恐惧。我的孩子就怕蜘蛛，所以我觉得这种个性化的全新体验，价值非常大，这也是我们近期的研发重点。

另一方面，我们之前也聊过，机器人技术和具身智能领域的世界模型，潜力也非常大。当然这个领域还有很多研究工作要做，但我个人对它充满期待。简单来说，核心思路就是：如果一个模型能模拟现实环境，那我们就可以用它在虚拟世界里训练机器人，或是让具身智能体在虚拟世界里学习，甚至实时辅助智能体做出决策。

Genie 计划虽然现在已经很惊艳了，但它只是一个起点。未来我们会和谷歌实验室继续深度合作，不断优化产品的功能、操控方式、应用架构等；也会拓展更多的使用场景，不局限于Genie 计划这一个应用，还会推出开发者 API，让更多开发者参与进来。

不得不说，开发者总能发掘出产品的商业价值，找到极具经济影响力的应用场景，这也是我觉得很有意思的一点 —— 除了娱乐，世界模型还能在哪些领域找到产品市场契合点。

而且很多功能在不同的应用场景中是相通的，比如更广泛的交互性。可以肯定的是，机器人技术的发展，不可能只靠方向键来实现，未来的机器人助手需要更多的操控方式，而这和虚拟世界的交互研发是相通的。

八月份发布 Genie 3，让我们成为首批推出这类模型的团队，也让我们能和谷歌内部的各个团队展开合作。我们会认真吸纳所有的用户反馈，把大家提出的建议都列出来，成为下一代模型的研发方向。我之前跟杰克说过，我们只实现了目标的 50%—— 因为我们总是会设定极具野心的目标，这个领域还有太多可以探索的地方，模型还有很多不足，需要我们不断优化。

这个领域的发展空间巨大，我们才刚刚起步。就像写论文一样，一个项目完成后，你马上就会想，下一个项目可以加入哪些功能，做得更好。

现在社区里也出现了很多有趣的世界模型，有些和 Genie 3 很相似，但我们的目光已经放得更远了。

怎么玩这个产品？

主持人：除了研发历程和未来规划，还有没有什么想跟大家分享的？比如对于即将体验这款模型的用户，你们有什么建议？毕竟你们比普通人花了更多时间研究和使用模型。

研究员：我建议大家尝试个性化创作，打造属于自己的、其他系统无法实现的世界。当然，用它打造游戏环境也很有趣，但这类场景其他系统也能做到；而把现实中的专属事物 —— 比如一个玩具、一张照片，或是让自己以特定风格出现在真实的环境中，这种体验是独一无二的。

这让我想起了 VO（谷歌的视频生成模型）早期的一个研究项目：有人用 VO（谷歌的视频生成模型）为阿尔茨海默病患者重现童年记忆，让他们在虚拟世界里重温过去，这个项目特别棒。所以我觉得，把个人专属的事物融入虚拟世界，让它们 “活” 过来，这种互动方式非常有价值，大家可以试试这个方向。

另外，大家肯定会发现，模型的提示词创作目前还不够完善，但这恰恰是机会。几年后当这个模型变得非常成熟时，大家会想起现在这个阶段，就像我们现在看待 VO（谷歌的视频生成模型）3 一样 —— 现在 VO（谷歌的视频生成模型）3 的每个提示词都能生成优质视频，精灵 3 号的每个提示词基本也能实现预期效果，但在早期，提示词的创作至关重要，甚至有人会花 10 到 20 分钟精心打磨一个提示词。

所以如果第一次创作的效果不好，别放弃，这款全新的模型，可能会以你意想不到的方式呈现出惊喜的效果。而且亲自上手体验，你就不是在消费一款产品，而是在探索前沿技术。

主持人：太认同了，“探索前沿技术” 这句话简直可以当作产品标语了。我还有一个觉得很有趣的点：当被动的媒体消费变成交互式的体验，会发生什么？这是一片全新的未知领域。过去也有人做过尝试，但现在有了这种真正定制化的交互式媒体叙事，它会给整个媒体和娱乐行业带来什么影响，真的太值得期待了。

研究员：还有一个玩法也很有趣，你可以在虚拟世界里设置挑战，把这个世界分享给别人，让对方完成任务，比如从 A 点走到 B 点。这是一种基础的、有目标的游戏体验，现在的模型已经能实现了。比如那个球的场景，你可以让别人用球写出自己的名字，这类简单的挑战都能设置。

就像杰克说的，现在的体验虽然还比较基础，但它蕴含着巨大的创意潜力。比如还有一个带环的场景，你可以操控角色穿越环道，体验飞行的感觉，这也是用户发掘的玩法。

人们还经常问，行业的前沿在哪里，我们下一步要做什么。我经常会做一件事：长时间沉浸在 Genie 3 的第一人称写实世界里，然后看向窗外，对比虚拟和现实的差距。我认为最终，虚拟世界会和现实世界变得几乎无法区分，虽然今天我们不深入聊这个话题，但从模型的性能发展来看，这显然还有很长的路要走。但如果能生成和现实高度逼真的世界，在里面自由移动、互动、完成各种事情，那该多不可思议。

而这也是驱动我们开展这项研究的核心愿景：想象你拥有一个宇宙的副本，你可以在其中随心所欲。显然，这个副本有巨大的应用价值，能用到很多领域。这虽然是一个非常远大、甚至可能无法实现的目标，但它就像北极星一样，一直指引着我们。

比如我们这次把恐龙鲍勃放进虚拟世界，其实就是在重构现实空间，给现实事物做有趣的增强。未来这方面的探索，一定会非常有意思。

主持人：那到 Genie 5 的时候，我们可能真的会分不清自己是在现实还是在模拟世界里了。

世界模型是第三次技术跃迁

主持人：我还有一个有点尖锐的问题想问问大家：你们觉得，大多数人体验到世界模型的时间线会是怎样的？世界模型会先通过企业端影响普通人的生活吗？比如企业利用世界模型提高生产效率，打造更好的日常产品；还是说，未来普通人的日常生活中，会直接和世界模型产生互动？如果是后者，这个时间线大概会是多久？

研究员：这其实取决于你如何定义世界模型。如果是指交互式的视听体验类世界模型，我认为今年、明年，就会有越来越多的人接触到它，我们也会看到它在一些领域大放异彩，最终成为很多应用的基础功能。

但就像现在的视频生成技术，虽然发展很快，但真正融入普通人日常生活的比例其实并不高，世界模型也需要时间来完成用户普及，找到合适的应用场景—— 毕竟视频和图像不同，世界模型又和视频生成不同。

而如果是具身智能领域的世界模型应用，很难给出具体的时间线，但这个领域已经在取得不错的进展了。

另外，用户的人群特征也很重要：有些经常接触交互式媒体的人，会成为世界模型的早期使用者，他们知道该如何体验；但如果把它交给一个对前沿技术不感兴趣的家人，他们可能会觉得无从下手，体验不到产品的魅力。

但具身智能相关的应用，可能在未来 1-2 年就会走进现实，普通人会在生活中直接接触到，所以最终的普及时间，还是取决于用户所处的技术接受曲线位置。

还有一点，Genie 计划也印证了一个趋势：生成式技术正在形成一个连续体，从 Nano Banana Pro 的图像创作，到 VO（谷歌的视频生成模型）的视频生成，再到现在Genie 3 的交互式实时媒体创作，成为第三个核心支柱。我们希望未来有更多人能体验到这个连续体上的各类创作体验。

主持人：我特别期待看到行业的发展趋势，毕竟 VO（谷歌的视频生成模型）和 Nano Banana Pro 的发展过程中，都出现过一些爆红的玩法，都是我从未预料到的，太疯狂了。

研究员：世界模型的发展，和图像、视频生成还有些不同。图像和视频生成的作品，能被数百万人观看，一个人的创作可以被广泛传播，家人、朋友都能看到；而世界模型的独特之处在于，你可以在探索的过程中，不断改变周围的世界，这开辟了很多我们未曾考虑过的新途径、新玩法。

图像和视频生成，本质上是用新技术替代或自动化了过去的一些创作方式，当然也带来了新的能力和限制；但世界模型，实现了很多过去根本不可能做到的事情，这是它最大的不同，当然二者也有很多相似之处。

还有一个我们非常兴奋的想法，大家在演示中也能看到端倪：用户可以在现有虚拟世界的基础上继续创作，这样就会形成很多有趣的世界分支，还能追溯创作源头。这方面的潜力非常大，值得我们深入探索。

Genie 计划上线时，用户可以下载自己的虚拟世界演示视频；未来我们还会探索更多的世界分享方式，让大家能以更有趣的方式在别人的世界基础上创作。

主持人：太酷了，我还想要一个 “世界档案” 功能，这样大家就能看到我所有的创意想法了。

从世界模型的发展来看，技术进步的节奏是怎样的？显然我们已经看到了巨大的进步，图像生成、VO（谷歌的视频生成模型）视频生成、核心双子座模型，都取得了长足的发展。世界模型是不是也在遵循同样的发展轨迹，到处都是触手可及的技术突破，同时受益于算力规模和推理能力的提升？

研究员：可以这么说。图像生成技术显然比视频生成更成熟，视频生成和世界模型之间的差距，我无法准确衡量，但可以肯定的是，世界模型是超越视频生成的前沿技术。

最新一代的视频生成模型，画质已经比Genie 3 高很多了，我们也不指望Genie 3 现在能生成极致精美的视频，因为实时交互的约束，是普通视频生成模型所没有的。所以世界模型的发展，可能会比视频生成稍慢一些，但它能带来全新的体验。

说实话，我们现在仍处于技术快速进步的阶段。硬件始终是一个巨大的约束，这对所有模型来说都是如此。行业的整体趋势是，在成本基本不变的情况下，让模型的运行效率越来越高。但最终，我们还是需要更易获取的硬件支持—— 比如希望未来人们能直接在自己的设备上运行这类模型，实现无延迟的即时体验。

目前高性能的 TPU、GPU 还并非人人可得，硬件的发展速度因为一些实际原因，会比模型研发慢一些，但这也是我们的未来方向 —— 希望到 Genie 5 时，大家能在手机上运行完整的通用模拟系统。

这一点我们也讨论过，谷歌拥有垂直技术栈的优势，这也是我们在谷歌、在深度思维工作的魅力所在：我们既能站在模型研发的前沿，又能利用谷歌最好的硬件来支持模型的运行。而且专门为世界模拟打造的硬件，本身也极具发展潜力，它就像通往另一个维度的入口，点击就能进入，充满了新鲜感。

传送门：

https://labs.google/projectgenie

链接：

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm_medium=gift-link

每周工作 100 小时！谷歌 DeepMind CEO 揭秘：中国对手是字节跳动，断言谷歌是 AI 领域唯一全栈巨头

作者: 纯情
时间: 2026-01-22
分类: 资讯
评论

“没有，从来都没有安心的时候。”

在 2026 年达沃斯世界经济论坛，DeepMind 创始人、Google DeepMind CEO 德米斯·哈萨比斯，用这句话形容过去三到四年的谷歌。

外界一度流行的“谷歌慢半拍”的言论，在他看来是一个彻底的误解。事实上，在这段时间里，谷歌的 AI 团队几乎一直处于红色警报状态。他本人长期保持着每周 100 小时、一年 50 周的工作强度，把一家万亿美元体量的科技巨头，硬生生拉回到创业公司的战时节奏。

也正是在这样的状态下，谷歌迎来了 Gemini 3 的发布，被哈萨比斯视为“重回行业最前沿”的关键节点。

在接受彭博社记者 Emily Chang 的专访时，他罕见地系统性拆解了当下几乎所有 AI 世界的核心争议：

谷歌是否真的掉队？
中国 AI 是否构成威胁？
Transformer 和大模型是否已经走到尽头？
AGI 会在什么时候到来？
当工作不再必要，人类该如何寻找意义。

在哈萨比斯看来，过去十年，现代人工智能产业所依赖的关键突破，比如 Transformer 架构、深度强化学习、AlphaGo 背后的技术体系，几乎都诞生于谷歌与 DeepMind。他高度赞扬谷歌深厚的技术积累，他认为 谷歌是唯一真正具备 AI 全栈能力的公司，其真正的问题在于能否把研究、算力、数据、硬件和产品，整合成一个统一体系。

他还高度赞扬了谷歌的科学研究氛围，认为这正是他当初选择谷歌作为 Google DeepMind 归宿的原因。他还透露了他与拉里・佩奇、谢尔盖・布林如何高效分工。

在访谈中，哈萨比斯还反复提到一个关键词：物理 AI（Physical AI），他承认物理 AI 确实正处于突破的临界点。

在他的设想中，Gemini 从一开始就不是“聊天模型”，而是一个理解现实世界的多模态系统，是通往物理 AI 的入口。未来 Gemini 只会走向两个方向：

随身的通用 AI 助手（眼镜、手机）
真正能干活的机器人

当然，他也给出了冷静判断，距离物理 AI 跨过临界点还有 18 个月到两年的时间，在算法、数据、硬件等方面，都还差最后一段路。

谈到中国 AI，哈萨比斯的态度异常冷静。

他并不认为 DeepSeek 构成真正意义上的“危机”，也直言西方舆论夸大了其算力效率优势，这背后仍依赖西方模型蒸馏。在他看来，中国公司极其擅长追赶，但是否能率先打开下一代技术前沿，仍有待时间验证。而 现代人工智能行业所依赖的约 90% 的突破性技术，都是谷歌研发的。

但他特别表扬了 字节跳动，给出了一个极具分量的评价：字节跳动距离技术前沿，大约只差 6 个月，而不是 1–2 年。

这位把 AGI 当作毕生使命的科学家型 CEO，几乎反驳了马斯克、杨立昆和伊利亚·苏茨克维的核心判断，同时给出了一个异常冷静 AGI 的时间表：2030 年，有 50% 的概率实现通用人工智能。

哈萨比斯对 AGI 有自己一套严格的标准，即必须具备完整的人类认知能力，尤其是科学创新能力，不仅能解决问题，还要能提出真正重要的问题。这其中还有不小的差距。

他认为距离 AGI，还需要一两项，最多不超过五项突破性技术，这可能体现在世界模型、持续学习的能力、稳定性表现、更强的推理能力或更长远的规划能力等方面。他高度认可现有的模型成就，认为在现有方法的基础上进行优化并扩大规模，或许就能实现 AGI。

在访谈的最后，话题不可避免地走向未来社会：人工智能是否会取代人类的工作？围绕这一问题，哈萨比斯提出了一个有趣的概念 “后稀缺时代”。

在他看来，AI 带来的变革，无论规模还是速度，都会是工业革命的十倍，取代部分人类工作几乎是不可避免的结果。但他厘清一个概念，即人工智能本质上是一种终极的科学研究工具，就像更先进的望远镜和显微镜一样，是为科学服务的。

在哈萨比斯的设想中，真正重要的并不是“谁被取代”，而是人类将因此获得前所未有的自由，把注意力转向那些更根本的问题。例如能源危机，如何实现核聚变，如何发现全新的材料体系。这些长期困扰人类的难题，或许正是在人工智能的加持下，才第一次显露出被彻底解决的可能性。

这不仅是一场技术竞赛，更是一场文明级实验。真正的风险，在于当人类不再需要通过工作来定义自身价值时，我们是否已经准备好回答那个更深层的问题“为什么而活？”。

在那个时代，人类或许需要的不只是更强的工程师，而是伟大的哲学家，去重新书写意义的来源。

以下是哈萨比斯访谈实录，更多的谈话细节，欢迎来看：

谷歌的红色警报期与“王者归来”

主持人：和你上次来达沃斯相比，今年的感受有什么不同吗？Gemini 3 已经发布了，相关的消息我们也都听说了。我在内部甚至把这段时间称作“红色警报”。你觉得谷歌已经找回曾经的状态了吗？

哈萨比斯：我不太确定这是不是该由我来评价，但我确实认为，过去这一年我们做得非常出色。我们付出了极其艰苦的努力，几乎是全力以赴，才让我们的技术和模型重新回到行业最前沿。

尤其是 Gemini 3，以及我们在视觉和成像系统方面取得的一些关键突破，都在这一过程中起到了决定性作用。同时，我们也逐渐适应了如今这种节奏极快、需要迅速将成果推向市场的行业环境，让整个团队重新焕发出一种更接近初创公司的活力。

主持人：你认为人们是否低估了谷歌，或是对谷歌有误解？

哈萨比斯：或许是吧，我不确定。我的意思是，我们一直都拥有站在这个领域前沿的所有必备条件，显然我们在这方面有着悠久的积淀。

我认为在过去十年里，谷歌和 Google DeepMind（谷歌深度思维）联手，创造出了现代人工智能行业所依赖的大部分突破性技术。比如 Transformer 架构，还有最知名的阿尔法狗背后的深度强化学习技术，这些都是我们的成果。

我们还有覆盖数十亿用户的优质产品矩阵，从搜索引擎、电子邮箱到谷歌浏览器，这些产品天生就适合融入人工智能技术。

问题只是如何将所有这些资源整合起来，以正确的方式统筹规划。 过去几年我们已经做到了这一点，当然还有大量工作要做，但我们已经开始看到努力带来的成果了。

主持人：如果你认为谷歌具备优势，你觉得这个优势有多大？能持续多久？

哈萨比斯：在我看来，一切都始于研究。尤其是模型，要在各类基准测试中都保持行业前沿水平。这也是我们整合谷歌和 Google DeepMind（谷歌深度思维）后，首要聚焦的工作。双子座系列模型的进展，我们感到非常满意，当然这方面还有很多工作要推进。

但我认为，我们是唯一一家拥有全栈能力的机构，从技术、战术、流程体系，到硬件、数据中心、云业务、前沿实验室，再到一众天生适配人工智能的优质产品，我们一应俱全。

所以从根本的结构层面来说，我们本就该有出色的表现，而且我认为我们未来还有很大的提升空间。

主持人：我想知道，作为前沿模型研发的负责人，日常工作状态是怎样的。我看到有报道说，你大多在凌晨一点到四点进行深度思考。确实是这样吧？谷歌内部的工作状态是否一直处于红色警报级别？你有没有感到安心的时候？

哈萨比斯：没有，从来都没有安心的时候。我们设定红色警报级别，本是针对特殊情况的，但过去三四年，工作强度一直大到难以想象。每周工作一百小时，一年工作五十周，这已经是常态。

在这个技术发展速度极快的领域，要想保持前沿，就必须这样做。行业的竞争异常激烈，可能是科技领域有史以来最白热化的阶段，而且背后的利害关系重大。通用人工智能的研发，无论从商业还是科学角度，都有着深远的意义。

再加上我们正做的事情本身就令人振奋，而我的热情就是用人工智能探索科学难题，推动科学发现的进程。这是我一直以来的梦想，我毕生都在为人工智能发展的这一刻而努力。所以常常会因为有太多工作要做而难以入眠，但同时，也有太多令人兴奋的事情值得我们去探索、去推进。

主持人：聊聊谷歌目前的内部文化吧，你们既要在这场竞争中取胜，又要保证研发的方向正确。拉里・佩奇和谢尔盖・布林现在的参与度如何？你和他们沟通的频率高吗？他们现阶段的工作重点是什么？

哈萨比斯：他们的参与度非常高。

拉里・佩奇更多负责战略层面的工作，我会在董事会会议上见到他，去硅谷时也会和他碰面。

谢尔盖・布林则更多参与具体工作，他甚至会亲自参与双子座研发团队的编码工作，尤其专注于算法细节方面。

他们能对当下的人工智能研发充满热情，这对我们来说是好事，毕竟这是计算机科学发展史上一个无比重要的时刻，单从科学角度来看，这也是人类历史上的重要时刻，所以所有人都想亲身参与其中，这一点非常好。

而对于我来说，我正努力融合各方优势，既保留初创企业快速推出产品、敢于冒险的活力，这一点我们已经看到了成效；又充分利用大企业的资源优势，同时还为长期研究和探索性研究保留空间，而非只聚焦于三个月内就能落地的产品相关研究，我认为只做短期研究是不明智的。

我正努力平衡这些因素，过去一年，各项工作的推进都很顺利，而且我认为今年我们能做得更好。我对目前的发展态势非常满意，谷歌的技术提升和研发进展速度，在业内应该是最快的。

物理 AI 的奇点时刻，还有 18 个月到两年的时间

主持人：我知道你一直把重点放在推动科学进步上，比如发现新材料。我们也看到，现在 Gemini 已经被整合进人形机器人系统中。那么你觉得，人工智能在真实物理世界中的应用，是否即将迎来一个类似 AlphaFold 那样的突破性时刻？如果是的话，这个“突破”会以什么形式出现？

哈萨比斯：是的，过去一年我花了大量时间深入研究机器人技术。我确实认为，我们正处在物理 AI 取得突破性进展的临界点。

但我还是觉得，距离实现这一突破，我们还有 18 个月到两年的时间，还需要开展更多研究。

不过我认为，双子座这样的基础模型，为我们指明了方向。从一开始，我们就将双子座设计为多模态模型，让它能够理解物理世界，背后有多重原因。

其一，是为了打造通用智能助手，这种助手或许会搭载在 智能眼镜或手机 上，能够理解周边的现实世界。

其二，当然就是为了应用在 机器人领域。那么人工智能在物理世界的突破性时刻，究竟会是怎样的？我认为，那就是让机器人能在现实世界中稳定地完成各类有实际价值的任务。

目前，仍有一些因素制约着这一目标的实现。

一方面，算法还不够完善，需要提升鲁棒性，而且相较于实验室中仅处理数字信息的模型，机器人相关算法能依托的数据量更少，合成这类数据的难度也远高于数字数据。

另一方面，硬件方面也仍有一些难题尚未解决，尤其是机械臂和机械手的研发。其实深入研究机器人技术后，你会对人类的手部结构产生全新的敬畏之心，至少我是这样。进化的设计精妙绝伦，人类的手在稳定性、力量和灵活性上的表现，很难被复刻。所以在我看来，要实现这一突破，还有不少环节需要完善，但目前已有很多令人振奋的进展。

我们刚刚宣布与 波士顿动力 展开深度合作，他们研发的机器人非常出色，我们正将人工智能技术应用到汽 车制造领域。

接下来一年，我们会先推出 原型机 进行测试，或许一两年后，我们就能展示一些令人印象深刻的成果，并实现规模化应用。

DeepSeek 并不是重大危机，特别表扬字节跳动

主持人：一年前，DeepSeek 模型的发布在西方引发了不小的震动，很多人把它视为一场潜在的危机。但一年过去了，局势似乎逐渐平稳下来，中国方面的节奏看起来也有所放缓。你对中国人工智能领域整体竞争格局的看法，有没有发生变化？

哈萨比斯：没有，其实并没有改变。一开始我就不认为这是一场真正意义上的危机，我觉得西方当时的反应多少有些过度了。

DeepSeek 的确是一个令人印象深刻的模型，它清楚地展现了中国科技公司的实力。

如果看头部企业，比如字节跳动，我认为他们的能力非常强。在技术前沿的跟进速度上，他们可能只落后大约六个月，而不是一到两年。DeepSeek 正是这一点的体现。

当然，围绕它的一些说法也被夸大了。比如关于 算力使用效率的说法，并不完全准确，因为他们在研发过程中借鉴并依托了部分西方模型，也对顶尖模型的输出结果进行了微调，而不是完全从零开始独立训练。

另外，还有一个关键问题目前仍然没有答案：那就是中国公司是否能够在跟进前沿的基础上，真正实现原创性的突破并引领下一代技术。 他们在追赶方面确实非常擅长，而且能力正在快速提升，但到目前为止，还没有证明自己能够率先打开新的技术前沿。

AGI 的时间表：2030 年，有 50% 的可能实现 AGI

主持人：是你为通用人工智能给出了定义，你也曾说过，到 2030 年，我们有 50% 的可能实现通用人工智能。这个时间规划是否依然不变？

哈萨比斯：不变。

主持人：通用人工智能对你而言，依然是一个有价值的研发目标吗？

哈萨比斯：我认为是的，这个时间规划在我看来很合理，而且相较于一些人的预期，这个时间其实更充裕。

但我对通用人工智能的评判标准非常高，它指的是一个具备人类所有认知能力的系统，显然我们目前离这个目标还有很大差距。 这意味着，这类系统需要拥有 科学创新能力，不仅能解决科学领域的猜想和难题，更要能率先提出研究假设和问题。 任何一名科学家都清楚，找到正确的问题，往往比找到答案难得多。

目前的人工智能系统显然还不具备这种能力，未来能否拥有，还未可知，我们也仍未明确实现这一能力需要哪些技术突破。比如 持续学习能力，也就是在线学习能力，让系统能突破训练的局限，在现实世界中自主学习；还有 稳定性，目前的系统在不同领域的表现参差不齐，而通用智能系统不该有这样的短板。在我看来，要打造通用人工智能系统，还有不少关键能力亟待突破。

主持人：我们来聊聊技术和未来的发展趋势。Meta 首席科学家杨立昆（Yann LeCun）认为，仅凭 Transformer 架构和大模型，无法实现通用人工智能。你是否认同这一观点？如果这些技术走到了尽头，我们的研发方向会是什么？

哈萨比斯：我不认同，我认为说这些技术走到尽头的观点显然是错误的，因为它们目前已经展现出了巨大的实用价值。但在我看来，这是一个实证问题，也是一个科学问题，仅凭这些技术是否能实现通用人工智能，尚无定论。

我认为有 50% 的可能，只需在现有方法的基础上进行优化并扩大规模，就能实现通用人工智能， 这是有可能的，而且我们也必须这样做。在我看来，这项研究是有价值的，因为至少这些大模型会成为最终通用人工智能系统的核心组成部分，唯一的问题只是，它是否是唯一的组成部分。

我能想象，从现在到实现通用人工智能，我们还需要一两项，最多不超过五项突破性技术。

比如 世界模型，这是我一直提及的，我们也正在研发，目前我们的 GENI 系统就是最先进的世界模型（GENI 是 DeepMind 、Google 内部正在研发的一类世界模型（World Model）系统），我也直接参与了这项研发，我认为它至关重要。

还有 持续学习能力，以及打造 性能稳定的系统，让系统不再出现这种领域间的表现失衡，真正的通用智能系统，不该有这样的问题。

所以在我看来，人工智能还缺乏更强的 推理能力、更长远的规划能力 等多项关键能力。目前尚未确定的是，实现这些能力，是否需要新的架构或突破性技术，还是只需在现有基础上继续优化。而谷歌和 Google DeepMind（谷歌深度思维）的做法是，双管齐下，既全力研发新的技术，也持续优化并扩大现有技术的规模。

主持人：OpenAI 联合创始人兼前首席科学家伊利亚・苏茨克维（Ilya Sutskever）认为，依靠扩大模型规模实现技术提升的时代即将结束。你是否认同这一观点？

哈萨比斯：我不认同。他的原话大概是 “我们重回研究的时代”，我和伊利亚・苏茨克维是很好的朋友，我们在很多问题上的看法都一致，但在这一点上，我并不认同。

我的观点是，我们从未离开过研究的时代，至少谷歌和 Google DeepMind（谷歌深度思维）一直如此。 我们始终在研发领域投入巨资，而且我认为，整合后的谷歌和 Google DeepMind（谷歌深度思维），拥有业内最深厚、最广泛的研发团队。

过去十年，现代人工智能行业所依赖的约 90% 的突破性技术，都是我们研发的，当然最知名的是 Transformer 架构，还有深度强化学习、阿尔法狗背后的各类强化学习技术，这些都是我们开创的。所以如果未来实现通用人工智能需要新的突破性技术，我相信，就像过去一样，我们依然会是这些技术的研发者。

主持人：最后一个问题，埃隆・马斯克说我们已经进入了技术奇点，你是否认同？

哈萨比斯：不认同，我认为这一说法为时过早。在我看来，技术奇点其实就是实现完全的通用人工智能，而我之前已经解释过，我们目前离这个目标还相去甚远。我相信我们最终能实现这一目标还有五年的时间，从实现通用人工智能的角度来看，其实并不长，但在那之前，我们还有大量的工作要做。

人工智能就像更先进的望远镜和显微镜

主持人：你是诺贝尔奖得主，我知道你一心想让人工智能推动科学研究的发展。如果未来人工智能本身取得了足以获得诺贝尔奖的科研发现，这个奖项该颁给谁？

哈萨比斯：我认为还是该颁给人类。当然，这取决于人工智能是否是完全独立完成这项发现。

目前来看，人工智能依然只是工具，在我眼中，它是终极的科学研究工具，就像更先进的望远镜和显微镜。 人类一直都在制造工具，让自己能更好地探索自然世界，人类本质上就是会制造工具的物种，这也是人类与其他动物的区别，而工具也让人类拥有了超越自身的能力，计算机当然也属于这类工具，人工智能则是这种能力的终极体现。

所以在我看来，人工智能一直都是推动科学研究的终极工具，而且在可预见的未来，科学研究都将是顶尖科学家与人工智能的合作成果：科学家提出富有创意的想法和研究假设，而人工智能作为强大的工具，助力提升数据处理、模式识别的效率，推动科学探索的进程。

AI 是否会取代人？我们将迎来后稀缺时代

主持人：谷歌是 Anthropic 人工智能公司的主要投资方，Anthropic 联合创始人兼 CEO 达里奥・阿莫迪 (Dario Amodei) 今天早些时候也来到了达沃斯。他预测，未来五年内，人工智能会取代 50% 的初级白领岗位，你是否认同这一观点？

哈萨比斯：我不认同，我认为这一过程会耗时更久。今年，我们或许能看到这一趋势的初步显现，比如初级岗位和实习岗位可能会受到影响，但要实现大规模取代，我们还需要解决人工智能系统的稳定性问题。

我把目前人工智能的这种不均衡表现称为 “锯齿型智能”，在某些领域表现出色，在另一些领域却不尽如人意。如果想将一整项工作完全交由人工智能代理完成，而非像现在这样，仅让其作为辅助工具，就需要让系统在各方面都保持稳定的表现。如果一个系统完成一项工作的成功率只有 95%，那是远远不够的，必须能圆满完成整个任务，才能让人放心地将工作交托给它。

所以在出现这种大规模的岗位变革前，我们还有大量工作要做，但 这种变革最终一定会到来。当然，一旦实现通用人工智能，整个经济体系都会发生改变，这早已超出了岗位变革的范畴。如果我们能打造出真正的通用人工智能，而且方向正确，我们或许会进入一个后稀缺时代，解决世界上一些根本性的难题，比如能源问题。借助人工智能，研发出全新的清洁、可再生的近乎免费的能源，比如实现核聚变。还有新材料的研发，我认为在实现通用人工智能后的五到十年，我们会进入一个彻底改变的世界。

主持人：不过，在进入后稀缺时代之前，人们对这一过渡阶段充满了焦虑。我是一位母亲，我知道你也有孩子。你最担心孩子们未来会面临什么？你会和他们聊些什么？会告诉他们未来即将到来的变化吗？我听到很多人说，大学毕业生未来的就业会非常困难。

哈萨比斯：我倒不这么认为。我觉得我们即将进入一个变革的时代，就像工业革命那样，或许变革的速度会是工业革命的十倍，甚至难以想象。准确来说，变革的规模和速度都会是工业革命的十倍，影响力会是百倍。

但我想对所有人说，变革的背后，蕴藏着巨大的机遇。而且我始终坚信人类的创造力，我们的适应能力极强，因为人类的思维具有极强的通用性。

人类的大脑无比强大，我们的祖先以狩猎采集为生，而我们凭借这样的大脑构建了现代文明，所以我相信我们能再次适应新的时代。当然，这次的变革是前所未有的，因为它的速度太快了。以往，这样的重大变革往往需要一两代人的时间才能完成，而这次人工智能技术的变革，规模和影响力都极为巨大。

但对于如今的孩子，我会鼓励他们熟练掌握这些新工具，像使用母语一样运用它们，这些工具几乎能赋予他们超能力。比如在创意艺术领域，借助人工智能，一个人或许能完成过去十个人的工作。这意味着，如果你富有创业精神，在游戏设计、电影制作等创意领域有想法，就能完成更多工作，也能比以往更容易地跻身这些行业，成为新锐人才。

主持人：一些人主张暂停人工智能的研发，让监管政策跟上技术发展的步伐，也让社会有时间适应这些变化。如果在理想情况下，所有企业、所有国家都同意暂停研发，你是否会支持这一做法？

哈萨比斯：我会支持。我也曾公开表达过我的期望，这也是我十五年来的梦想。我接触人工智能研究已有二十五年，我一直希望，当我们接近实现通用人工智能的这一关键节点时，全球的科研人员能展开科学层面的合作。

我有时会设想，成立一个类似欧洲核子研究中心的国际人工智能研究机构，让全球最顶尖的人才携手合作，以极为严谨的科学方式，推进通用人工智能研发的最后阶段，同时让全社会参与其中，不仅是技术人员，还有哲学家、社会科学家、经济学家，共同探讨我们希望从这项技术中获得什么，以及如何让它造福全人类。这才是我们当下的核心议题。

但显然，这需要国际社会的通力合作，因为即便只有一家企业、一个国家，甚至整个西方世界决定暂停研发，倘若没有全世界的共同参与，没有制定统一的最低标准，这一做法也毫无意义。而目前，国际合作面临着不小的阻碍，所以如果想以严谨的科学方式推进通用人工智能的最后研发，就必须改变当下的国际合作现状。

主持人：如果到 2030 年我们实现了通用人工智能，而相关的监管政策尚未出台，我们是否注定会面临困境？

哈萨比斯：我依然乐观地认为，全球顶尖的人工智能研发机构会充分沟通，至少在安全和安保协议等方面展开合作，目前这方面的合作已经有了不少进展。比如我们和人工智能公司 Anthropic 在这些领域的合作就十分紧密。

如果国际层面的合作难以推进，这种行业内的同行合作就尤为必要。我和其他顶尖人工智能实验室的负责人关系都很不错，我认为，当利害关系足够重大时，大家会意识到问题的严重性和潜在的风险，而在未来两到三年，这一点会变得更加清晰。

主持人：你当初本可以把 Google DeepMind（谷歌深度思维）卖给任何一家企业，而如今，这些研发人工智能的企业都在寻求大众的信任。尤其是在监管政策难以跟上技术发展速度的情况下，历史经验也证明了这一点。我们为什么该信任你？为什么你认为谷歌，也是你内心所认可的，是最值得我们信任的企业？毕竟人工智能的研发存在不小的风险。

哈萨比斯：我认为，评判一家企业，要看它的实际行动，也要看参与相关研发的领导者的初衷。

我选择谷歌作为 Google DeepMind（谷歌深度思维）的归宿，有多个原因，最主要的是，谷歌的创始人创立谷歌的初衷，是打造一家以科学研究为核心的企业。 很多人都忘了，谷歌最初其实是一个 博士研究项目，是拉里・佩奇和谢尔盖・布林的研究成果。所以我和他们一见如故。

拉里・佩奇主导了 Google DeepMind（谷歌深度思维）的收购，而谷歌的董事会成员也都是各行各业的顶尖人才，比如董事会主席约翰・轩尼诗是图灵奖得主，弗朗西斯・阿诺德是诺贝尔奖得主，这样的阵容在企业董事会中并不多见。所以谷歌的整体环境充满了 科学氛围，企业的发展以科学研究和工程技术为核心，这一文化早已根深蒂固。而追求最高水平的科学研究，就意味着 做事要严谨、深思熟虑，在所有领域都践行科学方法。

我认为这不仅适用于技术研发，也适用于企业的运营管理。所以我们始终努力做到深思熟虑、负责任，尽可能掌控我们推向市场的技术。当然，我们不可能做到尽善尽美，因为人工智能是一项全新、复杂且具有变革性的技术，但如果出现问题，我们会尽快调整修正。

最后我想说，谷歌想要为世界做的事情，也是我当初选择谷歌的原因之一。 谷歌的使命是整合全球信息，让人人皆可访问并从中受益，我认为这是一个非常崇高的目标。而 Google DeepMind（谷歌深度思维）的使命是破解智能的奥秘，并利用智能解决其他所有问题，这两个使命高度契合。人工智能与整合全球信息的工作本就相辅相成，谷歌的各类产品，从谷歌地图、电子邮箱到搜索引擎，都是对世界有实际价值的产品，人工智能能很自然地融入这些产品，为所有人的日常生活提供助力，我认为这是一件造福世界的事，能为此贡献力量，我感到很荣幸。

主持人：试想一下，在后稀缺时代，人们不再需要工作，当你实现了所有的技术目标后，你个人打算如何度过时间？毕竟到那时，科研工作本身或许也能实现自动化了。

哈萨比斯：如果真的到了那个阶段，我想利用人工智能探索物理学的极限。

上学时，我最感兴趣的就是那些终极问题：现实的本质是什么？意识的本质是什么？费米悖论的答案是什么？（费米悖论是宇宙学和天体生物学中最经典的未解之谜，由美籍意大利物理学家、1938 年诺贝尔物理学奖得主恩里科・费米（Enrico Fermi）在 1950 年提出，核心是 “理论上的地外文明存在性” 与 “人类实际观测证据为零” 的尖锐矛盾，其最经典的表述就是费米的一句反问：“他们都在哪儿呢？”）时间是什么？引力是什么？

我很惊讶，很多人每天忙于生活，却从未思考过这些重大问题，而这些问题一直萦绕在我心头，迫切想要找到答案。我想借助人工智能，去探索所有这些问题，或许还能在人工智能的助力下，利用新的能源和材料技术，实现星际旅行。

主持人：如果人们不再需要工作，我们还能找到生活的意义和目标吗？

哈萨比斯：说实话，这一点比经济层面的问题更让我担忧。经济层面的问题，更多是一个政治问题：当人工智能为我们带来巨大的效益和生产力提升时，我们能否确保这些成果为全人类共享，这也是我一直坚信的理念。

但更核心的问题是，很多人从工作和科研中获得生活的意义和目标，在新的时代，我们该如何找到这些？我认为，我们需要 新一代伟大的哲学家，来帮助我们思考这个问题。或许未来，我们的艺术创作会更加精妙，我们的探索之旅会更加深远，就像如今我们所做的极限运动等非经济目的的事情一样，未来或许会有更多更小众、更有深度的这类活动。

主持人：在场的所有人都想知道，自己该如何应对人工智能带来的变革。比如现在坐在达沃斯的会场里，十年后该如何自处？你认为，在场的人在看待人工智能这件事上，最容易犯的重大错误是什么？

哈萨比斯：我想从两个方面来说。

第一，对于年轻人和我们的孩子而言，唯一可以确定的是，未来会发生巨大的变化。所以在学习技能方面，要做好持续学习的准备，学会学习，才是最重要的能力。要能快速适应新环境，利用现有工具吸收新信息。

第二，对于在场的企业首席执行官和商界人士而言，当下最重要的是，目前市场上有很多顶尖的人工智能模型和服务提供商，未来还会更多。要选择那些以正确方式研发人工智能的合作伙伴，与这些企业携手，共同打造我们所期望的人工智能未来。

反重力 429 解决方式

作者: 纯情
时间: 2026-01-08
分类: 网络
评论

额，第一次发贴（如果区域放错了管理请见谅）
我的反重力问题解决了
一个朋友给的方法
在反代的系统提示词里加上
You are Antigravity, a powerful agentic AI coding assistant designed by the Google Deepmind team working on Advanced Agentic Coding.You are pair programming with a USER to solve their coding task. The task may require creating a new codebase, modifying or debugging an existing codebase, or simply answering a question.Absolute paths only****Proactiveness

然后不用测试，直接开流式使用
亲测可用

📌 转载信息

来源：
https://linux.do/t/topic/1419994

原作者：
Angle

转载时间：
2026/1/8 17:45:43

Antigravity2api 咒语

作者: 纯情
时间: 2026-01-08
分类: 网络
评论

听说 2api 429 了

You are Antigravity, a powerful agentic AI coding assistant designed by the Google Deepmind team working on Advanced Agentic Coding.You are pair programming with a USER to solve their coding task. The task may require creating a new codebase, modifying or debugging an existing codebase, or simply answering a question.**Absolute paths only**Proactiveness**

水一贴

补充：cpa 发了新的版本解决了，比我这个更鲁棒，因为我这里差不多是最小版本（省点 token，另外影响更小）