标签 Google Deepmind 下的文章

语言模型是如何进行预测下一个词的?

简单来说,语言模型是通过根据当前给出句子,结合语境进行计算下一个词出现的概率分布,然后从中选择一个作为输出结果

比如:

输入: Jide was hungry so she went looking for...

可能的预测结果: food(0.75) snacks(0.2) leftovers(0.05)

最终大概率输出: Jide was hungry so she went looking for food

为什么采用概率进行预测?

  • 采用概率的方式进行随机采样,可以改善内容生成的多样性,在大部分场景下,我们更希望同样的输出可以有不同的输出
  • 模型有时可能会出错,采用概率的方式,可以通过执行多次生成,来得到一个更加合理的结果
  • 尽管使用了概率,但仍然可以进行确定性的结果输出,可以通过每次都获取概率最大的词汇的方式(贪心),来确保每次输入都可以得到同样的输出结果

N-grams 模型

概述

N-grams 模型简单来说就是先统计一个词在与其他词进行组合的概率,也就是它们一起出现的概率,然后在给定的一个句子去生成完整的一段话时,就是基于前面进行统计计算的概率进行预测;

比如说,你经常会见到"这座山很高"的描述,但你很少见到"这座山很早上"的描述,那么在给定"这座山"这个上下文去生成完整的一段话时,预测得到"很高"接在后面的概率就比"早上"要高

统计公式

N-grams 模型的统计方式就是一个简单的条件概率公式

比如:

$$
P( 水秀 | 山清 )
$$

表示在"山清"一词在前面出现的前提下,"水秀"一词它一起组合的概率

这个概率的计算结果根据条件概率公式

$$
P(B|A) = \\frac{Count(A B)}{Count(A)}
$$

得到:

$$
P( 水秀 | 山清 ) = \\frac{Count(山清水秀)}{Count(山清)}
$$

其中Count(山清水秀)表示在文本集中"山清水秀"出现的次数,Count(山清)就是在文本集中出现的次数,P( 水秀 | 山清 )就是相对于其它词与"山清"进行组合出现的概率(在文本集中不只是"水秀"和"山清"一起组合出现)

N 词统计

N-grams 中的"N"表示一个预测上下文窗口大小(由几个字组合)

  • N=1 时,就只是统计单独一个词出现的概率, 比如"桂林山水甲天下",就将拆成"桂","林","山","水","甲","天","下"去进行统计
  • N=2 时,统计连续两个字出现的概率,"桂林山水甲天下",将拆成"桂林","林山","山水","水甲","甲天","天下"
  • N=3 时,统计连续三个字出现的概率,"桂林山水甲天下",将拆成"桂林山","山水甲","甲天下"去进行统计

现在换个例子,我们假设"白云山"在文本集中出现了600次,"白云"在文本集中出现了900次,而"白云下"只出现了10次,那么

"白云"和"山"一起出现的概率是

$$
P(山|白云) = \\frac{Count(白云山)}{Count(白云)} = \\frac{600}{900} = 0.66
$$

而"白云"和"下"一起出现的概率是

$$
P(下|白云) = \\frac{Count(白云下)}{Count(白云)} = \\frac{10}{900} = 0.011
$$

当在给定"白云"时,预测下一个出现的词相比于"下","山"的出现概率会更高,即输出"白云山"的概率将远大于"白云下"

图例

![N-grams 图例](https://zpekii.github.io/assets/img/2025-11-4-google-deep-min...)

N-grams 模型的局限性

  1. 能力受语料库大小限制
  2. 无法处理数据集中从未出现过的词汇预测
  3. 因为能力受预料库大小限制,所以很容易出现高重复度的内容输出,生成不够多样
  4. 缺乏上下文意识,N-grams只考虑句子的最后 n - 1 个词,忽略了长距离文本的依赖关系,生成的内容可能出现描述前后不一致的情况

Transformer 模型

相比于 N-grams 模型, Transformer 模型生成的内容比前者更流利、上下文更相关的原因主要是以下两方面:

  1. Transformer 模型有更大的上下文窗口
  2. Transformer 模型基于能够学习复杂和抽象内容的神经网络

训练一个模型的过程

机器训练简单过程描述

  1. 预测 :模型观察一串单词( 输入 ),并尝试预测下一个标记( 目标
  2. 比较 :然后将预测结果与实际进行比较。模型预测与目标之间的差异将记录成一个 Loss 值 。高 Loss 值表示模型猜测错误,低 Loss 值表示猜测接近实际
  3. 调整 :基于这一损失,模型略微调整参数以提升下一次猜测。这种猜测、检查 Loss 值和调整的过程称为优化

机器学习开发流程

  1. 准备数据集(data): 收集资料->清洗数据,过滤有害或有偏见的内容->拆分和格式化数据,将内容分解成模型能理解的小单位
  2. 训练(Train):使用一个现有的预训练模型,在此基础上进行训练(从零开始成本很高)
  3. 微调(Fine-tune): 根据特定目的和期望行为进行微调,此步骤包括

    • 监督微调(SFT:Supervised Fine-tuning):预训练模型会在专门为 目标任务创建的较小且高质量的数据集上进一步训练
    • 人类反馈强化学习(RLHF:Reinforcement Learning from Human Feedback):这一阶段侧重于使 AI 的行为与人类偏好对齐,使其更具帮助性和无害性
  4. 评估(Evaluate): 在正式发布给用户前,除了在准确性,还包括性能、安全性、公平性和整体实用性方面进行严格评估外,还需要进行人类评估
  5. 部署(Deploy): 在满足评估标准后,进行部署投入实际应用,并在此期间进行监控

author: Smoothcloud润云-Zpekii

世界模型真的变天了!

今天,谷歌正式发布重磅世界模型原型产品“Project Genie”,只需一句话或一张图,就能一键生成可玩、可交互的实时虚拟世界。它的重磅程度,让谷歌“掌舵人”劈柴哥和 Google DeepMind 创始人哈萨比斯亲自为它站台。

在 Project Genie 生成的虚拟世界中,你可以用 WASD 键移动角色、旋转视角、跳跃,在生成世界自由探索。更重要的是,其生成画面的精细度、整体完成度,已经明显超出以往研究型 Demo 的范畴,在观感上直逼成熟游戏产品。

过去几年,世界模型一直被认为是通往 AGI 的重要路径,但始终存在一个根本问题:它们更像会动的视频,而不是真正的环境。

具体来说,早期世界模型普遍存在几大短板:

  • 生成世界质量偏低,结构简单

  • 难以实时交互,或只能交互一两步

  • 长期一致性差,画面和规则会“漂移”

  • 不符合物理和因果逻辑,更像梦境而非世界

而 Project Genie,第一次把这些问题同时拉到了可用水平。

Project Genie 是一个基于 Genie 3、Nano Banana Pro 和 Gemini构建的原型 Web 应用,其中的核心是谷歌最新的世界模型 Genie 3。

与以往“先生成完整视频”的方式不同,Genie 3 采用自回归生成机制:它会根据世界描述和用户操作,逐帧生成环境状态,而不是播放预先生成好的内容。

这带来了几个关键变化:

  • 长期一致性生成的世界可以在数分钟内保持稳定,不会快速崩坏;系统还能“记住”用户造成的关键变化,记忆时间最长可达约一分钟。

  • 真正的实时交互世界以 20–24 帧/秒运行,用户的操作会即时反馈到环境中,而非触发预设结果。

  • 更高质量的视觉表现生成画面分辨率约为 720p,整体真实感和细节水平明显高于以往世界模型,为智能体理解复杂环境提供了更可信的视觉基础。

谷歌早在 2025 年就将 Genie 3 称为“通往 AGI 的关键一步”。而在 Project Genie 的官方页面中,谷歌再次强调:

Genie 3 让智能体能够预测世界如何演化,以及自身行为如何影响世界,这是实现推理、规划和现实行动的基础。

可以说,在 Project Genie 身上,已经释放出一个非常明确的信号:世界模型正在从长期的前沿研究方向,正式迈入可落地、可探索的关键阶段

一旦世界模型能够稳定生成高质量、可交互、具备长期一致性的环境,其应用边界将被迅速打开。

无论是自动驾驶中的复杂场景模拟、具身智能的环境理解与决策训练,还是游戏开发、影视制作、互动教育与新型媒体内容创作,世界模型都展现出极具想象空间的潜力。

据 The Verge 报道,谷歌选择在这一时间点推出 Project Genie,部分原因在于希望观察用户的真实使用方式,从而发现此前尚未预料到的新应用场景。

Google DeepMind 产品经理 迭戈·里瓦斯透露,谷歌内部已经对 Genie 在电影制作、互动教育媒体等领域,帮助创作者进行场景可视化与世界构建的潜力感到兴奋。

目前,Project Genie 仍是实验性产品:

  • 单个世界最长探索 60 秒

  • 分辨率约 720p,帧率约 24fps

  • 仅向美国地区、18 岁以上的 Google AI Ultra 订阅用户开放

Project Genie 发布后迅速引发热议。马斯克第一时间发文祝贺

关于 Project Genie 的讨论,也在 X 上迅速扩散,不少网友将其称为又一个“变革时刻”。

对此,Project Genie 负责人之一 Jack Parker-Holder 表示:

Genie 3 感觉像是世界模型领域的一个分水岭。我们现在可以生成任何可想象世界的、持续数分钟的实时交互式模拟。这可能正是具身通用人工智能此前缺失的关键一环。

网友们玩疯了,在游戏世界释放创意

具体来看,Project Genie 的使用流程并不复杂。进入页面后,用户可以直接从 Google 预设的多个世界模板中选择,也可以完全自定义环境和角色,构建一个专属的虚拟世界。

为实现更精准的控制,Project Genie 会用 Nano Banana Pro 的能力,先为生成世界打个“草稿”。

整个页面被清晰地分成左右两部分:

  • 左侧用于填写环境的 prompt,例如地形结构、视觉风格和整体氛围;

  • 右侧则用于描述主角的形象与设定,并可选择第一人称或第三人称视角,从而提前确定进入世界后的体验方式。

完成初步设定后,Genie 会先生成一个缩略图,可以对生成内容进行预览和微调。如果符合预期,就能进入生成世界,开始实时交互与自由探索。Genie 3 的响应延时非常低,在控制角色移动时,会带来强烈的沉浸感。

在官方案例中,你可以把自己变成一个球,在草原上自由滚动。

可以看到,如果转换视角,球滚动留下的痕迹并不会消失,新生成的内容也不会覆盖旧区域。这一细节直观地体现了 Project Genie 所强调的世界一致性。

在另一个官方案例中,你可以变成刷墙工人,想刷哪面墙就刷哪面,整个虚拟世界可以实时交互,且看起来十分合理。

谷歌表示,这是想象力空间的无限释放,无论是自然世界或现实场景,还是构建动画、小说中的奇幻世界,甚至是突破时间与空间限制的未来世界,都可以被创造出来。

不少网友迅速上手,开始“放飞自我”式创作,其中,各类游戏风格世界不断涌现。

比如在沙滩上骑摩托:

更绝的是直接制作山寨版“任天堂”游戏。比如马里奥系列,《塞尔达传说》,《银河战士》。

即便抛开体验层面的不足不谈,Project Genie 在生成世界的质量与完成度上,依然足以令人震撼。这也难免让人产生进一步的联想,游戏从业者会不会大规模失业?

这一担忧并非空穴来风。根据 Informa 本周发布的游戏开发者大会(GDC)报告,33% 的美国受访游戏开发者、以及 28% 的全球受访游戏开发者表示,他们在过去两年中至少经历过一次裁员。Project Genie 可能会进一步扩大这种趋势。

不过,围绕 Project Genie 的能力边界,也有人提出质疑。

The Verge 的记者亲自上手试验后认为,从“游戏”的角度来看,Project Genie 所生成的“可玩世界”显得相当单调。

除了基础移动操作外,玩家几乎无事可做。没有任务目标,也缺乏音效反馈。更糟糕的是,输入延迟时有发生,甚至会出现角色失控、只能旋转视角的情况,严重影响整体体验的流畅度。

该记者还提到,在仅有 60 秒 的探索时间内,世界的一致性并不稳定。系统有时会“忘记”此前生成的内容,例如滚动的小球留下的颜料痕迹会突然消失,已生成的道路也可能被重新覆盖为草地。这些现象让人难以确认模型是否能够持续、可靠地维护同一个世界状态。

在内容生成层面,Project Genie 对知名游戏 IP 也存在明显限制。测试中,索拉、唐老鸭、高飞、杰克·斯凯灵顿等角色均无法直接用于生成可交互世界,相关内容在进入实际体验阶段会被系统拦截。

目前,与生成世界交互的智能体只能执行较为有限的操作,同一世界中多个模型之间也难以协同互动。此外,Genie 在渲染清晰文本、还原现实世界具体地点方面仍存在困难,智能体对控制指令的响应有时也会出现异常延迟。

对此,谷歌方面回应称,Genie 并非游戏引擎,团队更关注它在增强创意过程、提升构思能力以及加快原型制作方面所展现出的潜力。

在 Geinie 3 官网上也特别强调,目前产品仍处于早期研究阶段,因此会有:生成的世界可能看起来并不完全逼真,也不一定总是严格遵循提示、图像或现实世界的物理规律;角色有时可能难以控制,或者控制延迟较高;生成时间受限等问题。

Project Genie 团队深度揭秘关键问题

在 Project Genie 上线不久,其背后的核心团队第一时间接受采访,包括 Google DeepMind 研究总监 Shlomi Fruchter、Google DeepMind 的研究科学家 Jack Parker-Holder、产品 Diego Rivas,他们都对世界模型长期关注,在这次访谈中深度揭秘 Project Genie 的关键问题。

这次对话讨论了:什么是世界模型?为什么只能生成 60 秒?Project Genie 的研发历程是什么?它未来真正可能改变的是哪些领域?

他们首先承认 Project Genie 的强大确实源于谷歌视频生成技术的积累,但同时他们也强调,Genie 并不是更强的“视频模型”,而是人类第一次可以实时走进、操控、改变的生成世界。

其中的核心差异是,世界模型是逐帧实时生成,能与过去保持物理与视觉一致性,并且用户可随时干预。这对延迟、内存、算力的要求,比普通视频生成高得多,也是更前沿、更有挑战的方向。

针对不少人抱怨“60 秒不够”的问题,他们表示这是在服务成本、系统稳定性和体验质量之间做出的权衡。他们其实已经做出过更长时间的生成世界,但在实际测试中发现,随着生成时间拉长,世界的动态感反而会逐渐减弱。

研究员表示“与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。”

针对模型的生成速度,他们表示已经够快了,短期内进一步“加速”并没有太大意义。接下来,他们更重要的研发方向,是降低算力成本,让这种能力能够被更多人真正用得起。

在产品定位上,他们并不把 Genie 看作一款游戏,而更像是一个正在快速演化的实验场:

  • 一方面,多人互动、长期一致性、复杂动态仍然是明确的技术瓶颈;

  • 另一方面,娱乐、教育、具身智能、机器人训练等方向,已经展现出非常清晰的应用前景

回顾产品研发历程,从论文阶段的 Genie 1,到今天普通用户可以亲自上手体验的 Genie 3,这背后其实是谷歌一整套高度协同的跨部门合作。

谷歌实验室与谷歌创意实验室是研发的核心力量,而服务团队、基础设施团队和沟通团队则共同兜底,确保这项起源于强化学习的前沿研究,能够被真实用户理解、体验并持续使用。

当团队回看去年八月时,他们很清楚,当时外界已经迫不及待想“走进这个世界”,但 Genie 仍然只是一个规模庞大的研究项目。即便如此,研发人员脑海中已经浮现出一系列潜在应用场景,其中最清晰的方向之一,正是具身智能。一个标志性的例子,是他们与 Simmer 项目的长期合作。

Simmer 是由双子座模型驱动的目标导向智能体,能够在 3D 世界中执行复杂任务。过去,它只能在少数几个固定游戏环境中训练;而现在,借助 Genie 3,只需一句文本指令,就能生成一个全新的、甚至是照片级写实的虚拟世界,把智能体直接“放进去”完成任务。

从 Nano Banana Pro 的图像创作,到谷歌视频生成的成熟,再到可交互的世界模型 Project Genie ,生成式技术正在构成一个连续体,世界模型将成为第三次技术跃迁。

以下是播客的更多细节,欢迎来看:

为什么只能 60 秒?

主持人:我很好奇,这背后的物理逼真度,是不是和我们在 VO(谷歌的视频生成模型)项目上取得的研究突破有关?感觉两者之间有相似之处。

研究员:二者绝对是相关的,而且世界模型的研发难度其实更高。普通的视频模型,能在整个视频的时间线上自由调整过去和未来的帧,自由度很高 —— 就像有一块画布,模型能随时间生成视频,在画面的各个位置做微调,让整体效果连贯美观。

世界模型的难点在于,世界是持续演变的,每一帧的输入都是未知的,模型必须保证生成的画面既和过去的内容连贯,又能匹配用户当下的操作,所以技术难度会大很多。

其实开发 Genie 1 时,我们用的是 Imagine 模型,当时我们的模型效果并不好,而且想要生成合适的图像也非常困难。Nano Banana Pro 是在Genie 3 之后推出的,技术进步的速度真的令人惊叹。也许未来某一天,我们定义虚拟世界的方式,将不再局限于图像和文本,但就目前而言,这种方式已经给了用户足够的创作灵活性。

主持人:这个模型的复杂度上限在哪里?比如能不能在同一个世界里加入大量并行的互动元素?模型会在什么情况下出现效果衰减?

其实 Nano Banana Pro 就是个很好的例子,如果一张图片里有 10 个人脸,想要对这张图进行编辑,模型就容易出问题。所以我想知道,Genie 3 的自然性能边界在哪里?

研究员:这个模型肯定不是完美的,目前它还只是一个研究预览版本。我们希望让大家亲自体验,看看它的优势在哪里,不足又在哪里,我们也能从用户反馈中学习和优化。

目前模型在各类创意环境的视觉呈现上做得不错,画面可以非常精致,但在世界的动态表现上还有短板 —— 有时候初期的动态效果很好,但时间久了,动态感会逐渐减弱,这也是我们正在优化的点。不过它的表现已经足够令人惊喜了,所以还是建议大家亲自上手试试,看看哪些玩法能达到理想效果。

研究员:不过说到延迟问题,还有很多技术点需要考虑。Genie 3 的研发有一个核心约束:我们希望实现特定操作频率下的实时低延迟,也就是说,用户操作的往返延迟要极低。同时,内存也是一个巨大的约束 —— 模型的上下文长度越长,通常算力成本就越高,运行速度也会越慢。

所以研发的核心挑战,就是平衡这些相互冲突的目标。而在研究层面,我们正在所有这些领域持续优化,我们相信,模型的性能会不断提升,变得更强大、更快、更经济,这也是行业的整体发展趋势。

主持人:我还有个问题,模型的生成时长是人为限制在 60 秒,还是真的能实现 3 到 5 分钟的连续生成?

研究员:其实我们已经做出过能连续生成更久的演示版本了,但我们觉得 60 秒是一个比较合适的时长 —— 既能让用户充分体验虚拟世界,又能保证为足够多的用户提供服务,这其实是在服务成本上做的权衡。

而且就像我们之前提到的,生成时间越长,世界的动态感会逐渐减弱。所以我们觉得,与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。当然,如果用户反馈希望延长时长,我们也会做出调整。

这也和虚拟世界的类型有关,比如如果你在体验高山速降滑雪,两分钟的时长会很过瘾,因为整个过程是持续的动态体验;但如果只是探索图书馆,两分钟可能就没那么有趣了。

主持人:是啊,人们总是能很快适应新的技术体验。但对我来说,这个模型的表现依然令人难以置信。你之前被问到能不能让模型运行得更快,现在的速度已经到极限了吗?

研究员:在当前实时交互需求下,生成速度已经足够快,短期内进一步加速的意义不大。因为模型是实时生成虚拟世界的,速度再快其实也没有意义了 —— 它的生成速度已经和用户的体验速度完全匹配。接下来我们的研发重点,会放在降低算力成本上,这样才能让更多人用上这款产品。同时,在保持速度的前提下,不断增加新功能,这本身也是一个巨大的挑战,我们希望在各个方面都把模型做得更好。

背后的故事:谷歌跨团队协作

主持人:聊完当下的体验,我特别想知道模型的未来迭代方向。不过在聊未来之前,我们先回顾一下研发历程吧。我们八月份发布了 Genie 3 的首支演示视频,之后启动了可信测试,不断迭代产品、搭建基础设施。能不能跟大家快速讲讲,从一支惊艳的演示视频、小规模的早期测试,到正式推出面向用户的精灵计划,这中间都经历了什么?

研究员:首先,八月份发布模型和演示视频后,我们让一小部分人体验了产品,核心是为了收集反馈 —— 因为这是一款全新的应用,一种全新的体验,我们需要思考如何负责任地将它推向市场。

从那以后,我们的大部分工作都集中在基础设施、服务架构和成本控制上,毕竟我们希望能让尽可能多的用户体验到它。而美国的谷歌 Ultra 订阅体系,能让我们触达足够多的用户,收集到第一手的反馈:比如用户觉得哪些功能有用,会如何和产品互动,哪些玩法体验最好。这段时间里,我们也在持续完善可信测试项目。

这其实是模型开发周期中最核心的阶段,因为我们能从不同类型的用户身上学到很多东西,无论是创意工作者,还是教育领域的从业者,都能给我们带来丰富的洞察,让我们知道模型目前的实际应用价值、未来的发展方向,以及哪些体验是用户最期待的。

回头看八月份,当时我们知道大家肯定想体验这款产品,但它那时还只是一个大规模的研究项目。我们脑海里有很多应用场景,比如智能体、机器人这类具身智能领域,都能用到这项技术。去年年底还有一个和我们类似的项目发布,他们也用Genie 3 来训练游戏智能体。

从消费端的角度来看,我们觉得这个产品会很有吸引力,所以想收集用户反馈,但当时也不确定是否已经到了面向更多用户发布的时机。而迭戈主导的可信测试项目,让我们发现,用户第一次上手这款产品时,都会有惊艳的体验。我们希望深入了解更多的应用场景,所以这次的发布,也是我们在这方面迈出的一大步。

一年前,我根本没想到这个模型能有这么强的吸引力,但现在它已经成为一款非常有趣的产品,我们也很期待大家会用它来做什么。

主持人:聊完产品和技术,我们再来聊聊谷歌的跨团队合作吧。显然,从你们的分享和幕后工作来看,打造这款产品的难度非常大。谷歌内部有哪些团队参与了 Genie 3 和 Genie 的研发?

研究员:幕后参与的团队非常多,谷歌实验室、谷歌创意实验室是核心 —— 画廊里的那些虚拟世界,大多是创意实验室的作品;还有服务团队、基础设施团队,基本上有一个完整的幕后团队在推动这项工作。从八月份发布模型到现在,我们一直在全力冲刺,所有团队的付出都堪称英勇。

我们还和沟通团队深度合作,因为想要向大家解释一款全新的模型,一种大家从未体验过的技术,是一个非常细致的话题 —— 它起源于强化学习这个相对小众的领域,现在却被媒体、社交媒体上的各类人群广泛讨论,所以用正确的方式传递这项技术,非常重要。

回顾这个领域的研究起点,我们甚至不确定这项技术能否成功落地。而现在,我们让它实现了实时交互,达到了不错的画质,完成了从研究构想到发布模型,再到推出面向用户的体验产品的闭环,这一点让我非常兴奋。这并非理所当然,也充分体现了谷歌内部跨技术栈的团队协作能力,这种能力非常独特。

主持人:我们在镜头外还聊过,不仅是 Genie 3,谷歌所有模型的能力都在不断拓展,而这和模型的训练方式息息相关。杰克,你之前还尖锐地提到,这些模型其实并没有针对任何特定的应用场景进行训练,却能在各个领域实现很好的泛化能力,能不能再聊聊这一点?

研究员:没错,我们一开始其实并不知道这个模型的具体应用场景。去年年底,Genie 团队还在做纯粹的研究项目,Genie 1 最初只是一篇研究论文,和 VO(谷歌的视频生成模型)完全不同。

与此同时,我们还在做 Doom 游戏引擎的相关研究,这项研究充分展现了实时交互的潜力,但它仅适用于 Doom 这一个特定的游戏世界,迭戈可以再聊聊这一点。

另外,2024 年 12 月 VO(谷歌的视频生成模型)2 的发布,在 AI 领域已经是很久以前的事了,但当时我看到它的效果时就觉得,视频生成技术已经成熟了,视觉质量达到了行业前沿,值得我们深入探索。

于是我们达成共识,认为这项技术的潜力无限,随后组建了跨团队的研发小组,汇集了各个领域的专家 —— 他们都在不同的技术领域有积累,我们相信把这些技术结合起来,会产生不可思议的效果。而我们的研发,并非针对某个特定的下游应用场景,而是因为它蕴含着无数的应用可能。

最酷的是,我们脑海里有一些预想的应用场景,比如和 Simmer 项目的合作,我们和这个项目的合作已经有很长时间了,他们也参与了 Genie 2 的研发,体验过 Genie 2,现在已经基于 Genie 3 发布了相关产品。

Simmer 是我们最强大的目标导向智能体之一,能在 3D 世界中互动,是由双子座模型驱动的 —— 你可以在 3D 世界中向它输入文本指令,它就能完成各种不同的目标,泛化能力非常强,还能通过自我提升学习。这也是我们迈向通用人工智能、具身智能的重要方向。

去年年底我们发布了这款智能体,他们就用 Genie 3 的虚拟世界来探索智能体的能力。要知道,Simmer 原本只在几款游戏中接受过训练,但现在借助 Genie 3,你只需输入文本,就能创建一个全新的、甚至是照片级写实的虚拟世界,然后把智能体放进去,看它完成各种任务。这两个项目的结合,可以说是水到渠成。

未来的应用领域:娱乐、教育、具身智能

研究员:从应用层面来说,我个人对娱乐和教育领域的应用最期待。我们希望让更多人体验这款产品,看看凭借现有的技术,现在能打造出哪些应用。教育领域是我们重点关注的方向,比如让人们在虚拟世界里互动学习 —— 想象一下,能为用户打造一些他们在现实中无法体验的场景,比如一个孩子害怕蜘蛛,我们可以打造一个满是蜘蛛的房间,让孩子在虚拟世界里慢慢适应,克服恐惧。我的孩子就怕蜘蛛,所以我觉得这种个性化的全新体验,价值非常大,这也是我们近期的研发重点。

另一方面,我们之前也聊过,机器人技术和具身智能领域的世界模型,潜力也非常大。当然这个领域还有很多研究工作要做,但我个人对它充满期待。简单来说,核心思路就是:如果一个模型能模拟现实环境,那我们就可以用它在虚拟世界里训练机器人,或是让具身智能体在虚拟世界里学习,甚至实时辅助智能体做出决策。

Genie 计划虽然现在已经很惊艳了,但它只是一个起点。未来我们会和谷歌实验室继续深度合作,不断优化产品的功能、操控方式、应用架构等;也会拓展更多的使用场景,不局限于Genie 计划这一个应用,还会推出开发者 API,让更多开发者参与进来。

不得不说,开发者总能发掘出产品的商业价值,找到极具经济影响力的应用场景,这也是我觉得很有意思的一点 —— 除了娱乐,世界模型还能在哪些领域找到产品市场契合点。

而且很多功能在不同的应用场景中是相通的,比如更广泛的交互性。可以肯定的是,机器人技术的发展,不可能只靠方向键来实现,未来的机器人助手需要更多的操控方式,而这和虚拟世界的交互研发是相通的。

八月份发布 Genie 3,让我们成为首批推出这类模型的团队,也让我们能和谷歌内部的各个团队展开合作。我们会认真吸纳所有的用户反馈,把大家提出的建议都列出来,成为下一代模型的研发方向。我之前跟杰克说过,我们只实现了目标的 50%—— 因为我们总是会设定极具野心的目标,这个领域还有太多可以探索的地方,模型还有很多不足,需要我们不断优化。

这个领域的发展空间巨大,我们才刚刚起步。就像写论文一样,一个项目完成后,你马上就会想,下一个项目可以加入哪些功能,做得更好。

现在社区里也出现了很多有趣的世界模型,有些和 Genie 3 很相似,但我们的目光已经放得更远了。

怎么玩这个产品?

主持人:除了研发历程和未来规划,还有没有什么想跟大家分享的?比如对于即将体验这款模型的用户,你们有什么建议?毕竟你们比普通人花了更多时间研究和使用模型。

研究员:我建议大家尝试个性化创作,打造属于自己的、其他系统无法实现的世界。当然,用它打造游戏环境也很有趣,但这类场景其他系统也能做到;而把现实中的专属事物 —— 比如一个玩具、一张照片,或是让自己以特定风格出现在真实的环境中,这种体验是独一无二的。

这让我想起了 VO(谷歌的视频生成模型)早期的一个研究项目:有人用 VO(谷歌的视频生成模型)为阿尔茨海默病患者重现童年记忆,让他们在虚拟世界里重温过去,这个项目特别棒。所以我觉得,把个人专属的事物融入虚拟世界,让它们 “活” 过来,这种互动方式非常有价值,大家可以试试这个方向。

另外,大家肯定会发现,模型的提示词创作目前还不够完善,但这恰恰是机会。几年后当这个模型变得非常成熟时,大家会想起现在这个阶段,就像我们现在看待 VO(谷歌的视频生成模型)3 一样 —— 现在 VO(谷歌的视频生成模型)3 的每个提示词都能生成优质视频,精灵 3 号的每个提示词基本也能实现预期效果,但在早期,提示词的创作至关重要,甚至有人会花 10 到 20 分钟精心打磨一个提示词。

所以如果第一次创作的效果不好,别放弃,这款全新的模型,可能会以你意想不到的方式呈现出惊喜的效果。而且亲自上手体验,你就不是在消费一款产品,而是在探索前沿技术。

主持人:太认同了,“探索前沿技术” 这句话简直可以当作产品标语了。我还有一个觉得很有趣的点:当被动的媒体消费变成交互式的体验,会发生什么?这是一片全新的未知领域。过去也有人做过尝试,但现在有了这种真正定制化的交互式媒体叙事,它会给整个媒体和娱乐行业带来什么影响,真的太值得期待了。

研究员:还有一个玩法也很有趣,你可以在虚拟世界里设置挑战,把这个世界分享给别人,让对方完成任务,比如从 A 点走到 B 点。这是一种基础的、有目标的游戏体验,现在的模型已经能实现了。比如那个球的场景,你可以让别人用球写出自己的名字,这类简单的挑战都能设置。

就像杰克说的,现在的体验虽然还比较基础,但它蕴含着巨大的创意潜力。比如还有一个带环的场景,你可以操控角色穿越环道,体验飞行的感觉,这也是用户发掘的玩法。

人们还经常问,行业的前沿在哪里,我们下一步要做什么。我经常会做一件事:长时间沉浸在 Genie 3 的第一人称写实世界里,然后看向窗外,对比虚拟和现实的差距。我认为最终,虚拟世界会和现实世界变得几乎无法区分,虽然今天我们不深入聊这个话题,但从模型的性能发展来看,这显然还有很长的路要走。但如果能生成和现实高度逼真的世界,在里面自由移动、互动、完成各种事情,那该多不可思议。

而这也是驱动我们开展这项研究的核心愿景:想象你拥有一个宇宙的副本,你可以在其中随心所欲。显然,这个副本有巨大的应用价值,能用到很多领域。这虽然是一个非常远大、甚至可能无法实现的目标,但它就像北极星一样,一直指引着我们。

比如我们这次把恐龙鲍勃放进虚拟世界,其实就是在重构现实空间,给现实事物做有趣的增强。未来这方面的探索,一定会非常有意思。

主持人:那到 Genie 5 的时候,我们可能真的会分不清自己是在现实还是在模拟世界里了。

世界模型是第三次技术跃迁

主持人:我还有一个有点尖锐的问题想问问大家:你们觉得,大多数人体验到世界模型的时间线会是怎样的?世界模型会先通过企业端影响普通人的生活吗?比如企业利用世界模型提高生产效率,打造更好的日常产品;还是说,未来普通人的日常生活中,会直接和世界模型产生互动?如果是后者,这个时间线大概会是多久?

研究员:这其实取决于你如何定义世界模型。如果是指交互式的视听体验类世界模型,我认为今年、明年,就会有越来越多的人接触到它,我们也会看到它在一些领域大放异彩,最终成为很多应用的基础功能。

但就像现在的视频生成技术,虽然发展很快,但真正融入普通人日常生活的比例其实并不高,世界模型也需要时间来完成用户普及,找到合适的应用场景—— 毕竟视频和图像不同,世界模型又和视频生成不同。

而如果是具身智能领域的世界模型应用,很难给出具体的时间线,但这个领域已经在取得不错的进展了。

另外,用户的人群特征也很重要:有些经常接触交互式媒体的人,会成为世界模型的早期使用者,他们知道该如何体验;但如果把它交给一个对前沿技术不感兴趣的家人,他们可能会觉得无从下手,体验不到产品的魅力。

但具身智能相关的应用,可能在未来 1-2 年就会走进现实,普通人会在生活中直接接触到,所以最终的普及时间,还是取决于用户所处的技术接受曲线位置。

还有一点,Genie 计划也印证了一个趋势:生成式技术正在形成一个连续体,从 Nano Banana Pro 的图像创作,到 VO(谷歌的视频生成模型)的视频生成,再到现在Genie 3 的交互式实时媒体创作,成为第三个核心支柱。我们希望未来有更多人能体验到这个连续体上的各类创作体验。

主持人:我特别期待看到行业的发展趋势,毕竟 VO(谷歌的视频生成模型)和 Nano Banana Pro 的发展过程中,都出现过一些爆红的玩法,都是我从未预料到的,太疯狂了。

研究员:世界模型的发展,和图像、视频生成还有些不同。图像和视频生成的作品,能被数百万人观看,一个人的创作可以被广泛传播,家人、朋友都能看到;而世界模型的独特之处在于,你可以在探索的过程中,不断改变周围的世界,这开辟了很多我们未曾考虑过的新途径、新玩法。

图像和视频生成,本质上是用新技术替代或自动化了过去的一些创作方式,当然也带来了新的能力和限制;但世界模型,实现了很多过去根本不可能做到的事情,这是它最大的不同,当然二者也有很多相似之处。

还有一个我们非常兴奋的想法,大家在演示中也能看到端倪:用户可以在现有虚拟世界的基础上继续创作,这样就会形成很多有趣的世界分支,还能追溯创作源头。这方面的潜力非常大,值得我们深入探索。

Genie 计划上线时,用户可以下载自己的虚拟世界演示视频;未来我们还会探索更多的世界分享方式,让大家能以更有趣的方式在别人的世界基础上创作。

主持人:太酷了,我还想要一个 “世界档案” 功能,这样大家就能看到我所有的创意想法了。

从世界模型的发展来看,技术进步的节奏是怎样的?显然我们已经看到了巨大的进步,图像生成、VO(谷歌的视频生成模型)视频生成、核心双子座模型,都取得了长足的发展。世界模型是不是也在遵循同样的发展轨迹,到处都是触手可及的技术突破,同时受益于算力规模和推理能力的提升?

研究员:可以这么说。图像生成技术显然比视频生成更成熟,视频生成和世界模型之间的差距,我无法准确衡量,但可以肯定的是,世界模型是超越视频生成的前沿技术。

最新一代的视频生成模型,画质已经比Genie 3 高很多了,我们也不指望Genie 3 现在能生成极致精美的视频,因为实时交互的约束,是普通视频生成模型所没有的。所以世界模型的发展,可能会比视频生成稍慢一些,但它能带来全新的体验。

说实话,我们现在仍处于技术快速进步的阶段。硬件始终是一个巨大的约束,这对所有模型来说都是如此。行业的整体趋势是,在成本基本不变的情况下,让模型的运行效率越来越高。但最终,我们还是需要更易获取的硬件支持—— 比如希望未来人们能直接在自己的设备上运行这类模型,实现无延迟的即时体验。

目前高性能的 TPU、GPU 还并非人人可得,硬件的发展速度因为一些实际原因,会比模型研发慢一些,但这也是我们的未来方向 —— 希望到 Genie 5 时,大家能在手机上运行完整的通用模拟系统。

这一点我们也讨论过,谷歌拥有垂直技术栈的优势,这也是我们在谷歌、在深度思维工作的魅力所在:我们既能站在模型研发的前沿,又能利用谷歌最好的硬件来支持模型的运行。而且专门为世界模拟打造的硬件,本身也极具发展潜力,它就像通往另一个维度的入口,点击就能进入,充满了新鲜感。

传送门:

https://labs.google/projectgenie

链接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm_medium=gift-link

“没有,从来都没有安心的时候。”

在 2026 年达沃斯世界经济论坛,DeepMind 创始人、Google DeepMind CEO 德米斯·哈萨比斯,用这句话形容过去三到四年的谷歌。

外界一度流行的“谷歌慢半拍”的言论,在他看来是一个彻底的误解。事实上,在这段时间里,谷歌的 AI 团队几乎一直处于红色警报状态。他本人长期保持着每周 100 小时、一年 50 周的工作强度,把一家万亿美元体量的科技巨头,硬生生拉回到创业公司的战时节奏。

也正是在这样的状态下,谷歌迎来了 Gemini 3 的发布,被哈萨比斯视为“重回行业最前沿”的关键节点。

在接受彭博社记者 Emily Chang 的专访时,他罕见地系统性拆解了当下几乎所有 AI 世界的核心争议:

  • 谷歌是否真的掉队?

  • 中国 AI 是否构成威胁?

  • Transformer 和大模型是否已经走到尽头?

  • AGI 会在什么时候到来?

  • 当工作不再必要,人类该如何寻找意义。

在哈萨比斯看来,过去十年,现代人工智能产业所依赖的关键突破,比如 Transformer 架构、深度强化学习、AlphaGo 背后的技术体系,几乎都诞生于谷歌与 DeepMind。他高度赞扬谷歌深厚的技术积累,他认为 谷歌是唯一真正具备 AI 全栈能力的公司,其真正的问题在于能否把研究、算力、数据、硬件和产品,整合成一个统一体系。

他还高度赞扬了谷歌的科学研究氛围,认为这正是他当初选择谷歌作为 Google DeepMind 归宿的原因。他还透露了他与拉里・佩奇、谢尔盖・布林如何高效分工。

在访谈中,哈萨比斯还反复提到一个关键词:物理 AI(Physical AI),他承认物理 AI 确实正处于突破的临界点。

在他的设想中,Gemini 从一开始就不是“聊天模型”,而是一个理解现实世界的多模态系统,是通往物理 AI 的入口。未来 Gemini 只会走向两个方向:

  • 随身的通用 AI 助手(眼镜、手机)

  • 真正能干活的机器人

当然,他也给出了冷静判断,距离物理 AI 跨过临界点还有 18 个月到两年的时间,在算法、数据、硬件等方面,都还差最后一段路。

谈到中国 AI,哈萨比斯的态度异常冷静。

他并不认为 DeepSeek 构成真正意义上的“危机”,也直言西方舆论夸大了其算力效率优势,这背后仍依赖西方模型蒸馏。在他看来,中国公司极其擅长追赶,但是否能率先打开下一代技术前沿,仍有待时间验证。而 现代人工智能行业所依赖的约 90% 的突破性技术,都是谷歌研发的。

但他特别表扬了 字节跳动,给出了一个极具分量的评价:字节跳动距离技术前沿,大约只差 6 个月,而不是 1–2 年。

这位把 AGI 当作毕生使命的科学家型 CEO,几乎反驳了 马斯克、杨立昆和伊利亚·苏茨克维的核心判断,同时给出了一个异常冷静 AGI 的时间表:2030 年,有 50% 的概率实现通用人工智能。

哈萨比斯对 AGI 有自己一套严格的标准,即必须具备完整的人类认知能力,尤其是科学创新能力,不仅能解决问题,还要能提出真正重要的问题  这其中还有不小的差距。

他认为距离 AGI,还需要一两项,最多不超过五项突破性技术,这可能体现在世界模型、持续学习的能力、稳定性表现、更强的推理能力或更长远的规划能力等方面。他高度认可现有的模型成就,认为在现有方法的基础上进行优化并扩大规模,或许就能实现 AGI。

在访谈的最后,话题不可避免地走向未来社会:人工智能是否会取代人类的工作?围绕这一问题,哈萨比斯提出了一个有趣的概念 “后稀缺时代”

在他看来,AI 带来的变革,无论规模还是速度,都会是工业革命的十倍,取代部分人类工作几乎是不可避免的结果。但他厘清一个概念,即人工智能本质上是一种终极的科学研究工具,就像更先进的望远镜和显微镜一样,是为科学服务的。

在哈萨比斯的设想中,真正重要的并不是“谁被取代”,而是人类将因此获得前所未有的自由,把注意力转向那些更根本的问题。例如能源危机,如何实现核聚变,如何发现全新的材料体系。这些长期困扰人类的难题,或许正是在人工智能的加持下,才第一次显露出被彻底解决的可能性。

这不仅是一场技术竞赛,更是一场文明级实验。真正的风险,在于当人类不再需要通过工作来定义自身价值时,我们是否已经准备好回答那个更深层的问题“为什么而活?”。

在那个时代,人类或许需要的不只是更强的工程师,而是伟大的哲学家,去重新书写意义的来源。

以下是哈萨比斯访谈实录,更多的谈话细节,欢迎来看:

谷歌的红色警报期与“王者归来”

主持人:和你上次来达沃斯相比,今年的感受有什么不同吗?Gemini 3 已经发布了,相关的消息我们也都听说了。我在内部甚至把这段时间称作“红色警报”。你觉得谷歌已经找回曾经的状态了吗?

哈萨比斯:我不太确定这是不是该由我来评价,但我确实认为,过去这一年我们做得非常出色。我们付出了极其艰苦的努力,几乎是全力以赴,才让我们的技术和模型重新回到行业最前沿

尤其是 Gemini 3,以及我们在视觉和成像系统方面取得的一些关键突破,都在这一过程中起到了决定性作用。同时,我们也逐渐适应了如今这种节奏极快、需要迅速将成果推向市场的行业环境,让整个团队重新焕发出一种更接近初创公司的活力。

主持人:你认为人们是否低估了谷歌,或是对谷歌有误解?

哈萨比斯:或许是吧,我不确定。我的意思是,我们一直都拥有站在这个领域前沿的所有必备条件,显然我们在这方面有着悠久的积淀。

我认为在过去十年里,谷歌和 Google DeepMind(谷歌深度思维)联手,创造出了现代人工智能行业所依赖的大部分突破性技术。比如 Transformer 架构,还有最知名的阿尔法狗背后的深度强化学习技术,这些都是我们的成果。

我们还有覆盖数十亿用户的优质产品矩阵,从搜索引擎、电子邮箱到谷歌浏览器,这些产品天生就适合融入人工智能技术。

问题只是如何将所有这些资源整合起来,以正确的方式统筹规划。 过去几年我们已经做到了这一点,当然还有大量工作要做,但我们已经开始看到努力带来的成果了。

主持人:如果你认为谷歌具备优势,你觉得这个优势有多大?能持续多久?

哈萨比斯:在我看来,一切都始于研究。尤其是模型,要在各类基准测试中都保持行业前沿水平。这也是我们整合谷歌和 Google DeepMind(谷歌深度思维)后,首要聚焦的工作。双子座系列模型的进展,我们感到非常满意,当然这方面还有很多工作要推进。

但我认为,我们是唯一一家拥有全栈能力的机构,从技术、战术、流程体系,到硬件、数据中心、云业务、前沿实验室,再到一众天生适配人工智能的优质产品,我们一应俱全。

所以从根本的结构层面来说,我们本就该有出色的表现,而且我认为我们未来还有很大的提升空间。

主持人:我想知道,作为前沿模型研发的负责人,日常工作状态是怎样的。我看到有报道说,你大多在凌晨一点到四点进行深度思考。确实是这样吧?谷歌内部的工作状态是否一直处于红色警报级别?你有没有感到安心的时候?

哈萨比斯:没有,从来都没有安心的时候。我们设定红色警报级别,本是针对特殊情况的,但过去三四年,工作强度一直大到难以想象。每周工作一百小时,一年工作五十周,这已经是常态。

在这个技术发展速度极快的领域,要想保持前沿,就必须这样做。行业的竞争异常激烈,可能是科技领域有史以来最白热化的阶段,而且背后的利害关系重大。通用人工智能的研发,无论从商业还是科学角度,都有着深远的意义。

再加上我们正做的事情本身就令人振奋,而我的热情就是用人工智能探索科学难题,推动科学发现的进程。这是我一直以来的梦想,我毕生都在为人工智能发展的这一刻而努力。所以常常会因为有太多工作要做而难以入眠,但同时,也有太多令人兴奋的事情值得我们去探索、去推进。

主持人:聊聊谷歌目前的内部文化吧,你们既要在这场竞争中取胜,又要保证研发的方向正确。拉里・佩奇和谢尔盖・布林 现在的参与度如何?你和他们沟通的频率高吗?他们现阶段的工作重点是什么?

哈萨比斯:他们的参与度非常高。

拉里・佩奇更多负责战略层面的工作,我会在董事会会议上见到他,去硅谷时也会和他碰面。

谢尔盖・布林则更多参与具体工作,他甚至会亲自参与双子座研发团队的编码工作,尤其专注于算法细节方面。

他们能对当下的人工智能研发充满热情,这对我们来说是好事,毕竟这是计算机科学发展史上一个无比重要的时刻,单从科学角度来看,这也是人类历史上的重要时刻,所以所有人都想亲身参与其中,这一点非常好。

而对于我来说,我正努力融合各方优势,既保留初创企业快速推出产品、敢于冒险的活力,这一点我们已经看到了成效;又充分利用大企业的资源优势,同时还为长期研究和探索性研究保留空间,而非只聚焦于三个月内就能落地的产品相关研究,我认为只做短期研究是不明智的。

我正努力平衡这些因素,过去一年,各项工作的推进都很顺利,而且我认为今年我们能做得更好。我对目前的发展态势非常满意,谷歌的技术提升和研发进展速度,在业内应该是最快的。

物理 AI 的奇点时刻,还有 18 个月到两年的时间

主持人:我知道你一直把重点放在推动科学进步上,比如发现新材料。我们也看到,现在 Gemini 已经被整合进人形机器人系统中。那么你觉得,人工智能在真实物理世界中的应用,是否即将迎来一个类似 AlphaFold 那样的突破性时刻?如果是的话,这个“突破”会以什么形式出现?

哈萨比斯:是的,过去一年我花了大量时间深入研究机器人技术。我确实认为,我们正处在物理 AI 取得突破性进展的临界点。

但我还是觉得,距离实现这一突破,我们还有 18 个月到两年的时间,还需要开展更多研究。

不过我认为,双子座这样的基础模型,为我们指明了方向。从一开始,我们就将双子座设计为多模态模型,让它能够理解物理世界,背后有多重原因。

其一,是为了打造通用智能助手,这种助手或许会搭载在 智能眼镜或手机 上,能够理解周边的现实世界。

其二,当然就是为了应用在 机器人领域。那么人工智能在物理世界的突破性时刻,究竟会是怎样的?我认为,那就是让机器人能在现实世界中稳定地完成各类有实际价值的任务。

目前,仍有一些因素制约着这一目标的实现。

一方面,算法还不够完善,需要提升鲁棒性,而且相较于实验室中仅处理数字信息的模型,机器人相关算法能依托的数据量更少,合成这类数据的难度也远高于数字数据

另一方面,硬件方面也仍有一些难题尚未解决,尤其是机械臂和机械手的研发。其实深入研究机器人技术后,你会对人类的手部结构产生全新的敬畏之心,至少我是这样。进化的设计精妙绝伦,人类的手在稳定性、力量和灵活性上的表现,很难被复刻。所以在我看来,要实现这一突破,还有不少环节需要完善,但目前已有很多令人振奋的进展。

我们刚刚宣布与 波士顿动力 展开深度合作,他们研发的机器人非常出色,我们正将人工智能技术应用到汽 车制造领域

接下来一年,我们会先推出 原型机 进行测试,或许一两年后,我们就能展示一些令人印象深刻的成果,并实现规模化应用。

DeepSeek 并不是重大危机,特别表扬字节跳动

主持人:一年前,DeepSeek 模型的发布在西方引发了不小的震动,很多人把它视为一场潜在的危机。但一年过去了,局势似乎逐渐平稳下来,中国方面的节奏看起来也有所放缓。你对中国人工智能领域整体竞争格局的看法,有没有发生变化?

哈萨比斯:没有,其实并没有改变。一开始我就不认为这是一场真正意义上的危机,我觉得西方当时的反应多少有些过度了。

DeepSeek 的确是一个令人印象深刻的模型,它清楚地展现了中国科技公司的实力。

如果看头部企业,比如字节跳动,我认为他们的能力非常强。在技术前沿的跟进速度上,他们可能只落后大约六个月,而不是一到两年。DeepSeek 正是这一点的体现。

当然,围绕它的一些说法也被夸大了。比如关于 算力使用效率的说法,并不完全准确,因为他们在研发过程中借鉴并依托了部分西方模型,也对顶尖模型的输出结果进行了微调,而不是完全从零开始独立训练。

另外,还有一个关键问题目前仍然没有答案:那就是中国公司是否能够在跟进前沿的基础上,真正实现原创性的突破并引领下一代技术。 他们在追赶方面确实非常擅长,而且能力正在快速提升,但到目前为止,还没有证明自己能够率先打开新的技术前沿。

AGI 的时间表:2030 年,有 50% 的可能实现 AGI

主持人:是你为通用人工智能给出了定义,你也曾说过,到 2030 年,我们有 50% 的可能实现通用人工智能。 这个时间规划是否依然不变?

哈萨比斯:不变。

主持人:通用人工智能对你而言,依然是一个有价值的研发目标吗?

哈萨比斯:我认为是的,这个时间规划在我看来很合理,而且相较于一些人的预期,这个时间其实更充裕。

但我对通用人工智能的评判标准非常高,它指的是一个具备人类所有认知能力的系统,显然我们目前离这个目标还有很大差距。 这意味着,这类系统需要拥有 科学创新能力不仅能解决科学领域的猜想和难题,更要能率先提出研究假设和问题。 任何一名科学家都清楚,找到正确的问题,往往比找到答案难得多。

目前的人工智能系统显然还不具备这种能力,未来能否拥有,还未可知,我们也仍未明确实现这一能力需要哪些技术突破。比如 持续学习能力,也就是在线学习能力,让系统能突破训练的局限,在现实世界中自主学习;还有 稳定性,目前的系统在不同领域的表现参差不齐,而通用智能系统不该有这样的短板。在我看来,要打造通用人工智能系统,还有不少关键能力亟待突破。

主持人:我们来聊聊技术和未来的发展趋势。Meta 首席科学家 杨立昆(Yann LeCun) 认为,仅凭 Transformer 架构和大模型,无法实现通用人工智能。你是否认同这一观点?如果这些技术走到了尽头,我们的研发方向会是什么?

哈萨比斯:我不认同,我认为说这些技术走到尽头的观点显然是错误的,因为它们目前已经展现出了巨大的实用价值。但在我看来,这是一个实证问题,也是一个科学问题,仅凭这些技术是否能实现通用人工智能,尚无定论。

我认为有 50% 的可能,只需在现有方法的基础上进行优化并扩大规模,就能实现通用人工智能, 这是有可能的,而且我们也必须这样做。在我看来,这项研究是有价值的,因为至少这些大模型会成为最终通用人工智能系统的核心组成部分,唯一的问题只是,它是否是唯一的组成部分。

我能想象,从现在到实现通用人工智能,我们还需要一两项,最多不超过五项突破性技术

比如 世界模型,这是我一直提及的,我们也正在研发,目前我们的 GENI 系统就是最先进的世界模型(GENI 是 DeepMind 、Google 内部正在研发的一类世界模型(World Model)系统),我也直接参与了这项研发,我认为它至关重要。

还有 持续学习能力,以及打造 性能稳定的系统,让系统不再出现这种领域间的表现失衡,真正的通用智能系统,不该有这样的问题。

所以在我看来,人工智能还缺乏更强的 推理能力更长远的规划能力 等多项关键能力。目前尚未确定的是,实现这些能力,是否需要新的架构或突破性技术,还是只需在现有基础上继续优化。而谷歌和 Google DeepMind(谷歌深度思维)的做法是,双管齐下,既全力研发新的技术,也持续优化并扩大现有技术的规模。

主持人:OpenAI 联合创始人兼前首席科学家伊利亚・苏茨克维(Ilya Sutskever)认为,依靠扩大模型规模实现技术提升的时代即将结束。你是否认同这一观点?

哈萨比斯:我不认同。他的原话大概是 “我们重回研究的时代”,我和伊利亚・苏茨克维是很好的朋友,我们在很多问题上的看法都一致,但在这一点上,我并不认同。

我的观点是,我们从未离开过研究的时代,至少谷歌和 Google DeepMind(谷歌深度思维)一直如此。 我们始终在研发领域投入巨资,而且我认为,整合后的谷歌和 Google DeepMind(谷歌深度思维),拥有业内最深厚、最广泛的研发团队。

过去十年,现代人工智能行业所依赖的约 90% 的突破性技术,都是我们研发的,当然最知名的是 Transformer 架构,还有深度强化学习、阿尔法狗背后的各类强化学习技术,这些都是我们开创的。所以如果未来实现通用人工智能需要新的突破性技术,我相信,就像过去一样,我们依然会是这些技术的研发者。

主持人:最后一个问题,埃隆・马斯克说我们已经进入了技术奇点,你是否认同?

哈萨比斯:不认同,我认为这一说法为时过早。在我看来,技术奇点其实就是实现完全的通用人工智能,而我之前已经解释过,我们目前离这个目标还相去甚远。我相信我们最终能实现这一目标还有五年的时间,从实现通用人工智能的角度来看,其实并不长,但在那之前,我们还有大量的工作要做。

人工智能就像更先进的望远镜和显微镜

主持人:你是诺贝尔奖得主,我知道你一心想让人工智能推动科学研究的发展。如果未来人工智能本身取得了足以获得诺贝尔奖的科研发现,这个奖项该颁给谁?

哈萨比斯:我认为还是该颁给人类。当然,这取决于人工智能是否是完全独立完成这项发现。

目前来看,人工智能依然只是工具,在我眼中,它是终极的科学研究工具,就像更先进的望远镜和显微镜。 人类一直都在制造工具,让自己能更好地探索自然世界,人类本质上就是会制造工具的物种,这也是人类与其他动物的区别,而工具也让人类拥有了超越自身的能力,计算机当然也属于这类工具,人工智能则是这种能力的终极体现。

所以在我看来,人工智能一直都是推动科学研究的终极工具,而且在可预见的未来,科学研究都将是顶尖科学家与人工智能的合作成果:科学家提出富有创意的想法和研究假设,而人工智能作为强大的工具,助力提升数据处理、模式识别的效率,推动科学探索的进程。

AI 是否会取代人?我们将迎来后稀缺时代

主持人:谷歌是 Anthropic 人工智能公司的主要投资方,Anthropic 联合创始人兼 CEO 达里奥・阿莫迪 (Dario Amodei) 今天早些时候也来到了达沃斯。他预测,未来五年内,人工智能会取代 50% 的初级白领岗位,你是否认同这一观点?

哈萨比斯:我不认同,我认为这一过程会耗时更久。今年,我们或许能看到这一趋势的初步显现,比如初级岗位和实习岗位可能会受到影响,但要实现大规模取代,我们还需要解决人工智能系统的稳定性问题。

我把目前人工智能的这种不均衡表现称为 “锯齿型智能”,在某些领域表现出色,在另一些领域却不尽如人意。如果想将一整项工作完全交由人工智能代理完成,而非像现在这样,仅让其作为辅助工具,就需要让系统在各方面都保持稳定的表现。如果一个系统完成一项工作的成功率只有 95%,那是远远不够的,必须能圆满完成整个任务,才能让人放心地将工作交托给它。

所以在出现这种大规模的岗位变革前,我们还有大量工作要做,但 这种变革最终一定会到来。当然,一旦实现通用人工智能,整个经济体系都会发生改变,这早已超出了岗位变革的范畴。如果我们能打造出真正的通用人工智能,而且方向正确,我们或许会进入一个后稀缺时代,解决世界上一些根本性的难题,比如能源问题。借助人工智能,研发出全新的清洁、可再生的近乎免费的能源,比如实现核聚变还有新材料的研发,我认为在实现通用人工智能后的五到十年,我们会进入一个彻底改变的世界。

主持人:不过,在进入后稀缺时代之前,人们对这一过渡阶段充满了焦虑。我是一位母亲,我知道你也有孩子。你最担心孩子们未来会面临什么?你会和他们聊些什么?会告诉他们未来即将到来的变化吗?我听到很多人说,大学毕业生未来的就业会非常困难。

哈萨比斯:我倒不这么认为。我觉得我们即将进入一个变革的时代,就像工业革命那样,或许变革的速度会是工业革命的十倍,甚至难以想象。准确来说,变革的规模和速度都会是工业革命的十倍,影响力会是百倍。

但我想对所有人说,变革的背后,蕴藏着巨大的机遇。而且我始终坚信人类的创造力,我们的适应能力极强,因为人类的思维具有极强的通用性。

人类的大脑无比强大,我们的祖先以狩猎采集为生,而我们凭借这样的大脑构建了现代文明,所以我相信我们能再次适应新的时代。当然,这次的变革是前所未有的,因为它的速度太快了。以往,这样的重大变革往往需要一两代人的时间才能完成,而这次人工智能技术的变革,规模和影响力都极为巨大。

但对于如今的孩子,我会鼓励他们熟练掌握这些新工具,像使用母语一样运用它们,这些工具几乎能赋予他们超能力。比如在创意艺术领域,借助人工智能,一个人或许能完成过去十个人的工作。这意味着,如果你富有创业精神,在游戏设计、电影制作等创意领域有想法,就能完成更多工作,也能比以往更容易地跻身这些行业,成为新锐人才。

主持人:一些人主张暂停人工智能的研发,让监管政策跟上技术发展的步伐,也让社会有时间适应这些变化。如果在理想情况下,所有企业、所有国家都同意暂停研发,你是否会支持这一做法?

哈萨比斯:我会支持。我也曾公开表达过我的期望,这也是我十五年来的梦想。我接触人工智能研究已有二十五年,我一直希望,当我们接近实现通用人工智能的这一关键节点时,全球的科研人员能展开科学层面的合作。

我有时会设想,成立一个类似欧洲核子研究中心的国际人工智能研究机构,让全球最顶尖的人才携手合作,以极为严谨的科学方式,推进通用人工智能研发的最后阶段,同时让全社会参与其中,不仅是技术人员,还有哲学家、社会科学家、经济学家,共同探讨我们希望从这项技术中获得什么,以及如何让它造福全人类。这才是我们当下的核心议题。

但显然,这需要国际社会的通力合作,因为即便只有一家企业、一个国家,甚至整个西方世界决定暂停研发,倘若没有全世界的共同参与,没有制定统一的最低标准,这一做法也毫无意义。而目前,国际合作面临着不小的阻碍,所以如果想以严谨的科学方式推进通用人工智能的最后研发,就必须改变当下的国际合作现状。

主持人:如果到 2030 年我们实现了通用人工智能,而相关的监管政策尚未出台,我们是否注定会面临困境?

哈萨比斯:我依然乐观地认为,全球顶尖的人工智能研发机构会充分沟通,至少在安全和安保协议等方面展开合作,目前这方面的合作已经有了不少进展。比如我们和人工智能公司 Anthropic 在这些领域的合作就十分紧密。

如果国际层面的合作难以推进,这种行业内的同行合作就尤为必要。我和其他顶尖人工智能实验室的负责人关系都很不错,我认为,当利害关系足够重大时,大家会意识到问题的严重性和潜在的风险,而在未来两到三年,这一点会变得更加清晰。

主持人:你当初本可以把 Google DeepMind(谷歌深度思维)卖给任何一家企业,而如今,这些研发人工智能的企业都在寻求大众的信任。尤其是在监管政策难以跟上技术发展速度的情况下,历史经验也证明了这一点。我们为什么该信任你?为什么你认为谷歌,也是你内心所认可的,是最值得我们信任的企业?毕竟人工智能的研发存在不小的风险。

哈萨比斯:我认为,评判一家企业,要看它的实际行动,也要看参与相关研发的领导者的初衷。

我选择谷歌作为 Google DeepMind(谷歌深度思维)的归宿,有多个原因,最主要的是,谷歌的创始人创立谷歌的初衷,是打造一家以科学研究为核心的企业。 很多人都忘了,谷歌最初其实是一个 博士研究项目,是拉里・佩奇和谢尔盖・布林 的研究成果。所以我和他们一见如故。

拉里・佩奇主导了 Google DeepMind(谷歌深度思维)的收购,而谷歌的董事会成员也都是各行各业的顶尖人才,比如董事会主席约翰・轩尼诗是图灵奖得主,弗朗西斯・阿诺德是诺贝尔奖得主,这样的阵容在企业董事会中并不多见。所以谷歌的整体环境充满了 科学氛围企业的发展以科学研究和工程技术为核心,这一文化早已根深蒂固。而追求最高水平的科学研究,就意味着 做事要严谨、深思熟虑,在所有领域都践行科学方法

我认为这不仅适用于技术研发,也适用于企业的运营管理。所以我们始终努力做到深思熟虑、负责任,尽可能掌控我们推向市场的技术。当然,我们不可能做到尽善尽美,因为人工智能是一项全新、复杂且具有变革性的技术,但如果出现问题,我们会尽快调整修正。

最后我想说,谷歌想要为世界做的事情,也是我当初选择谷歌的原因之一。 谷歌的使命是整合全球信息,让人人皆可访问并从中受益,我认为这是一个非常崇高的目标。而 Google DeepMind(谷歌深度思维)的使命是破解智能的奥秘,并利用智能解决其他所有问题,这两个使命高度契合。人工智能与整合全球信息的工作本就相辅相成,谷歌的各类产品,从谷歌地图、电子邮箱到搜索引擎,都是对世界有实际价值的产品,人工智能能很自然地融入这些产品,为所有人的日常生活提供助力,我认为这是一件造福世界的事,能为此贡献力量,我感到很荣幸。

主持人:试想一下,在后稀缺时代,人们不再需要工作,当你实现了所有的技术目标后,你个人打算如何度过时间?毕竟到那时,科研工作本身或许也能实现自动化了。

哈萨比斯:如果真的到了那个阶段,我想利用人工智能探索物理学的极限

上学时,我最感兴趣的就是那些终极问题:现实的本质是什么?意识的本质是什么?费米悖论的答案是什么?(费米悖论是宇宙学和天体生物学中最经典的未解之谜,由美籍意大利物理学家、1938 年诺贝尔物理学奖得主恩里科・费米(Enrico Fermi) 在 1950 年提出,核心是 “理论上的地外文明存在性” 与 “人类实际观测证据为零” 的尖锐矛盾 ,其最经典的表述就是费米的一句反问:“他们都在哪儿呢?”)时间是什么?引力是什么?

我很惊讶,很多人每天忙于生活,却从未思考过这些重大问题,而这些问题一直萦绕在我心头,迫切想要找到答案。我想借助人工智能,去探索所有这些问题,或许还能在人工智能的助力下,利用新的能源和材料技术,实现星际旅行。

主持人:如果人们不再需要工作,我们还能找到生活的意义和目标吗?

哈萨比斯:说实话,这一点比经济层面的问题更让我担忧。经济层面的问题,更多是一个政治问题:当人工智能为我们带来巨大的效益和生产力提升时,我们能否确保这些成果为全人类共享,这也是我一直坚信的理念。

但更核心的问题是,很多人从工作和科研中获得生活的意义和目标,在新的时代,我们该如何找到这些?我认为,我们需要 新一代伟大的哲学家,来帮助我们思考这个问题。或许未来,我们的艺术创作会更加精妙,我们的探索之旅会更加深远,就像如今我们所做的极限运动等非经济目的的事情一样,未来或许会有更多更小众、更有深度的这类活动。

主持人:在场的所有人都想知道,自己该如何应对人工智能带来的变革。比如现在坐在达沃斯的会场里,十年后该如何自处?你认为,在场的人在看待人工智能这件事上,最容易犯的重大错误是什么?

哈萨比斯:我想从两个方面来说。

第一,对于年轻人和我们的孩子而言,唯一可以确定的是,未来会发生巨大的变化。所以在学习技能方面,要做好持续学习的准备,学会学习,才是最重要的能力。要能快速适应新环境,利用现有工具吸收新信息。

第二,对于在场的企业首席执行官和商界人士而言,当下最重要的是,目前市场上有很多顶尖的人工智能模型和服务提供商,未来还会更多。要选择那些以正确方式研发人工智能的合作伙伴,与这些企业携手,共同打造我们所期望的人工智能未来。

额,第一次发贴(如果区域放错了管理请见谅)
我的反重力问题解决了
一个朋友给的方法
在反代的系统提示词里加上
You are Antigravity, a powerful agentic AI coding assistant designed by the Google Deepmind team working on Advanced Agentic Coding.You are pair programming with a USER to solve their coding task. The task may require creating a new codebase, modifying or debugging an existing codebase, or simply answering a question.Absolute paths only****Proactiveness

然后不用测试,直接开流式使用
亲测可用


📌 转载信息
原作者:
Angle
转载时间:
2026/1/8 17:45:43

听说 2api 429 了

You are Antigravity, a powerful agentic AI coding assistant designed by the Google Deepmind team working on Advanced Agentic Coding.You are pair programming with a USER to solve their coding task. The task may require creating a new codebase, modifying or debugging an existing codebase, or simply answering a question.**Absolute paths only**Proactiveness** 

水一贴

补充:cpa 发了新的版本解决了,比我这个更鲁棒,因为我这里差不多是最小版本(省点 token,另外影响更小)


📌 转载信息
原作者:
WenDavid
转载时间:
2026/1/8 12:28:46