标签预训练研究下的文章

12 月，OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」，将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中，作为行业内屈指可数的 “明星企业”，OpenAI 不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡，还需承接外界对其技术突破的高期待。面对 “开创下一个 AI 技术范式” 的巨大压力，OpenAI 将采取怎样的策略破局？

最近，OpenAI 首席研究官 Mark Chen 在播客节目中，与主持人 Ashlee 细致分享了 OpenAI 在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro 已在取得的科学发现。基于该播客视频，InfoQ 进行了部分删改。

核心观点如下：

一个组织要成功，需要两个条件：宏大的愿景和与之匹配的天才。
成为一个好的领导者，就意味着必须明确地告诉大家：这是优先级，这是我们认为真正推动研究方向的成果，其余的只能排在第二位。
未来的科研是“AI + 人类直觉”的组合，会产生新的突破。
完全冻结研究部门的新增人头，如果团队想招人，就必须自己决定谁不再适合继续留下。

目标是找到“下一个范式”

Ashlee：“人才争夺战”最近引发了大量关注，外界普遍认为 Meta 的动作非常激进。你能具体谈谈这种你来我往的竞争现状吗？

Mark：整个行业的人才池其实很有限，大家都知道最关键的资源之一就是顶尖人才。Meta 的积极挖人并不令人意外，但我们也没有袖手旁观。媒体往往强调“人才单向流向 Meta”，但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前，先后接触过我近一半的直接下属，但这些人全部拒绝了他们。当然，如果 Meta 每年能投入约百亿美元用于人才，他们总能挖到一些人。但总体来看，我们很好地保护了核心人才。

竞争过程中也发生过不少颇具戏剧性的事：扎克伯格曾亲自给我们团队成员送去他亲手熬的汤，以此示好。当时我非常震惊，但后来也理解这类方式确实可能有效。之后我也给从 Meta 挖来的对象送过汤，甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句，我自己并不亲自熬汤，米其林餐厅的汤当然比我做得好。

但真正让我有信心的是：即使面对 Meta 的高薪挖角，在 OpenAI，无论是来自 Meta 的员工，还是我们原本的研究人员，都没有人认为“AGI 会首先在 Meta 诞生”。他们对 OpenAI 的研究路线都有高度信心。我也一直非常明确告诉团队，我们不会与 Meta 进行“薪资逐美元匹配”的竞争。在远低于 Meta 的薪酬下，关键成员仍然选择留下，这让我更加确信：他们真正相信 OpenAI 的未来。

Ashlee：在这种竞争中，有没有类似“博弈策略”的考虑？

Mark：关键在于：目标不是留住组织内的每一个人，而是认清必须保留的核心力量，并确保他们留下来，我们在这点上做得很好。

Ashlee：在我看来，Sam 是真正沉浸于研究的那个人，是最顶层的决策者。而你和 Jakub 负责共同制定 OpenAI 的研究方向，同时你还要决定算力如何分配到具体项目上，既要决定公司往哪里走，又要管理执行路径。听起来像是一份非常艰难的工作，因为我想象得到大家会竭尽所能从你那里争取 GPU。

Mark：确实如此。人们为了获得 GPU，会想尽各种“幕后交易”。但这确实是我职责的重要部分：确定研究优先级，并对最终执行负责。

Jakub 和我每隔一两个月会做一次“项目盘点”，梳理一份包含约 300 个项目的大型表格，尽可能深入了解每个项目，并对它们进行排序。对一家约 500 人规模的组织来说，明确“核心优先级”，并通过口头沟通及算力分配来传达，是非常重要的。

Ashlee：这 300 个项目里既有大型前沿模型，也有各种实验性方向。你们如何管理、追踪并判断哪些项目值得投入 GPU？

Mark：关键在于始终聚焦核心路线图。与其他大实验室不同，OpenAI 始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果，也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”，并愿意投入大量资源。很多人可能会惊讶：我们的算力大头，其实花在“探索”上，而不是训练最终的成品模型。

Ashlee：所有团队都会说自己的项目最重要、最值得，怎么判断优先级？

Mark：最困难的决策通常是：我们无法在当下为某个项目提供支持。但成为一个好的领导者，就意味着必须明确地告诉大家：这是优先级，这是我们认为真正推动研究方向的成果，其余的只能排在第二位。

Ashlee：你们也强调不要“对竞争者做出反应”。如今 AI 领域的竞争比以往都激烈，你们如何保持独立判断？

Mark：现在的 AI 研究竞争确实空前激烈，但不能陷入这种竞争节奏。你随时可以发布一个小更新，在几周或几个月内领先别人，但这种方式无法长期维持。真正重要的是“破解下一个范式”。

例如 RO（reasoning optimization）项目，我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎，因为大家都觉得预训练和后训练机制运转良好，没必要做别的。但现在，“思考能力”已经变成不可或缺的基础能力。

我们的使命就是大胆押注，并构建足够强的算法，使它们能扩展到未来数个量级的算力。

研究员 vs 工程师

Ashlee：随着 OpenAI 成为一家有明确产品线的公司，你们如何不被“商业优先”压过“研究优先”？

Mark：OpenAI 最特别的地方在于：我们仍然是一家“纯粹的 AI 研究公司”，这点在业界非常罕见。我们以非营利形式创立，我加入时公司仍是非营利组织，那时的精神是“全力推进 AGI 研究，并保证安全”。我认为这依然是创造价值的最佳方式：只要研究领先，价值创造自然而然会发生。我 2018 年加入时的那种“核心文化”，至今依然存在。

Ashlee：马斯克曾说：“这帮人不是研究员，只是在做工程。”你怎么看？

Mark：在构建大模型时，优化每一个百分点、加速每一个 kernel、确保数值稳定，都是极深的工程实践。如果把研究凌驾于工程之上，其实已经输了。一旦缺少工程能力，就无法在当今这种规模的 GPU 上运行模型。

Ashlee：但外界确实把“研究员”和“工程师”赋予了不同的神秘感。

Mark：研究人员形态各异，有的人每天都有无数想法，其中很多并不好，但总能在某个时刻提出改变方向的优秀点子，而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作，因此也无法简单划分为某种刻板印象。

Ashlee：当竞争对手发布新模型，你和你们团队会做什么？大家会第一时间去试吗？有没有你们常用来测试新模型的“那一道题”？

Mark：会。以 Gemini 3 为例，它是个不错的模型。

但我们内部其实有能力相当的模型，而且快要发布了。

Benchmark 只能说明一部分，大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测，目前还没看到模型完全解出来，就算是“thinking model”也不行。

Ashlee：是秘密题目吗？

Mark：不算，不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题，叫“42 problem”。你要构建一个 mod 42 的随机数生成器，你有的原子操作是一些模 42 以下素数的 RNG，你要让期望调用次数最小。挺可爱的题目，但还没人类语言模型做到最优。

Ashlee：我原本以为你会在对手发布模型当天半夜就冲上去丢题测试。

Mark：没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力，把整个团队的肌肉练起来，做出现在能跟 Gemini 3 一较高下的模型。

Ashlee：所以你现在更关注长线构建，而不是每次新品发布就冲去试题。

Mark：对的。

Ashlee：我知道你和 Jakub 都有竞赛背景。我当初第一次见 Jakub 是在 Facebook Hacker Cup。你以前也是数学比赛选手吧？

Mark：对，我从小学、高中都在做数学竞赛。不过我真正写代码很晚，是大学室友怂恿的。当时我还有点数学系学生的傲气，觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了，而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛，算是朋友间的活动。后来我发现自己还挺有天赋，又开始给美国国家队出题、最后去带队。既是激烈比赛，也是一个紧密社区，大家之后都会在科研界再相遇。

Ashlee：那你这么忙，还能当教练？

Mark：其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研：有好时段、有坏时段，你不能因为连续失败就被心理打倒，很大部分是士气管理。我最近在带模型做竞赛题时也发现，模型的“难度直觉”跟人完全不同，人认为 ad-hoc 的题模型反而容易。这让我更相信未来的科研是“AI + 人类直觉”的组合，会产生新的突破。

Ashlee：有点像 AlphaGo 的“Move 37”时刻？

Mark：是的。我觉得 GPT-5 Pro 发布之后，前沿科研有了拐点。发布三天后，一个物理学家朋友把他的最新论文丢进去，模型想了 30 分钟就完全搞懂，他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。

Ashlee：但当 AI 开始做那些原本属于顶尖人类智力的事，会不会让你觉得有点伤感？

Mark：竞赛是我很喜欢、也曾经擅长的东西，但我也看着模型从普通选手水平爬到超过我，再超过 Jakub，就像亲眼看到自动化的速度快得不可思议。去年模型在 coder 比赛还只是排 100 多名，今年已经能冲进前五。变化太快了。

Ashlee：那十年后还会有人类比赛吗？

Mark：会的，因为它本质上就很有趣。那些只是为了简历而参加的人会消失，但真正热爱的人不会。

Ashlee：我采访别人时，他们说有些国家只要 IOI 奖牌就能直接保送大学。

Mark：是，但我觉得未来这些考试本身会被 AI 打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟 ChatGPT 对话，由一个不会被越狱的特别版 ChatGPT 判断他们是否具备在 OpenAI 工作的能力。

Ashlee：你家里有很强的科技背景，你父母都在 Bell Labs，对你影响很大吧？

Mark：我从小吃饭桌上就是各种科学谜题。后来搬到西岸，我爸做创业，让我看到初创公司的另一面。再搬到台湾读书，又是完全不同的文化，纪律性更强。各种经历混在一起，形成了今天的我。

Ashlee：你 MIT 那届是名人辈出的超级年份吧？

Mark：是，2012 年那一年特别厉害。Jacob Steinhardt、Paul Christiano，还有后来 AI 领域很多重要的人物都在那一届。

Ashlee：你也通过竞赛认识了 Cognition 的 Scott Wu，那些在 X 上被当成数学 meme 的人。

Mark：对，我们就在竞赛社区认识。

Ashlee：你从 MIT 毕业后，直接去了华尔街。

Mark：老实说，我对在华尔街做高频交易并没有太多自豪感。当时在 MIT，许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”，只要足够聪明，你就能获得对应的收益。然而文化上我并不适应。在那种环境里，当你发现了什么突破，第一反应是把知识藏好，因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统：即便某家 HFT 公司的算法快了一点，外界其实几乎没有任何感受。我做了四五年后发现，我们始终在跟同一批对手竞争，大家都稍微变快了，但世界并没有因此改变多少，我觉得是时候做点别的事了。

当时 AlphaGo 的比赛对我触动很大。虽然我并不下围棋，但看到模型展现出的创造性，我特别想弄明白背后的原理。

Ashlee：所以你是看到了那场比赛后，才开始关注 AI？当时你有在读论文吗？

Mark：坦白讲，没有。直到 AlphaGo 之后我才开始深入研究 AI。我的第一个目标就是复现 DQN 的结果，复现一个能在 Atari 游戏中达到超人水平的网络，那基本就是我踏入 AI 的起点。

Ashlee：你是在上班后业余时间做这些吗？我记得我大概 2018 年采访 George Hotz，他在自家车库做自动驾驶。他当时说，AI 仍然很年轻，只要读 10 到 30 篇论文，就能掌握整个领域。当然他的话未必完全准确，但 AI 的确很特别：历史很长，但此刻却异常“浅”。

Mark：确实非常“浅”。我常建议对 AI 望而却步的人：只要花三到六个月做一个项目，比如复现 DQN，就能很快触达前沿。过去几年虽然增加了一些深度，但远没有理论数学或物理那么深奥。

Ashlee：你觉得 AI 会像数学一样，天才都在二十几岁出现突破吗？还是这是一个可以做一辈子的领域？

Mark：我认为完全可以持续做下去。OpenAI 的文化确实偏年轻，但做好研究并不需要年轻。年轻人确实因为“先验少”，更容易突破传统路径，但随着经验增长，你也会形成自己的视角和框架，这既是优势，有时也会让你更固化。

OpenAI 的内部故事

Ashlee：你在 2018 年加入 OpenAI，那时公司应该只有 50 人左右？

Mark：差不多 20 人而已。我是以“研究员 resident”的身份加入的，也就是 OpenAI 会从其他行业招人进来集中训练半年，像压缩版 PhD，然后再参与更深入的研究项目。我很幸运能向 Ilya 学习，他基本决定了我的项目、学习路径和方向。

Ashlee：但如果去 LinkedIn 看，你的第一份 OpenAI 的头衔看起来像是“前沿研究主管”。

Mark：并不是，我做了三年左右的个人研究（IC）。当时我主要研究生成式模型，因为那是 Ilya 最关注的方向。之后我才开始带团队。

Ashlee：公众最早看到的大项目可能是 DALL·E，对吗？

Mark：是的。其实在那之前，我最自豪的项目之一是 Image GPT。它证明了 Transformer 不止能处理文本，也能在图像上学到强大的表示能力，是 DALL·E 的前身。而另外一个我非常自豪的项目是 Codex，我们搭建了代码模型的评估体系，也探索了如何让语言模型在代码任务上达到高水平。

Ashlee：那你当初为什么选 OpenAI？是因为当时这个小公司里有很多有意思的人吗？没钱、没人、前景很不确定，居然要挑战 Google 这种巨头。

Mark：我觉得一个组织要成功，需要两个条件：宏大的愿景和与之匹配的天才。当时 OpenAI 两者兼具，这非常罕见。而且我认识 Greg，我们以前参加过数学竞赛，我给他发消息说：“我不确定自己是否适合，但这里似乎在做重要的事情。”

Ashlee：但你从外部加入，然后现在成为研究负责人，这听起来还是很不可思议。

Mark：对我来说也很不真实。从 IC 转管理者，我其实非常犹豫。不过一路上我遇到的管理者都非常支持我，他们看到了我的潜力，会主动为我争取机会。我从没主动要求升职，每次都是自然而然的结果。管理这件事，本质上主要靠经验累积，而 OpenAI 是一个能让你不断获得“经验值”的地方。

Ashlee：我认识的你是一个温和、稳重的人。但 OpenAI 过去几年经历了很多戏剧性的风波，甚至像“权力的游戏”。你要在这种环境里做管理，这和你的性格几乎相反。

Mark：老实说我在 OpenAI 算是很幸运。一路上都有人支持我、给我建议，也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。

Ashlee：不过你在“政变事件”那段时间做了两件很重要的事：你先帮助研究员们统一意见、促成那封让 Sam 回归的请愿信。然后一两天之后，你在 Chelsea 家做了一次很重要的短讲。这两个瞬间对我而言都很震撼，在危机时刻挺身而出、凝聚团队……这对你意味着什么？

Mark：对我而言，那确实是一个关键时刻。“风波”后的几天里，整个团队都处在高度不确定中。那段时间，我、Nick 和 Barrett 都感到一种责任感：竞争实验室正不断向我们的研究人员打电话，试图把他们挖走。我当时给自己设下目标：不能失去任何一个人。最终我们也做到了。

那几天，我们每天都把自己的家打开，让同事随时过来，释放焦虑，同时保持他们与领导层的沟通渠道畅通，让大家知道自己仍然能发挥作用。渐渐地，团队形成了一种“我们一起面对外界”的精神，大家都在思考：如何向世界传达“我们仍然站在一起”。

当时我在几处房子之间来回协调，我们提出了组建请愿书的想法，表达我们支持 Sam 的立场。大概凌晨两点，这个想法最终确定下来。到第二天早上，研究团队已有 90% 以上的人签署，到最后接近一百人都签了。那一整晚，大家都在互相打电话确认：“你参加吗？”

Ashlee：但你当时的处境应该挺尴尬的吧？毕竟一开始似乎是 Ilia 和 Sam 立场对立，而 Ilia 又是你的导师。后来 Ilia 又回来了……那会不会让你很尴尬？

Mark：不会说尴尬，但确实很困难，因为那是个信息极少的环境。那时候确实很容易怀疑：Sam 到底做了什么？但换个角度想，如果真有严重问题，Greg 和 Jakub 这种极其正直的人会因此辞职吗？我觉得肯定有部分事实被误解了。

Ashlee：Jakub 在那里工作很久了。关于他，有什么是外界不了解的？

Mark：他其实非常幽默，带着强烈的讽刺感，我常常被他逗得发笑。和他共事让我最珍惜的一点，是我们之间高度的默契。进会议室后，我们能迅速碰撞出一致的结论，然后分别负责路线图的不同部分。

说到“把团队留在一起”，我现在仍有这种使命感。我认为我们仍然“被攻击着”，任何公司想要招人时，第一选择往往是从 OpenAI 下手，因为他们想要我们的专业能力、愿景和世界观。OpenAI 造就了今天 AI 领域最多的明星研究员，因此我们对团队有强烈的保护欲。只要有人来挖，我就会尽一切努力确保团队感到被重视、被理解，并清楚自己在整个路线图中的位置。

Ashlee：在写书、回顾历史的过程中，我一直在想：这是否是一个高度依赖“天才个体”的领域？从 2012 年 Ilia 的突破，到 2017 年 Transformer，再到 Alec Radford……似乎每隔几年就有那么 8–10 个关键人物在推动整个领域。如果他们离开了，比如 John Schulman、Alec 离开了，那对团队不是巨大损失吗？但你们之后仍然在推理和其他方向取得了突破。

Mark：我并不同意“完全依赖明星个体”这种说法。OpenAI 的确会从上层做方向性押注，但我们内部有非常深厚的自下而上文化，很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展，是非常美妙的事，推理方向就是典型例子。

Ashlee：但行业确实会花大价钱去挖“明星”，比如 Google 花巨资请回 Noam Shazeer。

Mark：当然，人才既有培养也有争夺。反过来，我从 Meta 学到的一点就是：OpenAI 自己也可以非常积极地争取顶尖人才，我自己也从他们那套激进的招聘策略中学了几招。归根结底，我们的目标始终是：组建一支最强的团队，完成我们要实现的使命。

Ashlee：这个圈子其实很小，你们虽然竞争激烈，但私下也都是朋友。那边做研究，这边又试图挖对方的人，这不是很微妙吗？

Mark：这是残酷竞争的行业，但我个人也非常享受竞争。我讨厌失败，因此无论是研究还是招聘，我都会全力以赴。

Ashlee：这让我想到半导体行业早期也是这样：工程师们不断突破物理极限，在酒吧里分享最新发现，同时又被各家疯狂挖角。

Mark：是的，任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应：一种是建立深度信息隔离层，严密保护一切；另一种是继续保持开放文化，用速度压制对手。OpenAI 明显是第二种，我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法，这才是最快的前进方式。

Ashlee：那现在你、Sam 和 Jakub 之间的合作方式是怎样的？大家都能看出来 Sam 更偏研究，而你们两位更深度参与技术细节。

Mark：我们三个人联系非常紧密，我每天都会和他们交流。Sam 热爱研究，也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”，比如潜在问题、工作环境中的隐形障碍，他能帮我把这些提前揪出来。Jakub 和我则更专注于如何设计组织、让团队以最高效率协作，比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。

Ashlee：Sam 平时看论文、和你们聊天吗？

Mark：对，他会看论文，也会经常与研究人员交流，理解他们的研究方式。当然，他还负责范围远超研究的事务。

OpenAI 到底发现了什么？

Ashlee：我知道你们最近在预训练方面似乎有了重大突破，也明显比之前更有信心，能透露一下你们到底发现了什么吗？

Mark：我对过去两年的总体观察是：我们把大量资源投入到“推理”这一能力的研究上，努力理解并打磨这个核心原语，这条路确实走通了。但副作用是，模型的其他重要环节，特别是预训练和后训练，相对失去了些“肌肉”。过去六个月里，Jakub 和我花了很多时间把这部分能力重新练起来。

我一直把预训练看作一种“肌肉”，必须持续锻炼：信息要保持最新，团队要在优化、数值计算等前沿方向持续投入，同时也要确保有足够的心智关注度。所以我最近一个重要工作，就是引导公司内部的讨论重回预训练，我们认为预训练还有极大空间。

外界有人说“Scaling 已死”，但我们完全不认同。某种意义上，行业现在把注意力集中在 RL，这反而给了我们“信息优势”，因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力，我们最近训练出的模型明显更强，这也让我们对包括 Gemini 3 在内的接下来一系列发布更有信心。

Ashlee：我脑中对这段历史的画面是这样的：你们跑得太快了，整个领域也跑得太快。突然之间，我们从互联网收集到巨量资料，把它扔进一台超级计算机，于是 ChatGPT 诞生了，然后所有人就开始疯狂冲刺。但对于不紧密跟进的人来说，问题可能是：最初那波数据其实非常粗糙，只是稍微清洗了一下就丢给模型。而现在你们说在“学习更高效地塑造数据”，但外界很难理解到底之前的“错误”是什么。

Mark：你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式，模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限：当你模仿人类时，你很难真正超越人类。

这也是为什么 RL 重要，它让我们有机会把模型推向更难的任务，让它从人类范式之外思考，拓展能力边界。但随之而来的，是一个更困难的问题：如果我们要让模型真正超越人类，该怎么衡量？

例如，在科学领域，当能力达到了“超人类”水平，人类真的能够判断 A 比 B 强吗？如何判断一个“超人类数学家”比另一个更厉害？我们需要更好的评估体系。迄今为止，我们很幸运，IMO、IOI 等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类，这些测验本身就失效了。

Ashlee：我常看到那些竞赛牛娃后来进 Google、Facebook，但他们不一定是最顶尖的工程师，也不一定愿意或适合进入工业界。所以单纯在竞赛上拔尖并不等于就是“最强工程师”。那如果未来 AI 在这些竞赛上表现极佳，我们到底能从中学到什么？

Mark：这正是我喜欢 AI 研究的地方，它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是：你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断，例如路线选择、资源配置、项目方向。如果判断错误，很快就会失去团队的信任。

我很享受与这样一群极度技术驱动的人共事，他们都深度投入、极高水准，与他们讨论技术本身，是一件真正的乐趣。

Ashlee：在我心里，Transformer 是一次巨大飞跃，而“推理能力”的突破甚至可能更惊人。最近与你、Greg、Jakub、Sam 交流时，我感觉你们说过去三到五年投入的大量工程工作，其实还没有完全显现出来。你们现在看到的，是另一场类似 Transformer 的跃迁吗？

Mark：我认为是的。比如在 GPT-5 时，我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力，我们正在快速扩大投入。关键仍是维持一组多样化的探索，把最有实证价值的方向加大力度推进。

Ashlee：但两周前，Karpathy 在播客上说 AGI 可能要十年；上周 Dario 又说更接近两年。行业内部声音完全不一致。你怎么看？

Mark：Twitter 很喜欢那种“结束了！”“又回来了！”的戏剧化循环。但 AGI 本身连定义都不统一，在 OpenAI 内部，你把所有人叫到一个房间，也不可能给出一个完全一致的 AGI 定义。

我更把它类比成工业革命：你说纺织机是工业革命，还是蒸汽机是？视角不同，切点也不同。对我而言，我更看重的是：模型是否开始产出真正新的科学知识？是否推动科学前沿？从今年夏天以来，我感觉在这方面出现了巨大的相变。

Ashlee：你说的新科学成果，是不是指最近那些生物科技初创公司，比如一次性设计抗体、分子结构那类突破？还是你指的另有其事？

Mark：那次与物理学家的交流给了我很大启发，我回去后就想，我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家，能够获得最大程度的支持。我知道其他公司也在推动科学前沿，但我们和谷歌等机构的不同之处在于：我们希望让所有科学家都有机会借助工具做出诺奖级突破，而不是让 OpenAI 自己拿诺奖。我们要构建的是通用的工具与框架，让科学界整体都能加速。

Ashlee：你能具体说说有哪些让你兴奋的发现吗？

Mark：当然。你可以去看 Sebastian 的推特，他最近发了关于 GPT-5 在一个开放凸优化问题上取得进展的论文，这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”，但远比这复杂。

Ashlee：这两天听到有人声称“我们做出了 AI 科学家”“我们一次性设计出增强型蛋白质”，这些公司里不少是真正的科学家，我也多少会兴奋。但数量实在太多，我很难判断哪些是真正的突破、哪些只是噪音。

Mark：如果这些突破发生在生物领域，我一点也不意外。尽管我主要的专业在计算机科学和数学，但我们团队里有顶级专家，他们确认了不少是真正的科学发现，生物学里出现类似情况并不令人惊讶。

Ashlee：但你描述的情况似乎与最近几周不断变化的公众叙事不同。比如一些播客里的人会说 AI 没什么进展，都是虚幻的。如果这些发现是真的，公众应该会感受到变化才对。

Mark：我们在筹建 OpenAI for Science 时与许多物理学家和数学家交流过，其中大多数人对 AI 其实并不乐观，他们觉得模型不可能证明新定理。但正因为如此，我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快，我们希望为他们提供工具，也希望说服更多研究者：这是未来科学研究的正确方法。

Ashlee：每个人对 AGI 的定义不同，但你似乎认为未来一两年会发生非常剧烈的变化？

Mark：“AGI 两年后到来”一直是个梗，但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果，让我真正产生了信念。在 OpenAI 内部，我们设定了两个非常具体的目标：

第一，1 年内改变研究方式：让研究过程可以依赖 AI 实习生。也就是：研究者负责提出想法，模型负责实现、编写代码、调试。

第二，2.5 年内让 AI 能进行端到端研究。这意味着：研究者只确定方向，模型完成从构思到执行到验证的全过程。

与今天相比，这是完全不同的研究范式。

算力、GPU 与 AI 硬件

Ashlee：在与 OpenAI 的人聊时，我常听到一句话——基础设施扩张得很快，模型只要算力再提升 10 倍就会变得更好。但也有人说从 GPT-4 到 GPT-5，你们算力增加了，却没有看到预期的效果。可你们的叙述又让我觉得：其实我们还没真正看到“10 倍算力飞跃”带来的结果。

Mark：有人问我：“你们真的需要这么多算力吗？”我总是被这个问题震惊，因为我每天面对的都是海量算力需求。如果我们今天多 3 倍算力，我能立刻高效用完；如果多 10 倍，大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多 GPU 吗？”对我来说毫无意义。

Ashlee：那除了算力需求，你们对模型规模继续扩大是否同样乐观？你们是否看到，类似“规模效应”会再次推动巨大跃升？

Mark：是的，我们非常明确要继续扩大模型规模；而且我们有突破性的算法能支持更有效地扩展。我认为 Gemini 3 也很令人印象深刻，但从细节看，比如 SWE-bench 等指标，他们在数据效率方面仍没有重大突破，而这是我们非常强的部分。

Ashlee：我看到了一份泄露的备忘录，Sam 对 Gemini 3 的语气听起来相当严肃，仿佛是一个转折点。你们内部应该都看过吧？

Mark：是的，但你要知道，Sam 的工作之一就是不断在组织里注入紧迫感，我也一样。我们必须保持专注，加快节奏。Gemini 3 是谷歌该做的正确押注，但与此同时，我们也有明确的策略与回应，并且我们有信心执行得更快。

Ashlee：你们会参与像 Jony Ive 的 AI 设备这样的项目吗？比如研究团队在其中扮演怎样的角色？

Mark：是的，事实上，就在昨天我和 Jony Ive 以及几位研究负责人一起吃了晚饭。我一直在思考未来的 ChatGPT 会是什么样子。现在的交互方式对我来说还很“笨”，非常非思维原生：你给一个提示，它回答；你不提示，它就停止思考。而且如果你再给出类似的问题，它会重新花一样多的时间推理，仿佛没有从第一次的上下文中变得更聪明。

未来显然应该不同。记忆会是核心能力：每次你使用 ChatGPT，它都会学到关于你的更深层次信息，思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来，它会变得更好。我认为这会彻底改变“设备”的范式，因此我们必须思考：如果 AI 的主导逻辑是持续学习与反思，那硬件设备应该怎么重新设计？这就是和 Jony 合作非常有价值的地方。

Ashlee：你们已经有设备原型了吗？

Mark：我不能说有没有，也许有，也许没有。

Ashlee：我想到的是：苹果时代的核心是“硬件品味”，这是 Steve Jobs 极度执着的东西。而你们似乎都没有真正做过硬件产品。Sam 的审美看得出来不错，但还没到“乔布斯式品味”的程度。硬件是极其依赖品味的，你们怎么确定自己能做出好产品？

Mark：坦白说，我们不需要自己拥有那种品味，那是 Jony 的价值，他就是我们关于“品味”的判别器。而且很有趣的是，我们发现设计流程与 AI 研究流程之间有深刻的相似性：大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅：他们根据我们即将发布的能力去思考外形，我们根据他们的外形需求去思考能力。

Ashlee：我有时会担心：一群数学与模型天才是不是适合造“下一代电脑”。但听你这么说，似乎你们形成了一个合理的搭配。

Mark：确实，打造 AI 能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题：“ChatGPT 最喜欢的数字应该是什么？”这种问题能检验模型的“人格品味”一致性。

最后的问题

Ashlee：ChatGPT 建议我问你：如果五年后回看，现在有哪些“还很脆弱”的想法，你直觉认为可能是大突破的核心？

Mark：确实有几个，我非常期待把它们规模化。主要集中在预训练，一些在 RL，还有一些是如何把所有组件整合在一起的整体性想法。

Ashlee：你觉得现在外界对 OpenAI 最大的误解是什么？

Mark：最重要的一点：OpenAI 从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是 AGI，其他所有产品都会自然从研究突破中流出。

我们关心三件事：自动化 AI 研究本身、自动化科学发现、自动化经济性工作。今年最大的更新，其实是第二条：科学研究的自动化开始真实发生了。

Ashlee：你几岁了？还有社交生活吗？

Mark：34，快 35。老实说，没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点，那就必须抓住它。Barret 离开去创业之后，我在办公室睡了一个月。那段时间我非常强烈地感到：我必须保护研究，这是我最在乎的东西。

Ashlee：DeepSeek 事件之后，你们怎么看开源模型？

Mark：那是第一次让我深刻意识到：必须坚定走自己的研究路线。DeepSeek 当时引发巨大舆论，大家都在问：“OpenAI 落后了吗？要怎么回应？” 但我们做得最正确的一件事，就是继续执行自己的研究规划。DeepSeek 的工作非常强，但主要是对我们 O 系列理念的复刻。关键是，我们必须继续创新。

Ashlee：你认为 500 人是一个最优规模吗？随着公司扩大，这个数字会增长，还是说为了同时推进若干重大想法，500 人已经是最合适的规模？

Mark：坦率说，我认为甚至可以更少。尤其在我们开始引入 AI 研究员或 AI 实习生之后，我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度，我做过一个实验：完全冻结研究部门的新增人头。如果团队想招人，就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀，并保持极高的能力标准。

Ashlee：我记得之前在一次会议上，你和 Jakub 的观点比较一致：你们认为大家过度关注“谁在项目里获得署名”这个问题。AI 起源于学术界，在学术环境中署名极其重要。但那次会议里，你似乎在强调：大家可能对这个问题有点太执着了。是这样吗？是不是因为现在 OpenAI 已进入新的阶段，在公司环境下，这件事不再那么重要？

Mark：我认为过度关注“功劳归属”是件坏事。但另一方面，我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度，但 Jakub 和我最终决定 OpenAI 必须保留署名。反对意见常常是：“你们把顶尖人才的名字摆在台面上，其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到，我们应该持续培养 AI 领域的明星研究者，也应该让真正做出贡献的人建立起自己的声望。

Ashlee：但你似乎又同时认为，研究员个人不应该过分执着于署名了？

Mark：现场确实有人表达过那种观点，但其实 Jakub 和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳，哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说：OpenAI 可能是整个行业里，最愿意给研究者公开署名的公司，没有之一。

Ashlee：你 2018 年加入时，OpenAI 还是一个研究导向、非营利的组织，创始人希望它成为 Google 的平衡力量，并以“确保 AGI 安全到来”为目标。而你来自华尔街高频交易，只是被 AI 的进展吸引过来。说实话，你并不“必须”对 AGI 的哲学问题深怀使命感。那你究竟为什么要做这件事？

Mark：我同时管理 OpenAI 的对齐团队。坦白说，未来一两年最重大的难题，就是对齐问题。在这个研究方向上，OpenAI 在过去一年做出的成果可能是整个领域里最好的。

原因之一是：在 RL 与算力增加后，我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险，因为模型最终给你的答案可能是“正确的”，但它得到答案的过程却完全偏离我们能接受的路径。

随着模型替我们执行的任务越来越复杂，理解它的思维过程将变得极其关键。

Ashlee：这和机械可解释性有关，也就是试图理解模型内部机制的问题。核心问题是：我们的理解能力能否跟得上模型复杂性的提升？还是会最终被模型甩得太远？

Mark：我们在发布 O1 时做了一个关键决策：我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”，它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预，我们仍然能“看到”模型真实的思维轨迹，并将其作为研究对齐的重要工具。

几个月前，我们与 DeepMind、Anthropic 合作发表了一篇论文，探讨未来如何通过这种方式理解模型。我确实担心未来某一天，模型给出非常有说服力的答案，但我们无法确认它是否真正与人类的价值一致。

因此有很多值得探索的方向，例如：能否设计一种博弈或环境，让模型在互相监督、共同演化的过程中，唯一稳定的均衡，就是“诚实”？我认为这里还有大量非常重要的研究要做。

参考链接：https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s