标签 推理模型 下的文章

整理 | 华卫

 

“一圈又一圈的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许方向本身就站不住脚。”

 

近日,知名 AI 专家、认知科学家 Gary Marcus 在一场访谈中愤愤表示,“整个世界都在全力押注神经网络,还在这个我始终觉得毫无道理的理念上投入了巨资,但大语言模型根本无法带我们抵达 AGI 这一终极目标。”

 

这场对话由曾因成功预测 2008 年金融危机而闻名的传奇投资人、华尔街最具影响力人物之一 Steve Eisman 发起,他与 Marcus 共同探讨了当下 AI 进展的方方面面,包括商业路径、社区现状和未来方向等。Marcus 认为,大语言模型已经达到了收益递减的阶段。并且,他指出,现在 AI 领域根本没有技术壁垒了,所有 AI 企业的研发思路基本一致。

 

对于大量人才从大厂离职去办初创公司的现象,Marcus 直言道,“如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。”在他看来,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。

 

值得一提的是,他认为,OpenAI 最终会成为 AI 领域的 WeWork,这家公司原本计划以 500 亿美元的巅峰估值风光上市、却在一夕之间破产。“我觉得最终 OpenAI 可能会被微软这样的企业收购。OpenAI 每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。”

 

谈及各家模型的未来,Marcus 的预测是,“大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。当产品变成商品后,价格必然下跌。”

 

以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。

 

2 万亿美元押注 Transformer,根本“毫无道理”?

 

Steve Eisman:大家好,我是 Steve Eisman。今天我们请到了一位特别的嘉宾,他就是 Gary Marcus。他是大语言模型的坚定质疑者,而大语言模型正是整个 AI 领域的核心根基。接下来,Gary 会和我们分享他的观点,聊聊大语言模型到底是什么。

 

Gary Marcus:谢谢你的邀请,也感谢一两个月前你在 CNBC 对我的盛赞。

 

Steve Eisman:不客气,这都是你应得的。在正式开始之前,我的观众大多还不了解你,不如先和大家说说你的背景,让大家知道你在这个领域发表观点是完全有底气的。

 

Gary Marcus:我这辈子几乎都在研究智能相关的问题。我 10 岁学会编程后,就开始涉足 AI 领域了。我的职业生涯中,很大一部分精力都用在研究自然智能上,比如人类的智能、还有孩子是如何学习语言这类问题。我在 MIT 的博士论文围绕两个方向展开,一个是儿童的语言学习机制,另一个就是神经网络。神经网络是 AI 领域的一种特定研究方法,也被用于人类思维的建模,它的设计灵感可以说和大脑有一点松散的关联。这其实是个很巧妙的营销说法,会让人觉得它是完全基于大脑研究的,但事实并非如此,二者只是浅层关联。早年间神经网络就曾风靡一时,我在上世纪 90 年代就研究过这类模型,发现它们并不能很好地模拟人类的思维方式,但我还是投入了大量精力,想弄清楚它们的实际工作原理。

 

2012 年深度学习重新兴起时,我当时就觉得,这些东西我早就研究过了,和我博士论文里的内容高度相似。我在 2001 年写过一本名为《The Algebraic Mind》的书,在书里我其实就预判到了如今大语言模型出现的幻觉问题,还有一些推理层面的缺陷,这些都是我们今天要探讨的话题。所以当深度学习再次成为热点时,我一眼就看出了其中的诸多问题,对我来说这些问题都很熟悉。2012 年,我在《The New Yorker》上发表了一篇文章,标题是《Is Deep Learning a Revolution in Artificial Intelligence?》,我在文中写道:“深度学习确实很有意思,我很佩服 Jeff Hinton,他能长期坚持自己的研究方向。”

 

Steve Eisman:Jeff Hinton 是谁?

 

Gary Marcus:他是去年诺贝尔生理学或医学奖的得主,也是深度学习领域的核心奠基人之一。

 

Steve Eisman:原来如此。

 

Gary Marcus:他的一些学生,最近也开始认同我的观点了。Jeff Hinton 确实是这个领域的大人物,在神经网络一度无人问津的时期,是他一直坚守,这份坚持值得肯定。但当然,他的研究并非全无可议之处,我们这里就不细谈了。他让神经网络重获关注,而更值得你的听众了解的是,真正让这个领域迎来爆发的,是他的学生 Ilya Sutskever,或许还有另外几位研究者。他们找到了方法,能让这套研究了许久的系统落地应用。要知道,神经网络的研究最早能追溯到上世纪 40 年代,Jeff Hinton 也在上世纪 80 年代中期做出了不少重要贡献。而这些研究者发现,借助英伟达研发的图形处理器(GPU),就能实现神经网络的高效运行。

 

彼时的英伟达,生产 GPU 主要是为了满足电子游戏的需求。这些原本为游戏设计的 GPU,核心优势在于并行计算,简单来说,就是能同时处理多个计算任务,而非按顺序逐个完成。传统的中央处理器(CPU),运行软件程序时基本是逐行执行的,虽然现在的技术已经有了改进,但这仍是计算机科学入门课程里会教的基础原理。而 GPU 能把一个复杂问题拆解成无数个小任务,同时进行处理,它的设计初衷就是为了计算机图形处理。比如要渲染电子游戏的下一帧画面,如果逐行处理,耗时会非常久,而用 GPU 的话,能同时处理整个画面,一个子处理器负责一个像素点,以此类推。不得不说,GPU 在图形处理上的表现堪称完美,我偶尔也玩电子游戏,深知 GPU 的算力有多惊人。

 

Ilya Sutskever,还有另一位我一时想不起名字的论文合作者,他们证明了 GPU 是运行神经网络的绝佳载体,至于神经网络的具体定义和实际意义,我们之后可以再聊。他们的这一发现,让神经网络的运行实现了两大突破:一是速度大幅提升,二是能处理海量数据。在此之前,六十多年的神经网络研究做出的基本都是些玩具级的模型,而他们证明,借助 GPU 这项技术能真正实现规模化的实际应用,能在更大的维度上落地。可以说,我们如今看到的所有深度学习成果,都源于 2012 年的这次突破。

 

而在这一突破出现后,两件事接踵而至:《The New York Times》刊发了文章,盛赞深度学习的惊人潜力;第二天,我就在《The New Yorker》的博客上发表了文章。我在文中表示,深度学习固然出色,但也存在诸多问题,它注定会在一些领域表现优异,却在另一些领域束手无策。它擅长模式识别和统计分析,这一点毋庸置疑,但人类的认知活动中还有大量的抽象思维过程。比如我们能理解家谱的逻辑,进而对现实世界的相关问题进行推理,而深度学习模型永远无法擅长这类任务,它的架构本身就不适合做抽象推理。从早年对神经网络的研究以及对人类认知机制的研究中,我早就看清了这一点。你应该读过 Daniel Kahneman 的经典著作《Thinking, Fast and Slow》吧?

 

Steve Eisman:我读过。

 

Gary Marcus:Daniel Kahneman 在书中提出了双系统认知理论,他将人类的认知分为系统一和系统二。系统一的思考速度快,是无意识的、基于统计的、本能的反应;而系统二的思考速度更慢,更具思辨性,核心是逻辑推理。神经网络本质上就相当于人类的系统一,这本身没问题,系统一也是人类认知的重要组成部分,但人类的认知还有系统二的部分。尤其是在理性思考时,我们会依赖系统二,进行更审慎、更有逻辑的推理。而神经网络模型,从始至终都不擅长系统二的这类任务,直到现在依然如此。我在 2012 年就指出,深度学习模型只能实现系统一的功能,却无法完成系统二的思考。

 

而在这之后的 14 年里,整个世界都在全力押注神经网络。这里要说明的是,我们所说的神经网络,就是如今的大语言模型,大语言模型是神经网络的一种形式,抱歉,我之前没明确说明这一点。事实上,2012 年时大语言模型还未出现,后续又有不少技术突破,其中关键的就是 2017 年发表的 Transformer 论文,这也是大语言模型的起源。而全世界在这一领域的投资规模达到了天文数字,据我粗略估算,已经有 1 到 2 万亿美元了,全都投在了这个我始终认为毫无道理的理念上。这些研究者的想法是,只要持续发展神经网络,就能实现智能所需的一切能力,抵达 AGI 的目标,但他们却忽视了系统二的核心价值。

 

一开始,他们只是把神经网络当成一个巨大的黑箱,直到现在,还有很多人抱着这样的想法。他们觉得,只要把海量数据喂进去,就能得到一个拥有智能的系统,却从未从科学的角度深入思考过真正的智能究竟该具备怎样的架构。我认为这些人太过天真,我也一直试图指出这一点,这也让我成了这个领域里的“孤行者”。很长一段时间里,人们对我的观点不屑一顾,甚至不只是不屑,而是鄙夷。

 

Steve Eisman:没错,他们对你的态度远不止是不屑,而是赤裸裸的鄙夷。

 

Gary Marcus:我们还能举出很多这样的例子。我对他们的这种态度感到失望,这个话题我们可以聊很久。他们甚至对我公开表现出敌意,比如我了解到,OpenAI 内部还为我做了专属的表情包。

 

Steve Eisman:我也看到过这个消息。

 

Gary Marcus:某种程度上,这也算是一种认可吧,既觉得荣幸,又觉得有些离谱,你能看出来,我一直试图用平常心看待这件事。但这也能从侧面说明问题,Sam Altman 还在推特上称我为“喷子”。他们就是不想听我的观点,而我核心的观点,都写在了 2022 年发表的论文《Deep Learning is Hitting a Wall》里。我在这篇论文中指出,当时“规模化扩张”的理念已经开始流行,也就是通过不断投入更多数据、更多 GPU,把模型做得越来越大,他们认为只要模型足够大,就会拥有超乎想象的能力。

 

我先暂停一下,和大家解释下这个“规模化扩张”的理念。他们确实有一些数据能支撑这个观点,但这种想法依然太过天真。我把这种理念称作“万亿磅婴儿谬误”,道理很简单:一个婴儿出生时 8 磅重,一个月后长到 16 磅,并不意味着他会一直这样翻倍增长,到上大学时长成万亿磅的巨人。他们就是做出了这样天真的推断,我相信你在商业领域也经常见到这种情况。很多手握巨资的聪明人,都押注了这个理念,他们说,“我们从数据中看到了这样的发展规律,只要投入足够多的数据,就能实现真正的智能。”

 

“大模型不会思考,重构信息碎片致幻”

Steve Eisman:先稍停一下,我们倒回去说。大语言模型到底能做什么?这些研发者又认为它们本该实现什么功能?我真想把这个问题彻底讲清楚。

 

Gary Marcus:你这个问题问得特别好。大语言模型的核心工作原理,就是预测序列中的下一个内容。你可以想想苹果手机的自动校正功能,原理差不多,虽说那功能有时候能把我逼疯,你继续说。这个功能并非总能生效,核心逻辑就是你在输入句子时,它会预判接下来可能要打的内容。比如你打出“在……见我”,它大概率会推测你想说“在餐厅见我”。它会对人类的语言表达做统计分析,效果还算过得去,但绝非完美,偶尔还会出错,让人恼火,这就是我们说的自动补全。

 

而我把大语言模型称作“超级版自动补全工具”,它们只是用一种特殊的方式完成这种预测,这就是其最本质的功能。它们的运作方式里还有些有意思的点,其中一个就是会把所有信息拆解成细碎的片段,之后再重新整合,这就导致信息之间的关联会被切断。也正是因此,它们才会时不时出现幻觉现象,凭空编造内容。

 

Steve Eisman:我们稍后再细说幻觉这个问题。

 

Gary Marcus:好,回头再聊。幻觉是这类模型的典型错误之一,早在 2001 年,大语言模型甚至还没被发明出来的时候,我就指出过这个问题。我当时就说,如果一直沿着这个方向研究下去,必然会出现这个问题,而事实也确实如此。大语言模型把信息拆分成碎片,再通过这些碎片预测后续内容。如果用整个互联网的内容对它们进行训练和数据投喂,它们的表现会好得让人意外,因为几乎任何你能想到的问题,注意,这里的“几乎”是关键,几乎所有问题,此前都有人提出过,也有人给出过答案。从某种程度来说,这些模型就是功能强大的记忆机器。

 

就在前几天,《大西洋月刊》还刊发了相关的文章,而且一直以来都有大量证据能证明这一点。比如你输入《哈利·波特》的部分内容,它能直接补完整段文字,本质上就是因为它记住了这些内容。如果一个模型能记住整个互联网的信息,那确实算得上很厉害。比如你问“道奇队在搬到洛杉矶之前,主场在哪”,网上有大量相关表述,它会告诉你是布鲁克林,大概率能给出正确答案。但仅仅依靠这种方式,模型根本无法形成抽象的概念和思想,还会因为信息碎片的拆解和错误整合出现各种问题。

 

Steve Eisman:那我们现在聊聊幻觉吧。到底什么是 AI 幻觉?举个例子,再说说出现这种情况的原因。

 

Gary Marcus:幻觉就是模型凭空编造内容,还无比笃定地呈现出来,但这些内容根本不符合事实。

 

Steve Eisman:那给我们举个例子。

 

Gary Marcus:我最喜欢的一个例子和 Harry Shearer 有关,你可能听过他的名字,看过《摇滚万万岁》吗?

 

Steve Eisman:当然看过。

 

Gary Marcus:他在这部影片里饰演贝斯手,巧的是,他还是我的朋友。他出演了《摇滚万万岁》,还和 Christopher J. Guest 合作了多部影片,参演了《楚门的世界》,还为《辛普森一家》里的伯恩斯先生等多个角色配音,他的知名度还挺高的,这点对接下来的故事很重要。先倒回说个题外话,我之前遇到的最典型的幻觉案例,主角是我自己。有人发给我一份我的人物简介,里面说我养了一只叫 Henrietta 的宠物鸡,但我根本没养过,这就是个很典型的幻觉案例,纯粹是凭空编造的。后来发现,有位插画师大概叫 Gary Oswald,写过一本关于 Henrietta 去上学的书,模型不过是把这些碎片化的信息胡乱拼凑在了一起。

 

Steve Eisman:那为什么会出现这种幻觉呢?

 

Gary Marcus:这就和我刚才说的信息碎片化拆解有关了。我再给你讲讲 Harry Shearer 的那个例子。我总拿宠物鸡 Henrietta 的事举例,有一天他给我发消息,说他没遇到过宠物鸡这种事,却遇到了和自己相关的幻觉案例。他比我有名多了,至少以前是。我当时也算小有名气,而模型给出的信息里,说他是英国的配音演员和喜剧演员,但他根本不是英国人。你只要花两秒看一下维基百科,就会发现他出生在洛杉矶。他名气不小,你也能在烂番茄、互联网电影数据库上查到他的资料,他接受过很多采访,也聊过自己的成长经历,他小时候还在洛杉矶的《杰克·本尼秀》里当过童星,想找到正确的信息一点都不难。

 

我们会错误地把大语言模型当成和人类一样拥有智能的个体,但实际上,它们所做的只是重构信息碎片之间统计层面的大概率关联,所以难免会出错,这种重构过程也常会出现偏差。Harry Shearer 这个案例就是如此,模型其实就是在构建一个信息集群,用统计学的方式预测各类信息之间的关联。而现实中确实有很多英国的配音演员和喜剧演员,比如 Ricky Gervais、Don Cleeve 等等。模型就把这些信息混为一谈了,这种信息融合的方式整体来看效果还算不错,但你永远无法确定它给出的某一个具体信息是准确的,所以幻觉现象才会频繁出现。

 

有人专门追踪过相关的法律案件,发现律师提交的辩护状里,有很多引用的判例都是模型编造的,根本不存在。我第一次关注这件事时,他已经发现了约 300 起这样的案件,三个月后再看,数量涨到了 600 起。这些律师不仅用 ChatGPT 这类工具代写文书,还因此被法官发现,受到了处罚。模型会出错,而最危险的是,这些错误还很容易被忽略,人们根本发现不了。还有一个例子,CNET 是最早用 AI 写稿的媒体之一,他们首批用 AI 写的 75 篇文章里,有近一半都存在错误,编辑们却没发现。因为这些文章语法通顺、格式规范,也没有拼写错误,人们很容易就放松了警惕。

 

我把这种现象称作“看着没问题效应”。大语言模型带来的这种效应,还催生了一个新词汇,我真后悔不是我发明的,叫“低效工作产物”。这个词大概是去年由几位教授提出的,指的是人们用 AI 写报告、提交给雇主,表面上看没什么问题,实则漏洞百出,因为大语言模型根本不具备真正的理解能力。

 

Steve Eisman:你的意思是,大语言模型并不会思考。

 

Gary Marcus:它们确实不会思考,只是把统计学上大概率关联的内容拼凑在一起。

 

Steve Eisman:只是简单拼凑。

 

Gary Marcus:没错。我还喜欢用“黏合”这个词,它们只是把信息黏合在一起。从统计学角度来说,大部分内容的拼凑是合理的,但总有一部分是错误的,而这些模型根本无法区分对错,也不会主动告知你。它们永远不会说,“维基百科显示 Harry Shearer 出生在洛杉矶,但作为大语言模型,我感觉他可能出生在伦敦,你可以去核实一下”。它们从来不会给出这样的提示,只会把所有内容都当作百科全书里的标准答案呈现出来,无论真假,这也是这类模型的危险之处。

 

Steve Eisman:确实是这样。

 

Gary Marcus:这类问题其实有很多,这个案例属于另一种情况,但也和模型的本质缺陷有关。这个问题的根源在于,所有大语言模型都有数据截止日期,它们的训练都是在某个特定时间点完成的,核心模型所掌握的信息,也只到这个时间点为止。研发者会给它们加各种补救措施,比如接入网络搜索功能,但这些补救措施和核心模型的融合效果都很差,不同系统的表现略有差异而已。这类模型最大的问题就是无法应对新事物、新情况,也是它们最根本的缺陷。早在 1998 年,我就通过研究早早发现了这一点。如果一个模型本质上只是个功能强大的记忆机器,当你向它输入一个超出其训练数据范围的内容时,它就会失灵。

 

有个例子特别能说明问题,具体细节我不太清楚,但特斯拉的 AI 系统也大量采用了这种记忆式的运作方式,而且其系统的复杂程度并不高。有人用过特斯拉的召唤功能,你应该记得马斯克说过,未来可以从纽约远程召唤洛杉矶的特斯拉,但现在显然做不到,不过据说能在停车场里召唤车辆。有人在一场航空展上试过这个功能,你能在油管上找到相关视频。这个人召唤自己的特斯拉,想在航空展上秀一下,结果车子径直撞上了一架价值 350 万美元的私人飞机。

 

原因就是,特斯拉的训练数据里,根本没有教系统如何应对飞机,毕竟谁会专门训练汽车躲避飞机呢?系统对世界没有形成通用的认知,比如“不要撞上挡路的大型贵重物体”,它根本不懂这些,只会识别训练数据里的自行车、行人等目标,它的识别分类里根本没有“飞机”这一项,所以才会直接撞上去。

所有 AI 企业都变了:悄悄复用经典符号式工具

Steve Eisman:那你有没有了解到,随着这场争论的风向转变,各大企业内部现在的情况如何?

 

Gary Marcus:我了解到的情况主要有几点。首先,我一直都在说,单纯的大语言模型行不通,必须结合传统的符号式 AI 技术。但之前他们都对此嗤之以鼻,觉得这套技术早就过时了,没必要用,还说人脑的工作模式本就不是这样。而现在,他们都悄悄在一定程度上采用了这项技术,比如引入代码解释器来运行 Python 代码,这些都是经典的符号式工具。说白了,他们正在偷偷把系统二的相关能力融入模型中,只是没有大肆宣扬,但这一改变确实带来了不小的提升。

 

马斯克发布 Grok 4 时的演示就很能说明问题,我还为此写过一篇文章,标题是《为何 GPT-3 和 Grok 4 无意间印证了神经符号 AI 的正确性》。文章里放了当时的演示图表,能清晰看到,正是那些他们不愿提及的符号式工具的加入,让模型的表现变得更好。如今模型的些许提升,绝大部分都来自这个原因,而非单纯的大语言模型优化,他们其实已经悄悄放弃了纯大语言模型的研发思路。而这对你所关注的商业领域来说意义重大,因为这些符号式工具根本不需要在 GPU 上运行,普通的 CPU 就足够了。

 

Steve Eisman:原来如此。

 

Gary Marcus:对我而言,从技术角度来说,这印证了我一直以来倡导的研发思路是正确的。这是第一个变化。第二个变化是,各大企业的很多人都离职去创办自己的初创公司了。你可以想想,如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。

 

所以,大量人才离职的事实就说明,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。还有一个变化,就是谷歌正在迎头赶上。就像我几年前在 Substack 专栏里预测的那样,因为现在所有企业的研发思路基本一致,这个领域根本没有技术壁垒。

 

Steve Eisman:没错,完全没有技术壁垒。

 

Gary Marcus:你和其他一些人都认为,如果所有人都在做大语言模型的规模化扩张,那么最终的赢家就是最有实力承担这笔扩张成本的企业。而放眼整个行业,谁的资金实力能超过谷歌?根本没有。

 

Steve Eisman:确实。

 

Gary Marcus:我其实也表达过类似的观点,只是表述略有不同,你的这个说法其实也没错。我当时的观点是,行业头部企业会逐渐趋同,而随着大语言模型成为标准化商品,行业内会引发价格战,服务定价会大幅下降。事实也确实如此,现在大语言模型的按 token 计费价格,已经暴跌了 99%。价格战确实爆发了,而最终的受益者自然是谷歌,这一点我当初虽然没有直接点明,但也有所预判。我大概是在 2024 年 3 月,也可能是 2023 年 8 月开始写相关文章,当时就说,所有企业都在遵循同一种研发思路,没人掌握什么独门绝技,这就意味着头部企业的产品会越来越趋同。

 

大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。这一趋势带来的结果就是,谷歌迎头赶上了,中国的企业也追上来了,Anthropic 同样不甘落后。就像你说的,当产品变成商品后,价格必然下跌。这对终端消费者来说是好事,但对企业的商业模式来说却是巨大的打击。毕竟企业原本的设想是,花巨资采购 GPU,然后靠模型服务赚回巨额利润。

推理模型进行不了逻辑分析,再升级也没价值?

Steve Eisman:我们能不能聊聊推理模型?先给我的观众解释一下,推理模型和大语言模型有什么区别?推理模型是基于大语言模型研发的吗?

 

Gary Marcus:推理模型是在大语言模型的基础上运作的,但它不会像大语言模型那样直接给出第一个想到的答案,而是会反复迭代、花费时间去推敲,试图得出最优解。至于具体的研发细节,各家企业都没有公开太多。传统的神经网络模型,在某种意义上都是一次性输出结果的,当然现在行业内对“一次性”的定义有所不同。简单来说,就是把数据输入模型后,神经网络会立刻完成一次正向传播,粗略来讲,模型中的每个神经元都会处理信息并生成对应的结果。而推理模型则会进行多次传播,这是本质上的区别。

 

我有个朋友把传统模型的输出方式称为“恒时推理”,意思是模型生成答案的时间基本固定,无论什么问题,耗时都相差无几:把数据输入模式识别器,模型会根据现有的模式给出最优解。而推理模型采用的是全新的“变时推理”模式,我之后会聊聊它的适用场景和短板,这种模式的特点是,处理不同的问题,耗时会有所不同。目前还没有企业能完全解决推理模型的所有技术难题,但在一些场景下,它的表现确实不错。

 

据我了解,推理模型的研发思路之一,就是让模型模仿人类解决问题的思考过程,毕竟这些模型本质上都是模仿系统。比如在解决几何题或代数题时,模型会刻意模仿人类的解题步骤。人类解决这类问题需要一步步推导,融合了推理能力的神经网络模型,同样需要分步骤完成。

 

Steve Eisman:那推理模型的优势是什么?又有哪些明显的短板?

 

Gary Marcus:在回答这个问题之前,我想先提一点:推理模型的成本天生就更高,因为它需要占用 GPU 更长的时间来生成答案。

 

Steve Eisman:好的。

 

Gary Marcus:那我来说说它的适用场景和短板。推理模型最擅长的,是那些能生成形式规范、可验证的数据来训练模型的领域。比如数学和计算机编程,我们可以编写程序生成各种不同的代码片段来训练模型,也能生成各类几何证明题的解题思路。这类领域之所以适合推理模型,是因为它们都属于封闭领域,相关的知识边界是明确的。

 

Steve Eisman:没错,数据库中的知识量和相关的有效知识量都是有限的。

 

Gary Marcus:对,就是这个意思。所以推理模型在几何、编程这类领域的表现最好,而在开放式的现实世界中,它的表现就差强人意了。我总会从你所熟悉的金融领域举例子,当然你肯定有更贴切的案例,比如长期资本管理公司的破产。其实那也是一种模型失效的情况,只是模型的原理不同,当时没人考虑到俄罗斯债券市场崩盘的可能性,最终导致美国金融市场出现了大幅动荡。这是因为当时的金融模型,其参数设定根本没有覆盖这类极端情况。

 

而现在的推理模型,也面临着类似的问题:它其实并不具备真正的思考能力,哪怕是关于债券的基本问题,它也无法进行真正的逻辑分析。如果用它处理的问题,和训练数据中的内容高度相似,那一切都顺理成章;但一旦超出了它的认知范围,就像我们之前聊到的特斯拉的例子,模型就会立刻失效。

 

Steve Eisman:也就是它依然无法应对新事物、新情况。

 

Gary Marcus:没错,即便升级到了新的推理模型,核心问题依然是无法处理未知信息。它只是在原有基础上做了些许改进,但本质上还是受限于对新事物的适配能力。而关键问题在于,现实世界中,大多数有价值的问题都包含着一定的新要素、新情况,并非全是已知的问题。当然,也有例外,我们确实可以用这种不擅长处理新事物的技术,在一些狭窄的领域做出成绩,比如国际象棋和围棋。这些领域的规则千百年间基本没有太大变化,有海量的历史数据可供参考,模型还能通过自我对弈生成更多训练数据。

 

但在开放式的现实世界中,比如政治、军事战略领域,永远会出现训练数据中没有的新情况。比如,如何应对一位总统授意将军用飞机伪装成民用飞机,去袭击另一个国家的行为?这种情况此前从未发生过,想要分析这类问题,根本无法依靠过往的数据,必须依靠抽象的概念思考,比如权力、外交规则、国际格局的构建逻辑等,这些都是相关领域的学者更擅长的内容。要做到这一点,模型需要接受正确的训练,具备抽象思维能力,而不是单纯依赖数据。即便是在商业应用中,比如看似简单的客户服务,也会遇到类似的问题:用户总会用全新的方式提出问题,而一旦出现这种情况,模型就会因为无法应对新情况而失效。

OpenAI 只够支撑一年,要么倒闭、要么求救微软?

Steve Eisman:假设我任命你为 AI 领域的总负责人,由你掌控所有相关企业,指导整个行业的研发方向。如果你把这些企业的负责人都召集到一起,你会告诉他们,想要实现真正的突破,需要做些什么?

 

Gary Marcus:我会告诉他们,整个行业需要更多的学术思维多样性。就像在你的金融领域,你会告诉人们不要把所有鸡蛋放在一个篮子里,要做资产配置,分散投资股票、债券、黄金、房地产等。而 AI 领域在过去这些年,就是把所有的精力都押在了一个思路上,大语言模型的规模化扩张,这是行业唯一的研发方向。不可否认,这个思路确实带来了一些成果,模型并非毫无用处,我们也确实能利用它解决一些问题,但它终究无法带我们实现所谓的通用人工智能(AGI)这一终极目标,而且这还是一种成本极高、效率极低的研发方式。你可以对比一下,我的孩子只需要少量的信息和学习,就能理解这个世界,而大语言模型却需要学习整个互联网的海量数据,二者的效率差距简直可笑。

 

这些企业花费巨资,做出的却是效率低下、可靠性堪忧,但又有一定使用价值的模型。我们需要的是其他更高效、更经济、更可靠的研发思路,企业应该投入资金去探索这些新方向。但问题的根源,其实也来自你所熟悉的金融领域:风险投资家能从那些听起来合理的投资项目中,赚取 2%的管理费。我很好奇你对这个观点的看法,因为这毕竟是你的专业领域。试想一下,作为风险投资家,如果有一个项目能让你管理一万亿美元的资金,哪怕你根本不在乎项目最终的结果,也能赚到 2%的管理费,这足以让你成为亿万富翁。我并不是说所有的风险投资家都是这样想的,我见过很多投资人,他们确实真心想推动技术进步。

 

但就像任何行业一样,很多投资人都带着功利的心态。对这些功利的投资人来说,最理想的投资标的,就是那些听起来前景广阔、无需真正落地、成本极高的项目,这样他们就能赚取巨额的管理费。我认为,这就是整个行业都沉迷于规模化扩张的原因:投资人能从中赚取不菲的管理费,而且数额极其可观。但从学术研究的角度来说,这绝不是正确的选择,最终也没有带来理想的结果,反而造成了巨额的资金浪费。风险投资家赚走了管理费,而那些有限合伙人,最终会损失大量的资金。

 

Steve Eisman:你是不是觉得,这个行业的泡沫快要破裂了,还是说现在根本没法判断?

 

Gary Marcus:其实炒股的那句老话你我都懂,市场保持非理性的时间,可能比你保持偿付能力的时间还要长。

 

Steve Eisman:没错。

 

Gary Marcus:我去年用一个比喻形容当下的情况,就像《兔八哥》里的歪心狼跑到了悬崖边,它不往下看,就不会掉下去。当然这不符合物理规律,但很有意思。而现在,你所在的投资圈里,已经有人开始往下看了。我觉得从去年 11 月开始,就不断有投资人说,他们看到了一圈又一圈的的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许这个赛道本身就不靠谱。我个人觉得,英伟达的产品做得非常出色,生态体系也很完善,不只是芯片本身,配套的软件等方方面面都很好。我见过黄仁勋,他给我留下了很深的印象,英伟达的产品确实很棒。

 

但问题的关键是,他们最终能卖出多少芯片?我认为,目前的芯片销售全靠市场投机,大家都在赌,我稍后再说说其他人的看法。所有人都在投机,认为这类芯片的需求会无限大,而这种投机的底层逻辑,是相信这些 AI 模型最终能实现 AGI。真正的 AGI 能完成人类能做的所有事,其商业价值不可估量,每年创造数万亿美元的价值都有可能。但《华盛顿邮报》几天前报道了一项一个月前完成的研究,研究显示,人类日常的工作中,只有 2.5%的工作能真正由 AI 系统完成。所以人们幻想中 AI 能完成的大部分工作,其实它都做不到,也根本做不好。这就意味着,最终所有在芯片上的投资,都会变得毫无意义。

 

而在这些企业里,OpenAI 可能是最脆弱的那个。OpenAI 有超过一万亿美元的未兑现承诺,却从未实现过盈利,如今又身处一个产品高度同质化的市场。它最大的竞争对手谷歌已经迎头赶上,甚至可以说实现了反超,还拿下了和苹果的合作大单,这可是笔大生意。所以我觉得 OpenAI 现在已经手忙脚乱了,实在看不出它的估值有任何合理性。

 

Steve Eisman:对我所在的投资圈来说,如果投资人开始从 OpenAI 撤资,而它又融不到新的资金,那会给整个生态系统带来连锁反应。

 

Gary Marcus:没错,这正是我认为即将发生的事。我觉得最终 OpenAI 可能会被微软这样的企业收购。我这几年一直说,OpenAI 最终会成为 AI 领域的 WeWork。未来人们都会疑惑,它当初怎么会有那么高的估值,这完全不合逻辑。OpenAI 的年收入只有几十亿美元,却每个月亏损数十亿美元,还有众多竞争对手,这样的企业根本撑不下去。如果投资人撤资,或者不再继续注资,OpenAI 就会陷入巨大的危机。它每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。

 

Steve Eisman:没错,也就一年的时间。

 

Gary Marcus:而且现在很多人都在持观望态度,他们会觉得,谷歌才是更适合这场竞争的玩家,毕竟谷歌已经追上来了。如果这场竞争只拼规模,那赢家必然是谷歌,这是毋庸置疑的。谷歌有能力做出巨额投入,甚至根本不需要英伟达的芯片,因为他们自研了张量处理单元,能实现类似的功能,所以谷歌的抗风险能力更强。他们有稳定的财务支撑,最终一定会赢。

 

Steve Eisman:没错。

 

Gary Marcus:只要有一部分人意识到,OpenAI 想要活下去,需要的资金量是天文数字,它的处境就会变得岌岌可危。它下一轮可能需要 1000 亿美元的融资,而全世界能拿出这么多钱的人,可能也就五个。就算其中四个愿意投资,只要有一个拒绝,就会出问题;而如果五个都拒绝,它要么倒闭,要么只能去找微软求救。

“脱离世界模型做 AI,根本行不通”

Steve Eisman:Gary,在我们结束访谈前,还有什么我该问却没问的问题吗?

 

Gary Marcus:我觉得这次访谈特别棒。要说还有什么重要的点没聊到,那应该就是“世界模型”这个概念。

 

Steve Eisman:没错,我本来也想聊这个。你一直说我们需要构建世界模型,这个概念完全超出了我的专业领域,不如你给大家解释一下,到底什么是世界模型?

 

Gary Marcus:不同的人对世界模型有不同的定义,简单来说,它就是在计算机系统中,构建一个能表征外部现实世界的体系。我说说我认为我们需要的世界模型是什么样的:软件内部需要有一个结构,能对应现实世界中的各种事物。比如导航系统的世界模型,需要能表征道路的分布、连接方式,以及不同路段的通行时间。在传统的 AI 领域,世界模型是研发的起点,所有的研究都基于此,没人会想过脱离世界模型做研发。Herbert Alexander Simon 是上世纪 50 年代 AI 的奠基人之一,他写过一本自传叫《Models of My Life》,他一生都在研究各类模型和世界模型,并且认为,做好 AI 的关键就是构建正确的世界模型。

 

而大语言模型却试图脱离世界模型运作。构建一个针对特定事物的世界模型,尤其是复杂事物,需要付出巨大的努力。比如过去研发专家系统时,研究者需要构建能模拟医生思考方式的模型,能表征病人身体机能、生理结构的模型,这个过程非常繁琐。当时还有一个专门的领域叫知识工程,做这项工作成本极高,没人愿意做。大语言模型和其他类型的神经网络出现后,研发者宣称,不用再做这些繁琐的工作,只需要让系统从数据中自主学习就行。

 

但事实证明,这根本行不通。就像大语言模型会把出生在洛杉矶的 Harry Shearer 说成是伦敦人,原因就是它没有一个完善的世界模型,无法像设计精良的软件那样,精准调取正确的信息。所以我们必须在 AI 系统中融入世界模型,才能避免幻觉现象的发生。

 

Steve Eisman:我还是不太理解世界模型到底是什么。

 

Gary Marcus:用非专业的语言解释确实有难度,简单说,它就是对世界的一种表征,而且这个“世界”不一定是现实世界。比如我们对《星际迷航》《星球大战》《哈利·波特》这些虚构世界,也会有对应的世界模型。这也是人类和当前 AI 系统最本质的区别:当我们看一部电影、读一本书时,会在脑海中构建出这个世界的运行规则,并且能判断情节是否符合这个世界的逻辑,会不会有不合理的设定。比如看了《哈利·波特》,我们会知道里面的人能骑着扫帚飞,但不会把这个设定和现实世界混淆,不会回家后跳上扫帚就想从窗户飞出去。

 

人类能快速构建并同时掌握多个世界模型,就算看一部新的科幻剧,20 分钟左右就能理解这个全新世界的规则,这是人类的天赋。但在 AI 领域,无论是传统的符号式 AI,还是现在的大语言模型,都做不到这一点。传统 AI 的优势是可以人工构建世界模型,你可以雇一群学者花六周时间,把一个问题的相关规则梳理清楚,构建成模型。最近离世的顶级研究者 Doug Lenat 就做过这样的研究,他为《罗密欧与朱丽叶》构建了世界模型,他的系统能真正理解这部剧的关键情节,而非从网上的读书笔记中获取二手信息,表现非常惊艳。但问题是,我们不知道该如何让传统 AI 自主学习、构建世界模型。而大语言模型则完全做不到构建世界模型,只是在假装自己能做到。

 

我有个很经典的例子,就算用整个互联网的内容训练大语言模型,让它接触海量的国际象棋规则和对局记录,它依然会走出违规的棋步,因为它从未真正抽象出国际象棋的运行逻辑。这一点就足以说明问题了。试想一下,一个人看了一百万盘象棋对局,读了维基百科、象棋网站上的所有规则,还看了 Robert James Fischer 的象棋著作,不可能连基本的棋规都掌握不了,但 AI 就是做不到。

 

所以我们需要研发能自主归纳出世界模型的 AI 系统,这类系统能从数据中挖掘因果规律,识别其中的核心要素。这是一个难题,不是说有人明天回家鼓捣一下就能解决的。长期以来,无论是传统 AI 还是大语言模型,都在回避这个问题,而现在,我们必须直面它。

 

Steve Eisman:看来这需要很长的时间来研究。

 

Gary Marcus:确实需要很久。我想说的是,AI 确实会以我们难以想象的方式改变世界,但绝不是现在,靠当下的这项技术根本做不到。我们需要把这一点考虑进去,做出合理的投资决策。现在的问题是,我们到底是在投资基础研究,还是在为一项已经成熟的技术做规模化投入?答案显然是后者。而当下的市场,大多是在投机,赌那些目前行不通的技术,只要做得更大,就能凭空实现突破。

 

但事实上,单纯的规模化根本解决不了这些核心问题,我们真正需要的是扎实的基础研究。这是我过去五年一直强调的观点,也是 SSG 在去年 11 月提出的观点,而 Ilya Sutskever 也表达了类似的看法。当我们这些背景截然不同的人,都达成了这样的共识,行业内的人其实应该认真听一听。

 

参考链接:

https://www.youtube.com/watch?v=aI7XknJJC5Q

过去八年,Transformer 几乎重塑了整个人工智能研究版图。自 2017 年 Google 在「Attention Is All You Need」中提出这一架构以来,「注意力机制」逐渐从一种工程技巧演变为深度学习的通用范式——从自然语言处理到计算机视觉,从语音、多模态到科学计算,Transformer 正在成为事实上的基础模型骨架。

以 Google、OpenAI、Meta、Microsoft 为代表的工业界不断推动其规模化与工程化极限,而斯坦福、MIT、伯克利等高校则在理论分析、结构改进与新范式探索上持续输出关键成果。在模型规模、训练范式与应用边界不断被拓展的同时,Transformer 领域的研究也呈现出高度分化与快速演进的趋势——这使得系统性梳理与精选代表性论文,变得尤为必要。

为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。

本周,我们为大家精心挑选了 5 篇有关 Transformer 的热门论文,涵盖北大、DeepSeek、字节跳动 Seed、Meta AI 等团队,一起来学习吧!⬇️

本周论文推荐

1

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

北京大学与 DeepSeek-AI 的研究者提出 Engram,一种具有 O(1) 查找复杂度的可扩展条件记忆模块,通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补,从而释放早期层用于更深层的推理计算,并在推理任务(BBH +5.0,ARC-Challenge +3.7)、代码与数学任务(HumanEval +3.0,MATH +2.4)以及长上下文任务(Multi-Query NIAH:84.2 → 97.0)上取得显著提升,同时保持等参数量与等 FLOPs 的效率。

论文及详细解读 https://go.hyper.ai/SlcId

Engram 模型结构示例

2

STEM: Scaling Transformers with Embedding Modules

卡内基梅隆大学与 Meta AI 的研究人员联合提出一种静态的、基于标记索引的稀疏架构——STEM。用层内嵌入查找替代 FFN 的上投影,实现稳定训练,将每标记的 FLOPs 和参数访问量减少约三分之一,并通过可扩展的参数激活提升长上下文性能。通过将容量与计算和通信解耦,STEM 支持异步预取的 CPU 卸载,利用具有大角度分布的嵌入实现更高的知识存储容量,同时无需修改输入文本即可实现可解释、可编辑的知识注入,在知识和推理基准测试中,相比密集基线性能提升高达约 3–4%。

论文及详细解读 https://go.hyper.ai/NPuoj

STEM  系统架构示例

数据集由多个来源组成:OLMo-MIX-1124(3.9T标记),为 DCLM 与 Dolma1.7 的混合;NEMOTRON-CC-MATH-v1(数学导向);以及NEMOTRON-PRETRAINING-CODE-v1(代码导向)。


数据集

3

SeedFold: Scaling Biomolecular Structure Prediction

字节跳动 Seed 团队提出 SeedFold,一种可扩展的生物分子结构预测模型,通过扩大 Pairformer 的宽度提升模型容量,采用线性三角注意力机制降低计算复杂度,并利用包含 2650 万样本的蒸馏数据集,在 FoldBench 上达到最先进性能,且在蛋白质相关任务上超越 AlphaFold3。

论文及详细解读**:** https://go.hyper.ai/9zAID


新型线性三角注意力模块示例

SeedFold 的数据集包含 2650 万样本,通过从两个主要来源进行大规模数据蒸馏扩展:实验数据集(0.18M)和源自 AFDB 与 MGnify 的蒸馏数据集。

数据集

4

Are Transformers Effective for

Time Series Forecasting?

本文发现,尽管 Transformer 在时序预测领域迅速流行,其自注意力机制的排列不变性会损失关键时间信息。通过对比实验,简单的单层线性模型在多个真实数据集上显著超越了复杂的 Transformer 模型。这一发现挑战了现有研究方向,并呼吁重新评估 Transformer 在时序任务中的有效性。

论文及详细解读**** https://go.hyper.ai/Hk05h

现有基于 Transformer 的时间序列预测方案的流程示例

相关 benchmarks 如下:

5

Reasoning Models Generate

Societies of Thought

谷歌、芝加哥大学与圣塔菲研究所的研究人员提出,像 DeepSeek-R1 和 QwQ-32B 这样的先进推理模型之所以表现卓越,并非仅仅因为更长的思维链,而是通过隐式模拟一种「思想社会」——即模型内部具有不同人格与专长的多样化视角之间类似多智能体的对话。通过机制可解释性与受控强化学习,他们证明了对话行为(如提问、冲突、调和)以及视角多样性与准确率之间存在因果关系,其中对「惊讶」的话语标记进行引导可使推理性能翻倍。这种思想的社会化组织使得对解空间的系统性探索成为可能,表明集体智能原则——多样性、辩论与角色协调——是有效人工推理的核心基础。

论文及详细解读 https://go.hyper.ai/0oXCC

多维度框架示例

数据集包含 8,262 个来自多个领域的推理问题,涵盖符号逻辑、数学求解、科学推理、指令遵循及多智能体推理,支持多视角推理,用于训练与评估模型。

数据集

以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。

下周再见!

美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?

0%
icon展开列表
面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破
今天
img
神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网
今天
img
美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
今天
img
失去三个联创后,Mira公司危机持续:又有两人要出走
今天
img
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
今天
img
支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT
今天
img
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
今天
img
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
今天
img
DeepSeek连发两篇论文背后,原来藏着一场学术接力
今天
img
仅需一个混频器的无线射频机器学习推理,登上Science Advances!
今天
img
国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
01月15日
img
联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
01月15日
img
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
01月15日
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
01月15日
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
01月15日
img
刚刚,喝到了千问APP给我点的奶茶
01月15日
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
01月15日
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
01月15日
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
01月15日
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
01月15日
img

美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?

编辑|Panda、杨文

临近春节,各家 AI 厂商进入冲刺阶段,纷纷亮出最新大模型成果。

1 月 15 日,美团也重磅更新自家模型 ——LongCat-Flash-Thinking-2601

这是一款强大高效的大规模推理模型,拥有 5600 亿个参数,基于创新的 MoE 架构构建。

图片

该模型引入了强大的重思考模式(Heavy Thinking Mode),能够同时启动 8 路思考并最终总结出一个更全面、更可靠的结论。目前重思考模式已在 LongCat AI 平台正式上线,人人均可体验。

图片

      仅选择「深度思考」时才会触发重思考模式。

  • 体验链接:https://longcat.ai

  • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

  • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

不仅如此,该模型的智能体能力还获得了重大提升:在智能体工具调用、智能体搜索和工具集成推理等基准测试中达到顶尖性能,而且在任意的 OOD(分布外)真实智能体场景中实现了泛化能力的显著提升。

图片

研究团队还专门提出了一种全新的智能体模型泛化能力评测方法。

通过构建自动化的环境和任务合成流程,基于给定关键词,随机生成任意的复杂任务。每个生成的任务都配备对应的工具集与可执行环境。

这种高度随机化的评测方式,能够更真实地检验模型在未知场景下的适应能力。

实验结果表明,LongCat-Flash-Thinking-2601 在该评测中始终保持领先性能。

接下来,我们就把模型拉到真实场景里实测一番。

一手实测:这只龙猫有点强

我们先来试试数理逻辑推理,顺便看看这个重思考模式到底是怎么一回事。

「运动会招募志愿者,第一次招募了不到 100 人,其中男女比例为 11:7;补招若干女性志愿者后,男女比例为 4:3。问最多可能补招了多少名女性志愿者?」

在 longcat.ai 上开启「深度思考」后,便进入了重思考模式,此时 8 个 Thinker 同时开工,每个都表现出不同的思考风格。有的按常规解题,有的则直接写了个 Python 脚本。

图片

大部分 Thinker 给出了答案 5,其中 3 号和 6 号 Thinker 还写出详细的推导过程。待 8 个 Thinker 执行完任务后,模型再验证不同 Thinker 的思考过程,形成最终答案。

整个过程就像一个团队开会讨论问题,最后达成共识,最终给出的解答也更靠谱得多。

图片

下面是道逻辑推理题。「A 的手机号码最后 5 位,由五个不同的数字组成。B 说:我猜它是 84261。C 说:我猜它是 26048。D 说:我猜它是 49280。A 说:巧了,你们每人都猜对了位置不相邻的两个数。你知道这五位号码是多少?」

图片

8 个 Thinker 再次启动,各自从不同角度切入。

模型没有简单地按照「少数服从多数」的原则采纳意见,而是调用一段代码,系统验证答案是否满足所有约束条件,并穷举所有可能的组合,确认 86240 是唯一解。

这种将单个模型调用八次的模型编排方式,在技术实现上虽直接,却在实际效果上发挥出「三个臭皮匠顶过诸葛亮」的优势。

实测过程中,我们还发现了重思考模式的一种有趣玩法:投票。

举个例子,我们可以开启「深度思考」模式,然后让模型选出 2000 年代最优秀的华语流行歌手。

我们发现不同的 Thinker 会给出很不一样的答案,比如有一个仅选出了周杰伦、蔡依林、孙燕姿、王菲、陈奕迅五位代表,而另一个则直接列出了一长串名单。

最终,经过模型在总结阶段的汇总整理,LongCat-Flash-Thinking-2601 给出了一份涵盖多维度评估的名单,颇具参考性。

图片

我们又试了下该模型的编程能力。先让它生成一个 Flappy Bird 小游戏,效果很不错。

图片

    Prompt:Make a game like flappy bird using HTML/CSS/JS in a single HTML file.

接下来我们又试了试让其编写一个康威生命游戏:

图片

Prompt:用 Python 写一个 Conway 生命游戏,提供可视化网格、暂停、单步和参数调节功能。

但实事求是地说,使用 8 个 Thinker 来完成编程任务的计算成本应当是比较高的,可能并不适合大规模应用(尽管目前该模型对普通用户免费),但是我们认为这种模式却非常适合医疗、金融、法律等可能需要多次深度思考来保证准确性的场景。

最后,我们再来测试一下 LongCat-Flash-Thinking-2601 模型主打的 Agent 能力,其中的核心便是工具调用。

为了方便用户测试,美团专门构建了一个「大模型工具使用测试」平台。该平台能基于关键词随机生成复杂的 OOD(分布外)任务,专门用来试探模型在陌生环境下的行动能力。

我们随机生成了一个「营养补给方案」任务。平台瞬间拉起了一个包含近 30 个工具的复杂图谱。从页面右侧的依赖关系可以看出,这并非简单的线性调用,模型需要像经验丰富的营养学家,理清儿童营养需求分析、食物营养成分计算、过敏食物筛选等工具之间环环相扣的逻辑。

图片

更有趣的是,该平台还支持模型对比,让用户可以轻松地将 LongCat-Flash-Thinking 与其它模型放在同一起跑线上进行对比。

这里我们将其与当前大模型界的顶级选手 Claude 4.5 Opus 放在了同一个赛道上,进行同步竞技。

      8 倍速视频

视频展示了两个模型在高频调用工具时的思考流。在任务完成后,系统会调用 AI 评估员,从执行速度与任务达成度两个维度进行复盘。

图片

在这个具体案例中,两个模型都交出了高分答卷,但 LongCat 成功达到了 100% 的标准覆盖率,而 Claude 4.5 Opus 却未能成功为用户创建健康档案,仅达到了 80% 的覆盖率。整体而言,LongCat 在处理工具依赖关系的响应节奏上展现出了更强的稳定性。

深入细节,我们可以看到这些工具的调用和输出都采用了标准的 JSON 格式,这也是当前大量的 MCP 或 API 工具采用的主流格式。这也意味着,我们可以非常轻松地将 LongCat-Flash-Thinking-2601 整合进到现有的工作流程中。

图片

强大实力的根基:重思考 + 智能体

那么,表现如此亮眼的 LongCat-Flash-Thinking-2601 究竟是如何炼成的?

正如其推文总结的那样,我们先给出几个关键词:并行思考、迭代式总结、环境规模扩展(Environment Scaling)、多环境大规模强化学习(Multi-Environment RL Scaling)、课程学习(Curriculum Learning)。另外,还有即将发布的 ZigZag Attention

作为 LongCat-Flash-Thinking 的最新版本,2601 版本继承了上一版本的领域并行训练方案,而技术底座同样是参数总量达 560B 的高性能混合专家(MoE)架构模型。

图片

      来自 LongCat-Flash-Thinking 技术报告

在此基础上,如上文评测所示,除了一些细节上的优化,这个新版本重点引入了两大改进:重思考模式智能体能力

该模型新引入的重思考模式别具一格,我们目前还未见其它任何模型显式或开源地提供类似模式。

而在智能体能力方面,美团引入了一套精心设计的流程。该流程结合了环境规模扩展与后续任务合成,并会在此之上进行可靠且高效的大规模、多环境强化学习。为更好地适应真实世界智能体任务中固有的噪声与不确定性,美团 LongCat 团队还对多种类型和不同强度的环境噪声进行了系统分析,并采用课程式训练,使模型在非理想条件下依然保持稳健表现。

下面我们就来更具体地看看美团的这些核心技术。

重思考模式:推理广度与深度的协同扩展

打开 longcat.ai 「深度思考」后开始体验,你第一时间就会被同时冒出的 8 个 Thinker 吸引注意。这正是 LongCat 团队提出的 Heavy Thinking Mode(重思考模式)的外在表现。它不仅看起来炫酷,更重要的是将推理能力推向了新的边界。

图片

大致来看,其与 AI 大牛 Andrej Karpathy 实验性的大模型议会项目有相似之处,但不同的是,Karpathy 的大模型议会是通过模型编排方式来向不同模型构成的集体提出问题,让它们各自发言并讨论后给出最终解答,而 LongCat-Flash-Thinking-2601 新引入的重思考模式则是并行地调用一个模型 8 次来实现高强度的并行思考。

如此一来,便可以同时获得多条相互独立的推理路径并进行交叉验证,从而显著降低偶然性错误,提升在复杂问题上的稳定性、可靠性与最终答案质量。如此一来,可以进一步提升模型在极具挑战性任务上的表现。

具体来说,该模式会将高难度问题求解分解为两个互补阶段:并行思考总结,从而同时扩展推理的深度与宽度。

  • 推理宽度方面,重思考模式会并行生成多条独立轨迹,以广泛探索不同推理路径,并采用相对较高的推理温度以保证多样性。

  • 推理深度方面,总结阶段生成的精炼轨迹可以递归反馈给总结模型,形成支持逐步加深推理的迭代推理回路。LongCat 团队还专门设计了额外的强化学习阶段来训练总结能力,进一步释放该模式的潜力。

智能体能力提升:环境规模扩展与多环境强化学习

智能体能力方面,LongCat 团队精心设计了一套自动化环境规模扩展链路,并构建了一组多样且高质量的环境,作为工具调用类任务强化学习的训练场,使模型能够习得高层次、可泛化的智能体能力。

每个环境包含多达 60 余种工具,并以高密度依赖图的形式组织,提供了足够的复杂度以支持多样化任务构建与大规模探索。实验表明,随着训练环境数量的增加,模型在分布外(OOD)任务中的表现会持续提升(Environment Scaling)。

高质量任务构建

为确保训练任务集的质量,LongCat 团队对任务复杂度和多样性进行显式控制。每个任务都定义在从高质量环境中采样得到的连通子图之上,任务复杂度通过要求在该子图内尽可能多地协同使用工具来调节。为促进任务多样性,已选工具的再次采样概率会逐步降低。

LongCat 团队还构建了配套数据库以确保任务的可执行性,并验证每个任务至少存在一种可执行解。然而,当环境中包含大量工具时,跨数据库的一致性维护会变得困难,可能导致部分任务无法验证。针对这一问题,LongCat 团队设计了专门的应对策略,使训练的稳定性和有效性得到了充分保障。

多环境强化学习

在保持高效异步训练和流式 rollout 特性的同时,LongCat 团队进一步扩展了其强化学习基础设施 DORA(异步弹性共卡系统),以支持环境规模扩展下的大规模多环境智能体训练(Multi-Environment RL Scaling)。

具体而言,来自多个环境的任务会在每个训练批次中以平衡的方式混合,并根据任务复杂度和当前训练状态分配不同的 rollout 预算。

下图展示了该模型的多环境混合强化学习训练曲线,可以看到上涨的趋势非常稳定,这表明美团构建的基础设施和算法可以有效保证训练的稳定性。

图片

下图则展示了多环境强化学习训练下,模型在不同 OOD 测试集上的 RL Scaling 表现,效果非常明显。

图片

面向噪声环境的稳健训练

真实世界的智能体环境天然存在噪声和缺陷,仅在理想化环境中训练模型往往难以获得足够的稳健性。为此,LongCat 团队在训练过程中显式引入环境不完美因素,以提升模型的稳健性。

具体而言,LongCat 团队系统分析了智能体场景中真实世界噪声的主要来源,并设计了一套自动化流程,将这些噪声注入训练环境。在强化学习阶段,LongCat 团队采用课程式策略,随着训练推进逐步增加噪声的类型和强度。

下图展示了模型是否采取面向噪声环境的稳健训练,在带噪声 / 无噪声评测集下的表现对比,其中不同的评测集上依据特性添加了不同类型的噪声。可以看到,带噪声环境下未经过稳健训练的模型的表现会出现大幅衰减,Claude 也无法适应全部的噪声类型。而经过稳健训练后,LongCat-Flash-Thinking-2601(Training w/ Noise 组) 对环境的噪声和不确定性展现出了强大的适应能力,并在各类非理想条件下取得更优表现。

图片

得益于这些改进与创新,LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索以及工具融合推理等基准测试中达到顶尖水平,还在任意的 OOD(分布外)真实世界智能体场景中展现出显著提升的泛化能力。

LongCat ZigZag Attention:实现超长上下文

LongCat ZigZag Attention,顾名思义,是一种注意力机制,根据其官方推文描述,其一大核心亮点是能「实现 100 万 token 上下文」。据悉,LongCat ZigZag Attention 已被成功用于训练当前 LongCat-Flash-Thinking 模型的一个分支,我们也将很快见证这个分支版本面世。细节详见论文:https://arxiv.org/abs/2512.23966

图片

One More Thing

回头来看,美团大模型站到台前时间并不算长但节奏清晰,首次亮相在 2025 年 9 月,此后保持了每月一更的开源节奏,不断扩容自己的能力库:从强调响应速度的 LongCat-Flash-Chat 到专注逻辑的 Thinking 版本,再到图像和视频模型以及覆盖多模态的 Omni 版本,每一步迭代都在让这只龙猫能够更好地理解这个世界,并让复杂的现实生活变得更加可计算。

图片

       美团在 Hugging Face 上的论文页面

这一次,龙猫聚焦 Agent 与 Thinking 能力进行全面提升,也是实现了一次从理解到融入真实世界的跃迁。

或许,美团现在追求的,就是一种确定性:能够用技术在真实世界中又好又快地解决问题,终有一天让「模型即服务」。

时光奔流,我们即将与 2025 年挥手作别。感谢这一路上,每一位伙伴的并肩前行与坚定支持。

今年,美团技术团队在持续深耕中涌现出不少值得分享的实践与开源产品&服务。我们从中精选了18篇具有代表性的技术文章,内容涵盖大模型开源、研发技能、产品服务三大方向。值得一提的是,美团 LongCat 团队今年在大模型开源领域成果显著,陆续发布了涵盖基座模型、图像、视频、语音等多个方向的开源产品与工具,期望能够持续推动AI技术分享与生态共建。

希望这些开源的大模型产品、服务及凝结一线技术实战经验的内容,能为大家带来启发和帮助,陪伴同学们在技术前行的道路上扎实成长。愿我们在新年里,继续向下扎根、向上生长,迎着光,奔赴更高、更远的山海。2026,期待继续同行!

大模型开源

01 | 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

9月初,美团正式发布并开源 LongCat-Flash-Chat。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

根据多项基准测试综合评估,作为一款非思考型基础模型,LongCat-Flash-Chat 在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。并且,因为面向推理效率的设计和创新,LongCat-Flash-Chat 具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。

目前,已在 Github、Hugging Face 平台同步开源,同时你也可以访问官网 https://longcat.ai/,与 LongCat-Flash-Chat 开启对话。(阅读全文

开源地址Hugging Face | Github

02 | LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

9月,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平。

同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上, LongCat-Flash-Thinking 具备更显著的优势。目前, 该模型已在HuggingFace、Github全面开源。(阅读全文

开源地址Hugging Face | Github

03 | LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

要让人工智能真正理解、预测甚至重构真实世界,“世界模型”(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

基于这一关键目标,10月,美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。

作为一款视频生成模型,LongCat-Video 凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。(阅读全文

开源地址GitHub | Hugging Face | Project Page

04 | LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代

11月,LongCat-Flash-Omni 正式发布并开源。LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源先进水平,同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。模型已同步开源,欢迎体验。(阅读全文

开源地址Hugging Face | Github

05 | 美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 “听不懂” 语音,车载助手 “说” 得像机器人,实时翻译延迟卡半秒。深究根源,全在 “语音 Token 化”:作为拆分语音为 Speech LLM “离散单元” 的关键步骤,传统方案始终没平衡好 —— 要么缺语义、要么丢声学、要么延迟高,刚好卡了 Speech LLM 落地的 “死结”。

针对 Speech LLM 落地中的音频处理难题,11月,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实现突破。(阅读全文

开源地址Github | Hugging Face

06 | 美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA

12月初,美团发布 LongCat-Image 图像生成模型。当前 AI 图像生成技术需求旺盛,但行业陷入 “两难困境”:闭源大模型性能强劲但无法自行部署或二次定制开发,开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点,制约商业创作与技术普惠。

为此,美团 LongCat 团队正式发布并开源 LongCat-Image 模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以 6B 参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了 “高性能、低门槛、全开放” 的全新选择。(阅读全文

开源地址Hugging Face | GitHub

07 | 美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现

今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使用。10月底,LongCat 团队开源了 LongCat-Video 视频生成模型,尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上,LongCat 团队针对实际场景中的核心痛点持续优化,12月正式发布并开源 SOTA 级虚拟人视频生成模型 —— LongCat-Video-Avatar。

该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。(阅读全文

开源地址GitHub | Hugging Face | Project

研发技能

08 | MTGR:美团外卖生成式推荐Scaling Law落地实践

美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近2年迭代最大收益,且于2025年4月底在外卖推荐场景全量。本文系相关工作的实践与经验总结,希望能给从事相关方向研究的同学带来一些帮助。(阅读全文

09 | JDK高版本特性总结与ZGC实践

美团信息安全技术团队核心服务升级JDK 17后,性能与稳定性大幅提升,机器成本降低了10%。高版本JDK与ZGC技术令人惊艳,且Java AI SDK最低支持JDK 17。本文总结了JDK 17的主要特性,然后重点分享了JDK 17+ZGC在安全领域的一些实践,希望能对大家有所帮助或启发。(阅读全文

10 | 鸿蒙应用签名实操及机制探究

华为鸿蒙单框架操作系统HarmonyOS NEXT已于2024年10月23日正式发布Release版。HarmonyOSNEXT仅支持鸿蒙原生应用,不再兼容安卓。本文对鸿蒙公开资料进行了深入分析和解读,梳理了鸿蒙单框架应用的签名机制,拆解每一步的实操过程和背后的实现原理,并对源码分析整理签名的校验机制。从中管中窥豹,探究鸿蒙系统的安全设计思路,给从事鸿蒙研发的同学提供一些借鉴。(阅读全文

11 | 预测技术在美团弹性伸缩场景的探索与应用

管理企业大规模服务的弹性伸缩场景中,往往会面临着两个挑战:第一个挑战是精准的负载预测,由于应用实例的启动需要一定预热时间,被动响应式伸缩会在一段时间内影响服务质量;第二个挑战是高效的资源分配,即在保障服务质量的同时控制资源成本。为了解决这些挑战,美团与中国人民大学信息学院柴云鹏教授团队展开了“预测技术在弹性伸缩场景的应用”科研合作,相关论文《PASS: Predictive Auto-Scaling System for Large-scale Enterprise Web Applications》在具有国际影响力的会议The Web Conference 2024(CCF-A类会议)上作为Research Full Paper发表。(阅读全文

12 | 从0到1建设美团数据库容量评估系统

美团数据库团队推出了数据库容量评估系统,旨在解决数据库容量评估与变更风险防控等领域难题。本文介绍了系统架构和主要功能:系统使用线上流量在沙盒环境回放验证变更安全,结合倍速回放技术探测集群性能瓶颈,构建容量运营体系实现集群容量观测与治理闭环。系统具备数据操作安全、结果真实可靠、灵活高效赋能等特点,有效提升数据库稳定性与资源利用率。(阅读全文

13 | AI Coding与单元测试的协同进化:从验证到驱动

AI生成代码质量难以把控!本文分享来自美团的技术实践,三大策略破解AI编程痛点。单测快速验证逻辑正确性,安全网保护存量代码演进,TDD模式精准传递需求。告别「看起来没问题」的错觉,构建AI时代的代码质量保障体系。(阅读全文

14 | LongCat-Flash:如何使用SGLang部署美团Agentic模型

SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化,并产出了一篇技术博客《LongCat-Flash: Deploying Meituan’s Agentic Model with SGLang》,文章发表后,得到了很多技术同学的认可,因此我们将原文翻译出来,并添加了一些背景知识,希望更多同学能够从LongCat-Flash的系统优化中获益。(阅读全文

15 | 可信实验白皮书系列:从0到1的方法论与实践指南

增长与优化是企业永恒的主题。面对未知的策略价值,数据驱动的AB实验已经成为互联网企业在策略验证、产品迭代、算法优化、风险控制等方向必备的工具。越来越多的岗位,如数据科学家、算法工程师、产品经理以及运营人员等,要求候选人了解AB实验相关知识。然而,许多从业者由于缺乏有效的学习渠道,对AB实验的理解仍停留在初级阶段,甚至存在一些误解。我们希望通过系统性地分享和交流AB实验的理论基础、基本流程、核心要素及其应用优势,能够帮助更多相关人员深入了解实验,提升实验文化的普及度,最终辅助企业在更多领域做出精确数据驱动决策。

除了广泛传播实验文化外,该白皮书在深度上也可给实验研究人员,提供复杂业务制约下进行可信实验设计与科学分析评估的参考经验和启发。从美团履约技术团队、美团外卖业务的实践来看,实验者常常面临多种复杂的实验制约和难题,例如,在美团履约业务中,实验往往需要应对小样本、溢出效应(即实验单元间互相干扰)以及避免引发公平性风险等多重约束,需设计科学复杂的实验方案以克服相应挑战。通过撰写白皮书,我们系统性地总结和分享应对复杂实验约束的研究经验,进而能够促进实验技术的传播与升级,推动实验科学持续进步。

本白皮书以AB实验为中心,涵盖AB实验概述与价值、实验方法基础原理与案例剖析以及配套SDK代码分析等,内容丰富且易于理解和应用。适合从事AB实验研究的数据科学家、系统开发人员,以及需要实验驱动策略决策的业务和产研团队,同时也适合对数据驱动增长和数据科学等领域感兴趣的读者。(阅读全文

产品服务

16 | 无需代码!美团 NoCode 像聊天一样轻松搭建你的专属网站

这是一款由美团技术团队打造的 AI 编程类产品——NoCode,可以像聊天一样轻松搭建你的专属网站、游戏、各种小工具等等,当然还有更多的隐藏功能等你发现,文末我们还准备了2项互动奖励,期待跟大家一起,开启全新的 AI 编程之旅。(阅读全文

17 | 美团首款 AI IDE 产品 CatPaw 开启公测

Meituan CatPaw (以下统一使用“CatPaw”)是美团推出的 AI IDE,以 Agent & 人协作为核心,通过 Agent 智能驱动编程,辅以代码补全、项目预览调试等功能,结合美团自研的基于编程场景特训的 LongCat 模型,并支持多种模型混合调用,让编码过程更专注,项目交付更高效!

CatPaw 早在 2023 年就在美团内部以编辑器插件形态正式上线,此次完成全新升级后进行公开测试。目前在美团内部研发渗透率超 95%,增量代码 AI 生成率超 50%。(阅读全文

18 | 美团 LongCat 上线 AI 生图!精准高效,AI 创作不设限

美团 LongCat 全新上线 AI 生图功能,该功能基于LongCat系列模型「LongCat-Image」打造而成。不仅在文生图任务中实现了“快、真、准” :出图快速响应、达到摄影棚拍摄质感、中文渲染精准度高;更在图像编辑任务上做到了精准便捷,无需复杂指令,可以用自然语言对图像进行二次编辑。

无论是追求高效出图的普通用户,还是需要精准落地创意的专业创作者,LongCat 都以 “轻量化模型 + 流畅体验” ,让 AI 生图真正成为人人可用的创作工具。目前,AI 生图功能已在LongCat APP和 https://longcat.ai/ 同步上线,轻松解锁高效创作新方式。(阅读全文

12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈指可数的 “明星企业”,OpenAI 不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡,还需承接外界对其技术突破的高期待。面对 “开创下一个 AI 技术范式” 的巨大压力,OpenAI 将采取怎样的策略破局?

最近,OpenAI 首席研究官 Mark Chen 在播客节目中,与主持人 Ashlee 细致分享了 OpenAI 在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro 已在取得的科学发现。基于该播客视频,InfoQ 进行了部分删改。

核心观点如下:

  • 一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。

  • 成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

  • 未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

  • 完全冻结研究部门的新增人头,如果团队想招人,就必须自己决定谁不再适合继续留下。

目标是找到“下一个范式”

Ashlee:“人才争夺战”最近引发了大量关注,外界普遍认为 Meta 的动作非常激进。你能具体谈谈这种你来我往的竞争现状吗?

Mark:整个行业的人才池其实很有限,大家都知道最关键的资源之一就是顶尖人才。Meta 的积极挖人并不令人意外,但我们也没有袖手旁观。媒体往往强调“人才单向流向 Meta”,但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前,先后接触过我近一半的直接下属,但这些人全部拒绝了他们。当然,如果 Meta 每年能投入约百亿美元用于人才,他们总能挖到一些人。但总体来看,我们很好地保护了核心人才。

竞争过程中也发生过不少颇具戏剧性的事:扎克伯格曾亲自给我们团队成员送去他亲手熬的汤,以此示好。当时我非常震惊,但后来也理解这类方式确实可能有效。之后我也给从 Meta 挖来的对象送过汤,甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句,我自己并不亲自熬汤,米其林餐厅的汤当然比我做得好。

但真正让我有信心的是:即使面对 Meta 的高薪挖角,在 OpenAI,无论是来自 Meta 的员工,还是我们原本的研究人员,都没有人认为“AGI 会首先在 Meta 诞生”。他们对 OpenAI 的研究路线都有高度信心。我也一直非常明确告诉团队,我们不会与 Meta 进行“薪资逐美元匹配”的竞争。在远低于 Meta 的薪酬下,关键成员仍然选择留下,这让我更加确信:他们真正相信 OpenAI 的未来。

Ashlee:在这种竞争中,有没有类似“博弈策略”的考虑?

Mark:关键在于:目标不是留住组织内的每一个人,而是认清必须保留的核心力量,并确保他们留下来,我们在这点上做得很好。

Ashlee:在我看来,Sam 是真正沉浸于研究的那个人,是最顶层的决策者。而你和 Jakub 负责共同制定 OpenAI 的研究方向,同时你还要决定算力如何分配到具体项目上,既要决定公司往哪里走,又要管理执行路径。听起来像是一份非常艰难的工作,因为我想象得到大家会竭尽所能从你那里争取 GPU。

Mark:确实如此。人们为了获得 GPU,会想尽各种“幕后交易”。但这确实是我职责的重要部分:确定研究优先级,并对最终执行负责。

Jakub 和我每隔一两个月会做一次“项目盘点”,梳理一份包含约 300 个项目的大型表格,尽可能深入了解每个项目,并对它们进行排序。对一家约 500 人规模的组织来说,明确“核心优先级”,并通过口头沟通及算力分配来传达,是非常重要的。

Ashlee:这 300 个项目里既有大型前沿模型,也有各种实验性方向。你们如何管理、追踪并判断哪些项目值得投入 GPU?

Mark:关键在于始终聚焦核心路线图。与其他大实验室不同,OpenAI 始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果,也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”,并愿意投入大量资源。很多人可能会惊讶:我们的算力大头,其实花在“探索”上,而不是训练最终的成品模型。

Ashlee:所有团队都会说自己的项目最重要、最值得,怎么判断优先级?

Mark:最困难的决策通常是:我们无法在当下为某个项目提供支持。但成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

Ashlee:你们也强调不要“对竞争者做出反应”。如今 AI 领域的竞争比以往都激烈,你们如何保持独立判断?

Mark:现在的 AI 研究竞争确实空前激烈,但不能陷入这种竞争节奏。你随时可以发布一个小更新,在几周或几个月内领先别人,但这种方式无法长期维持。真正重要的是“破解下一个范式”。

例如 RO(reasoning optimization)项目,我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎,因为大家都觉得预训练和后训练机制运转良好,没必要做别的。但现在,“思考能力”已经变成不可或缺的基础能力。

我们的使命就是大胆押注,并构建足够强的算法,使它们能扩展到未来数个量级的算力。

研究员 vs 工程师

Ashlee:随着 OpenAI 成为一家有明确产品线的公司,你们如何不被“商业优先”压过“研究优先”?

Mark:OpenAI 最特别的地方在于:我们仍然是一家“纯粹的 AI 研究公司”,这点在业界非常罕见。我们以非营利形式创立,我加入时公司仍是非营利组织,那时的精神是“全力推进 AGI 研究,并保证安全”。我认为这依然是创造价值的最佳方式:只要研究领先,价值创造自然而然会发生。我 2018 年加入时的那种“核心文化”,至今依然存在。

Ashlee:马斯克曾说:“这帮人不是研究员,只是在做工程。”你怎么看?

Mark:在构建大模型时,优化每一个百分点、加速每一个 kernel、确保数值稳定,都是极深的工程实践。如果把研究凌驾于工程之上,其实已经输了。一旦缺少工程能力,就无法在当今这种规模的 GPU 上运行模型。

Ashlee:但外界确实把“研究员”和“工程师”赋予了不同的神秘感。

Mark:研究人员形态各异,有的人每天都有无数想法,其中很多并不好,但总能在某个时刻提出改变方向的优秀点子,而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作,因此也无法简单划分为某种刻板印象。

Ashlee:当竞争对手发布新模型,你和你们团队会做什么?大家会第一时间去试吗?有没有你们常用来测试新模型的“那一道题”?

Mark:会。以 Gemini 3 为例,它是个不错的模型。

但我们内部其实有能力相当的模型,而且快要发布了。

Benchmark 只能说明一部分,大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测,目前还没看到模型完全解出来,就算是“thinking model”也不行。

Ashlee:是秘密题目吗?

Mark:不算,不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题,叫“42 problem”。你要构建一个 mod 42 的随机数生成器,你有的原子操作是一些模 42 以下素数的 RNG,你要让期望调用次数最小。挺可爱的题目,但还没人类语言模型做到最优。

Ashlee:我原本以为你会在对手发布模型当天半夜就冲上去丢题测试。

Mark:没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力,把整个团队的肌肉练起来,做出现在能跟 Gemini 3 一较高下的模型。

Ashlee:所以你现在更关注长线构建,而不是每次新品发布就冲去试题。

Mark:对的。

Ashlee:我知道你和 Jakub 都有竞赛背景。我当初第一次见 Jakub 是在 Facebook Hacker Cup。你以前也是数学比赛选手吧?

Mark:对,我从小学、高中都在做数学竞赛。不过我真正写代码很晚,是大学室友怂恿的。当时我还有点数学系学生的傲气,觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了,而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛,算是朋友间的活动。后来我发现自己还挺有天赋,又开始给美国国家队出题、最后去带队。既是激烈比赛,也是一个紧密社区,大家之后都会在科研界再相遇。

Ashlee:那你这么忙,还能当教练?

Mark:其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研:有好时段、有坏时段,你不能因为连续失败就被心理打倒,很大部分是士气管理。我最近在带模型做竞赛题时也发现,模型的“难度直觉”跟人完全不同,人认为 ad-hoc 的题模型反而容易。这让我更相信未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

Ashlee:有点像 AlphaGo 的“Move 37”时刻?

Mark:是的。我觉得 GPT-5 Pro 发布之后,前沿科研有了拐点。发布三天后,一个物理学家朋友把他的最新论文丢进去,模型想了 30 分钟就完全搞懂,他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。

Ashlee:但当 AI 开始做那些原本属于顶尖人类智力的事,会不会让你觉得有点伤感?

Mark:竞赛是我很喜欢、也曾经擅长的东西,但我也看着模型从普通选手水平爬到超过我,再超过 Jakub,就像亲眼看到自动化的速度快得不可思议。去年模型在 coder 比赛还只是排 100 多名,今年已经能冲进前五。变化太快了。

Ashlee:那十年后还会有人类比赛吗?

Mark:会的,因为它本质上就很有趣。那些只是为了简历而参加的人会消失,但真正热爱的人不会。

Ashlee:我采访别人时,他们说有些国家只要 IOI 奖牌就能直接保送大学。

Mark:是,但我觉得未来这些考试本身会被 AI 打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟 ChatGPT 对话,由一个不会被越狱的特别版 ChatGPT 判断他们是否具备在 OpenAI 工作的能力。

Ashlee:你家里有很强的科技背景,你父母都在 Bell Labs,对你影响很大吧?

Mark:我从小吃饭桌上就是各种科学谜题。后来搬到西岸,我爸做创业,让我看到初创公司的另一面。再搬到台湾读书,又是完全不同的文化,纪律性更强。各种经历混在一起,形成了今天的我。

Ashlee:你 MIT 那届是名人辈出的超级年份吧?

Mark:是,2012 年那一年特别厉害。Jacob Steinhardt、Paul Christiano,还有后来 AI 领域很多重要的人物都在那一届。

Ashlee:你也通过竞赛认识了 Cognition 的 Scott Wu,那些在 X 上被当成数学 meme 的人。

Mark:对,我们就在竞赛社区认识。

Ashlee:你从 MIT 毕业后,直接去了华尔街。

Mark:老实说,我对在华尔街做高频交易并没有太多自豪感。当时在 MIT,许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”,只要足够聪明,你就能获得对应的收益。然而文化上我并不适应。在那种环境里,当你发现了什么突破,第一反应是把知识藏好,因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统:即便某家 HFT 公司的算法快了一点,外界其实几乎没有任何感受。我做了四五年后发现,我们始终在跟同一批对手竞争,大家都稍微变快了,但世界并没有因此改变多少,我觉得是时候做点别的事了。

当时 AlphaGo 的比赛对我触动很大。虽然我并不下围棋,但看到模型展现出的创造性,我特别想弄明白背后的原理。

Ashlee:所以你是看到了那场比赛后,才开始关注 AI?当时你有在读论文吗?

Mark:坦白讲,没有。直到 AlphaGo 之后我才开始深入研究 AI。我的第一个目标就是复现 DQN 的结果,复现一个能在 Atari 游戏中达到超人水平的网络,那基本就是我踏入 AI 的起点。

Ashlee:你是在上班后业余时间做这些吗?我记得我大概 2018 年采访 George Hotz,他在自家车库做自动驾驶。他当时说,AI 仍然很年轻,只要读 10 到 30 篇论文,就能掌握整个领域。当然他的话未必完全准确,但 AI 的确很特别:历史很长,但此刻却异常“浅”。

Mark:确实非常“浅”。我常建议对 AI 望而却步的人:只要花三到六个月做一个项目,比如复现 DQN,就能很快触达前沿。过去几年虽然增加了一些深度,但远没有理论数学或物理那么深奥。

Ashlee:你觉得 AI 会像数学一样,天才都在二十几岁出现突破吗?还是这是一个可以做一辈子的领域?

Mark:我认为完全可以持续做下去。OpenAI 的文化确实偏年轻,但做好研究并不需要年轻。年轻人确实因为“先验少”,更容易突破传统路径,但随着经验增长,你也会形成自己的视角和框架,这既是优势,有时也会让你更固化。

OpenAI 的内部故事

Ashlee:你在 2018 年加入 OpenAI,那时公司应该只有 50 人左右?

Mark:差不多 20 人而已。我是以“研究员 resident”的身份加入的,也就是 OpenAI 会从其他行业招人进来集中训练半年,像压缩版 PhD,然后再参与更深入的研究项目。我很幸运能向 Ilya 学习,他基本决定了我的项目、学习路径和方向。

Ashlee:但如果去 LinkedIn 看,你的第一份 OpenAI 的头衔看起来像是“前沿研究主管”。

Mark:并不是,我做了三年左右的个人研究(IC)。当时我主要研究生成式模型,因为那是 Ilya 最关注的方向。之后我才开始带团队。

Ashlee:公众最早看到的大项目可能是 DALL·E,对吗?

Mark:是的。其实在那之前,我最自豪的项目之一是 Image GPT。它证明了 Transformer 不止能处理文本,也能在图像上学到强大的表示能力,是 DALL·E 的前身。而另外一个我非常自豪的项目是 Codex,我们搭建了代码模型的评估体系,也探索了如何让语言模型在代码任务上达到高水平。

Ashlee:那你当初为什么选 OpenAI?是因为当时这个小公司里有很多有意思的人吗?没钱、没人、前景很不确定,居然要挑战 Google 这种巨头。

Mark:我觉得一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。当时 OpenAI 两者兼具,这非常罕见。而且我认识 Greg,我们以前参加过数学竞赛,我给他发消息说:“我不确定自己是否适合,但这里似乎在做重要的事情。”

Ashlee:但你从外部加入,然后现在成为研究负责人,这听起来还是很不可思议。

Mark:对我来说也很不真实。从 IC 转管理者,我其实非常犹豫。不过一路上我遇到的管理者都非常支持我,他们看到了我的潜力,会主动为我争取机会。我从没主动要求升职,每次都是自然而然的结果。管理这件事,本质上主要靠经验累积,而 OpenAI 是一个能让你不断获得“经验值”的地方。

Ashlee:我认识的你是一个温和、稳重的人。但 OpenAI 过去几年经历了很多戏剧性的风波,甚至像“权力的游戏”。你要在这种环境里做管理,这和你的性格几乎相反。

Mark:老实说我在 OpenAI 算是很幸运。一路上都有人支持我、给我建议,也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。

Ashlee:不过你在“政变事件”那段时间做了两件很重要的事:你先帮助研究员们统一意见、促成那封让 Sam 回归的请愿信。然后一两天之后,你在 Chelsea 家做了一次很重要的短讲。这两个瞬间对我而言都很震撼,在危机时刻挺身而出、凝聚团队……这对你意味着什么?

Mark:对我而言,那确实是一个关键时刻。“风波”后的几天里,整个团队都处在高度不确定中。那段时间,我、Nick 和 Barrett 都感到一种责任感:竞争实验室正不断向我们的研究人员打电话,试图把他们挖走。我当时给自己设下目标:不能失去任何一个人。最终我们也做到了。

那几天,我们每天都把自己的家打开,让同事随时过来,释放焦虑,同时保持他们与领导层的沟通渠道畅通,让大家知道自己仍然能发挥作用。渐渐地,团队形成了一种“我们一起面对外界”的精神,大家都在思考:如何向世界传达“我们仍然站在一起”。

当时我在几处房子之间来回协调,我们提出了组建请愿书的想法,表达我们支持 Sam 的立场。大概凌晨两点,这个想法最终确定下来。到第二天早上,研究团队已有 90% 以上的人签署,到最后接近一百人都签了。那一整晚,大家都在互相打电话确认:“你参加吗?”

Ashlee:但你当时的处境应该挺尴尬的吧?毕竟一开始似乎是 Ilia 和 Sam 立场对立,而 Ilia 又是你的导师。后来 Ilia 又回来了……那会不会让你很尴尬?

Mark:不会说尴尬,但确实很困难,因为那是个信息极少的环境。那时候确实很容易怀疑:Sam 到底做了什么?但换个角度想,如果真有严重问题,Greg 和 Jakub 这种极其正直的人会因此辞职吗?我觉得肯定有部分事实被误解了。

Ashlee:Jakub 在那里工作很久了。关于他,有什么是外界不了解的?

Mark:他其实非常幽默,带着强烈的讽刺感,我常常被他逗得发笑。和他共事让我最珍惜的一点,是我们之间高度的默契。进会议室后,我们能迅速碰撞出一致的结论,然后分别负责路线图的不同部分。

说到“把团队留在一起”,我现在仍有这种使命感。我认为我们仍然“被攻击着”,任何公司想要招人时,第一选择往往是从 OpenAI 下手,因为他们想要我们的专业能力、愿景和世界观。OpenAI 造就了今天 AI 领域最多的明星研究员,因此我们对团队有强烈的保护欲。只要有人来挖,我就会尽一切努力确保团队感到被重视、被理解,并清楚自己在整个路线图中的位置。

Ashlee:在写书、回顾历史的过程中,我一直在想:这是否是一个高度依赖“天才个体”的领域?从 2012 年 Ilia 的突破,到 2017 年 Transformer,再到 Alec Radford……似乎每隔几年就有那么 8–10 个关键人物在推动整个领域。如果他们离开了,比如 John Schulman、Alec 离开了,那对团队不是巨大损失吗?但你们之后仍然在推理和其他方向取得了突破。

Mark:我并不同意“完全依赖明星个体”这种说法。OpenAI 的确会从上层做方向性押注,但我们内部有非常深厚的自下而上文化,很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展,是非常美妙的事,推理方向就是典型例子。

Ashlee:但行业确实会花大价钱去挖“明星”,比如 Google 花巨资请回 Noam Shazeer。

Mark:当然,人才既有培养也有争夺。反过来,我从 Meta 学到的一点就是:OpenAI 自己也可以非常积极地争取顶尖人才,我自己也从他们那套激进的招聘策略中学了几招。归根结底,我们的目标始终是:组建一支最强的团队,完成我们要实现的使命。

Ashlee:这个圈子其实很小,你们虽然竞争激烈,但私下也都是朋友。那边做研究,这边又试图挖对方的人,这不是很微妙吗?

Mark:这是残酷竞争的行业,但我个人也非常享受竞争。我讨厌失败,因此无论是研究还是招聘,我都会全力以赴。

Ashlee:这让我想到半导体行业早期也是这样:工程师们不断突破物理极限,在酒吧里分享最新发现,同时又被各家疯狂挖角。

Mark:是的,任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应:一种是建立深度信息隔离层,严密保护一切;另一种是继续保持开放文化,用速度压制对手。OpenAI 明显是第二种,我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法,这才是最快的前进方式。

Ashlee:那现在你、Sam 和 Jakub 之间的合作方式是怎样的?大家都能看出来 Sam 更偏研究,而你们两位更深度参与技术细节。

Mark:我们三个人联系非常紧密,我每天都会和他们交流。Sam 热爱研究,也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”,比如潜在问题、工作环境中的隐形障碍,他能帮我把这些提前揪出来。Jakub 和我则更专注于如何设计组织、让团队以最高效率协作,比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。

Ashlee:Sam 平时看论文、和你们聊天吗?

Mark:对,他会看论文,也会经常与研究人员交流,理解他们的研究方式。当然,他还负责范围远超研究的事务。

OpenAI 到底发现了什么?

Ashlee:我知道你们最近在预训练方面似乎有了重大突破,也明显比之前更有信心,能透露一下你们到底发现了什么吗?

Mark:我对过去两年的总体观察是:我们把大量资源投入到“推理”这一能力的研究上,努力理解并打磨这个核心原语,这条路确实走通了。但副作用是,模型的其他重要环节,特别是预训练和后训练,相对失去了些“肌肉”。过去六个月里,Jakub 和我花了很多时间把这部分能力重新练起来。

我一直把预训练看作一种“肌肉”,必须持续锻炼:信息要保持最新,团队要在优化、数值计算等前沿方向持续投入,同时也要确保有足够的心智关注度。所以我最近一个重要工作,就是引导公司内部的讨论重回预训练,我们认为预训练还有极大空间。

外界有人说“Scaling 已死”,但我们完全不认同。某种意义上,行业现在把注意力集中在 RL,这反而给了我们“信息优势”,因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力,我们最近训练出的模型明显更强,这也让我们对包括 Gemini 3 在内的接下来一系列发布更有信心。

Ashlee:我脑中对这段历史的画面是这样的:你们跑得太快了,整个领域也跑得太快。突然之间,我们从互联网收集到巨量资料,把它扔进一台超级计算机,于是 ChatGPT 诞生了,然后所有人就开始疯狂冲刺。但对于不紧密跟进的人来说,问题可能是:最初那波数据其实非常粗糙,只是稍微清洗了一下就丢给模型。而现在你们说在“学习更高效地塑造数据”,但外界很难理解到底之前的“错误”是什么。

Mark:你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式,模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限:当你模仿人类时,你很难真正超越人类。

这也是为什么 RL 重要,它让我们有机会把模型推向更难的任务,让它从人类范式之外思考,拓展能力边界。但随之而来的,是一个更困难的问题:如果我们要让模型真正超越人类,该怎么衡量?

例如,在科学领域,当能力达到了“超人类”水平,人类真的能够判断 A 比 B 强吗?如何判断一个“超人类数学家”比另一个更厉害?我们需要更好的评估体系。迄今为止,我们很幸运,IMO、IOI 等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类,这些测验本身就失效了。

Ashlee:我常看到那些竞赛牛娃后来进 Google、Facebook,但他们不一定是最顶尖的工程师,也不一定愿意或适合进入工业界。所以单纯在竞赛上拔尖并不等于就是“最强工程师”。那如果未来 AI 在这些竞赛上表现极佳,我们到底能从中学到什么?

Mark:这正是我喜欢 AI 研究的地方,它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是:你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断,例如路线选择、资源配置、项目方向。如果判断错误,很快就会失去团队的信任。

我很享受与这样一群极度技术驱动的人共事,他们都深度投入、极高水准,与他们讨论技术本身,是一件真正的乐趣。

Ashlee:在我心里,Transformer 是一次巨大飞跃,而“推理能力”的突破甚至可能更惊人。最近与你、Greg、Jakub、Sam 交流时,我感觉你们说过去三到五年投入的大量工程工作,其实还没有完全显现出来。你们现在看到的,是另一场类似 Transformer 的跃迁吗?

Mark:我认为是的。比如在 GPT-5 时,我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力,我们正在快速扩大投入。关键仍是维持一组多样化的探索,把最有实证价值的方向加大力度推进。

Ashlee:但两周前,Karpathy 在播客上说 AGI 可能要十年;上周 Dario 又说更接近两年。行业内部声音完全不一致。你怎么看?

Mark:Twitter 很喜欢那种“结束了!”“又回来了!”的戏剧化循环。但 AGI 本身连定义都不统一,在 OpenAI 内部,你把所有人叫到一个房间,也不可能给出一个完全一致的 AGI 定义。

我更把它类比成工业革命:你说纺织机是工业革命,还是蒸汽机是?视角不同,切点也不同。对我而言,我更看重的是:模型是否开始产出真正新的科学知识?是否推动科学前沿?从今年夏天以来,我感觉在这方面出现了巨大的相变。

Ashlee:你说的新科学成果,是不是指最近那些生物科技初创公司,比如一次性设计抗体、分子结构那类突破?还是你指的另有其事?

Mark:那次与物理学家的交流给了我很大启发,我回去后就想,我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家,能够获得最大程度的支持。我知道其他公司也在推动科学前沿,但我们和谷歌等机构的不同之处在于:我们希望让所有科学家都有机会借助工具做出诺奖级突破,而不是让 OpenAI 自己拿诺奖。我们要构建的是通用的工具与框架,让科学界整体都能加速。

Ashlee:你能具体说说有哪些让你兴奋的发现吗?

Mark:当然。你可以去看 Sebastian 的推特,他最近发了关于 GPT-5 在一个开放凸优化问题上取得进展的论文,这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”,但远比这复杂。

Ashlee:这两天听到有人声称“我们做出了 AI 科学家”“我们一次性设计出增强型蛋白质”,这些公司里不少是真正的科学家,我也多少会兴奋。但数量实在太多,我很难判断哪些是真正的突破、哪些只是噪音。

Mark:如果这些突破发生在生物领域,我一点也不意外。尽管我主要的专业在计算机科学和数学,但我们团队里有顶级专家,他们确认了不少是真正的科学发现,生物学里出现类似情况并不令人惊讶。

Ashlee:但你描述的情况似乎与最近几周不断变化的公众叙事不同。比如一些播客里的人会说 AI 没什么进展,都是虚幻的。如果这些发现是真的,公众应该会感受到变化才对。

Mark:我们在筹建 OpenAI for Science 时与许多物理学家和数学家交流过,其中大多数人对 AI 其实并不乐观,他们觉得模型不可能证明新定理。但正因为如此,我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快,我们希望为他们提供工具,也希望说服更多研究者:这是未来科学研究的正确方法。

Ashlee:每个人对 AGI 的定义不同,但你似乎认为未来一两年会发生非常剧烈的变化?

Mark:“AGI 两年后到来”一直是个梗,但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果,让我真正产生了信念。在 OpenAI 内部,我们设定了两个非常具体的目标:

第一,1 年内改变研究方式:让研究过程可以依赖 AI 实习生。也就是:研究者负责提出想法,模型负责实现、编写代码、调试。

第二,2.5 年内让 AI 能进行端到端研究。这意味着:研究者只确定方向,模型完成从构思到执行到验证的全过程。

与今天相比,这是完全不同的研究范式。

算力、GPU 与 AI 硬件

Ashlee:在与 OpenAI 的人聊时,我常听到一句话——基础设施扩张得很快,模型只要算力再提升 10 倍就会变得更好。但也有人说从 GPT-4 到 GPT-5,你们算力增加了,却没有看到预期的效果。可你们的叙述又让我觉得:其实我们还没真正看到“10 倍算力飞跃”带来的结果。

Mark:有人问我:“你们真的需要这么多算力吗?”我总是被这个问题震惊,因为我每天面对的都是海量算力需求。如果我们今天多 3 倍算力,我能立刻高效用完;如果多 10 倍,大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多 GPU 吗?”对我来说毫无意义。

Ashlee:那除了算力需求,你们对模型规模继续扩大是否同样乐观?你们是否看到,类似“规模效应”会再次推动巨大跃升?

Mark:是的,我们非常明确要继续扩大模型规模;而且我们有突破性的算法能支持更有效地扩展。我认为 Gemini 3 也很令人印象深刻,但从细节看,比如 SWE-bench 等指标,他们在数据效率方面仍没有重大突破,而这是我们非常强的部分。

Ashlee:我看到了一份泄露的备忘录,Sam 对 Gemini 3 的语气听起来相当严肃,仿佛是一个转折点。你们内部应该都看过吧?

Mark:是的,但你要知道,Sam 的工作之一就是不断在组织里注入紧迫感,我也一样。我们必须保持专注,加快节奏。Gemini 3 是谷歌该做的正确押注,但与此同时,我们也有明确的策略与回应,并且我们有信心执行得更快。

Ashlee:你们会参与像 Jony Ive 的 AI 设备这样的项目吗?比如研究团队在其中扮演怎样的角色?

Mark:是的,事实上,就在昨天我和 Jony Ive 以及几位研究负责人一起吃了晚饭。我一直在思考未来的 ChatGPT 会是什么样子。现在的交互方式对我来说还很“笨”,非常非思维原生:你给一个提示,它回答;你不提示,它就停止思考。而且如果你再给出类似的问题,它会重新花一样多的时间推理,仿佛没有从第一次的上下文中变得更聪明。

未来显然应该不同。记忆会是核心能力:每次你使用 ChatGPT,它都会学到关于你的更深层次信息,思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来,它会变得更好。我认为这会彻底改变“设备”的范式,因此我们必须思考:如果 AI 的主导逻辑是持续学习与反思,那硬件设备应该怎么重新设计? 这就是和 Jony 合作非常有价值的地方。

Ashlee:你们已经有设备原型了吗?

Mark:我不能说有没有,也许有,也许没有。

Ashlee:我想到的是:苹果时代的核心是“硬件品味”,这是 Steve Jobs 极度执着的东西。而你们似乎都没有真正做过硬件产品。Sam 的审美看得出来不错,但还没到“乔布斯式品味”的程度。硬件是极其依赖品味的,你们怎么确定自己能做出好产品?

Mark:坦白说,我们不需要自己拥有那种品味,那是 Jony 的价值,他就是我们关于“品味”的判别器。而且很有趣的是,我们发现设计流程与 AI 研究流程之间有深刻的相似性:大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅:他们根据我们即将发布的能力去思考外形,我们根据他们的外形需求去思考能力。

Ashlee:我有时会担心:一群数学与模型天才是不是适合造“下一代电脑”。但听你这么说,似乎你们形成了一个合理的搭配。

Mark:确实,打造 AI 能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题:“ChatGPT 最喜欢的数字应该是什么?”这种问题能检验模型的“人格品味”一致性。 

最后的问题

Ashlee:ChatGPT 建议我问你:如果五年后回看,现在有哪些“还很脆弱”的想法,你直觉认为可能是大突破的核心?

Mark:确实有几个,我非常期待把它们规模化。主要集中在预训练,一些在 RL,还有一些是如何把所有组件整合在一起的整体性想法。 

Ashlee:你觉得现在外界对 OpenAI 最大的误解是什么?

Mark:最重要的一点:OpenAI 从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是 AGI,其他所有产品都会自然从研究突破中流出。

我们关心三件事:自动化 AI 研究本身、自动化科学发现、自动化经济性工作。今年最大的更新,其实是第二条:科学研究的自动化开始真实发生了。

Ashlee:你几岁了?还有社交生活吗?

Mark:34,快 35。老实说,没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点,那就必须抓住它。Barret 离开去创业之后,我在办公室睡了一个月。那段时间我非常强烈地感到:我必须保护研究,这是我最在乎的东西。

Ashlee:DeepSeek 事件之后,你们怎么看开源模型?

Mark:那是第一次让我深刻意识到:必须坚定走自己的研究路线。DeepSeek 当时引发巨大舆论,大家都在问:“OpenAI 落后了吗?要怎么回应?” 但我们做得最正确的一件事,就是继续执行自己的研究规划。DeepSeek 的工作非常强,但主要是对我们 O 系列理念的复刻。关键是,我们必须继续创新。

Ashlee:你认为 500 人是一个最优规模吗?随着公司扩大,这个数字会增长,还是说为了同时推进若干重大想法,500 人已经是最合适的规模?

Mark:坦率说,我认为甚至可以更少。尤其在我们开始引入 AI 研究员或 AI 实习生之后,我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度,我做过一个实验:完全冻结研究部门的新增人头。如果团队想招人,就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀,并保持极高的能力标准。

Ashlee:我记得之前在一次会议上,你和 Jakub 的观点比较一致:你们认为大家过度关注“谁在项目里获得署名”这个问题。AI 起源于学术界,在学术环境中署名极其重要。但那次会议里,你似乎在强调:大家可能对这个问题有点太执着了。是这样吗?是不是因为现在 OpenAI 已进入新的阶段,在公司环境下,这件事不再那么重要?

Mark:我认为过度关注“功劳归属”是件坏事。但另一方面,我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度,但 Jakub 和我最终决定 OpenAI 必须保留署名。反对意见常常是:“你们把顶尖人才的名字摆在台面上,其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到,我们应该持续培养 AI 领域的明星研究者,也应该让真正做出贡献的人建立起自己的声望。

Ashlee:但你似乎又同时认为,研究员个人不应该过分执着于署名了?

Mark:现场确实有人表达过那种观点,但其实 Jakub 和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳,哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说:OpenAI 可能是整个行业里,最愿意给研究者公开署名的公司,没有之一。

Ashlee:你 2018 年加入时,OpenAI 还是一个研究导向、非营利的组织,创始人希望它成为 Google 的平衡力量,并以“确保 AGI 安全到来”为目标。而你来自华尔街高频交易,只是被 AI 的进展吸引过来。说实话,你并不“必须”对 AGI 的哲学问题深怀使命感。那你究竟为什么要做这件事?

Mark:我同时管理 OpenAI 的对齐团队。坦白说,未来一两年最重大的难题,就是对齐问题。在这个研究方向上,OpenAI 在过去一年做出的成果可能是整个领域里最好的。

原因之一是:在 RL 与算力增加后,我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险,因为模型最终给你的答案可能是“正确的”,但它得到答案的过程却完全偏离我们能接受的路径。

随着模型替我们执行的任务越来越复杂,理解它的思维过程将变得极其关键。

Ashlee:这和机械可解释性有关,也就是试图理解模型内部机制的问题。核心问题是:我们的理解能力能否跟得上模型复杂性的提升?还是会最终被模型甩得太远?

Mark:我们在发布 O1 时做了一个关键决策:我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”,它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预,我们仍然能“看到”模型真实的思维轨迹,并将其作为研究对齐的重要工具。

几个月前,我们与 DeepMind、Anthropic 合作发表了一篇论文,探讨未来如何通过这种方式理解模型。我确实担心未来某一天,模型给出非常有说服力的答案,但我们无法确认它是否真正与人类的价值一致。

因此有很多值得探索的方向,例如:能否设计一种博弈或环境,让模型在互相监督、共同演化的过程中,唯一稳定的均衡,就是“诚实”?我认为这里还有大量非常重要的研究要做。

 

参考链接:https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s

原帖地址
https://x.com/millionint/status/2008237251751534622

OpenAI 资深研究员 Jerry Tworek 于 1 月 5 日正式宣布离职,这位关键人物曾深度参与 GPT-4、ChatGPT 以及推理模型 o1 和 o3 的开发工作。他的离职标志着 OpenAI 内部人才流动的又一动态变化。在发给团队的告别信中,Tworek 回顾了自己在公司近七年的贡献,包括早期机器人强化学习项目以及 Chinchilla 缩放定律等里程碑式研究。他表示,未来将探索 OpenAI 难以开展的科研类型,同时对公司表达了由衷感激之情。

多名同事和社区成员在回复中高度赞扬 Tworek 的影响力。OpenAI 研究员 Noam Brown 称其为 “推理模型领域的无名英雄”,谷歌 Gemini 产品负责人 Logan Kilpatrick 也表达了对 Tworek 贡献的赞赏,并祝贺其职业生涯。一些观察者表示,这是 OpenAI 的 “巨大损失”。


📌 转载信息
原作者:
HCPTangHY
转载时间:
2026/1/6 18:53:28

TII 刚刚发布了 Falcon H1R-7B 模型

一种新型推理模型,仅凭 70 亿参数和 25.6 万字节上下文窗口,便在数学和编程领域超越其他模型

该模型融合了 Mamba 与 Transformers 架构,因此在吞吐量和内存效率方面更具优势


官方介绍:Introducing Falcon H1R 7B
Hugging Face:Falcon-H1R - a tiiuae Collection


热乎的喵,最新小模型好多哇


📌 转载信息
原作者:
artorius
转载时间:
2026/1/6 17:03:08