标签 Meta 下的文章
篡改模型测试结果后,小扎边缘化所有参与员工
整理|华卫 去年这个时候,外界普遍传言:图灵奖得主、Meta 前首席科学家 Yann LeCun 将主动离开 Meta,寻求新的研究机会。如今,LeCun 也已官宣离职开启创业之路。 而刚刚公开的一场对 LeCun 的专访,却呈现了另一番截然不同的故事。这场对话长达三小时,期间 LeCun 曝出了不少 Meta 的猛料,并勾勒出了这一残酷现状:组织运转失灵、基准测试结果造假,以及一位拒绝为自己认定存在科学缺陷的方案背书的研究员的出走。 首先,LeCun 透露了一个 Meta 本不愿公之于众的惊人细节:Llama 4 的基准测试结果是人为操纵的。 “这些结果有几分掺假,”他解释道,工程师针对不同的基准测试采用了不同的模型变体,目的是优化分数,而非展示真实的能力。 这绝非一场单纯的产品失利。2022 年 11 月 ChatGPT 的问世打了 Meta 一个措手不及,公司领导层陷入慌乱。Meta 随即围绕生成式 AI 业务进行重组,相继推出了 Llama 2 和 Llama 3。Meta 将自身定位为开源领域的领军者,是对抗 OpenAI 封闭模式的一方。单看 Llama 3 的下载量和生态系统渗透率,Meta 的布局相当成功,这包含渠道分发、品牌塑造和生态引力所带来的效果。 这一系列势头最终促成了 2025 年 4 月 Llama 4 的发布。这款模型虽斩获亮眼的基准测试分数,却因实际表现问题饱受诟病。此前也有独立报道证实了 LeCun 所描述的“数据作弊”行为,针对不同测试,专门挑选对应的模型变体。 LeCun 在采访中表示,这一事件让 Mark Zuckerberg 对公司现有 AI 团队彻底失去了好感。 据称,这位首席执行官当时震怒不已,“基本上对所有参与此事的人都失去了信任”。“也正因为如此,整个生成式 AI 团队都被边缘化了。”LeCun 表示,“很多人已经离职,还有不少没走的人也即将离开。” 随后,Meta 针对 Llama 4 失利所做出的一系列应对举措,折射出其管理层当时的窘迫处境。据路透社报道,2025 年 6 月,该公司斥资约 150 亿美元收购了数据标注初创企业 Scale AI 的大量股份。与此同时,Meta 聘请了 Scale 年仅 28 岁的首席执行官 Alexandr Wang,牵头组建一个名为 TBD 实验室的全新研究部门,负责前沿 AI 模型的研发工作。 该公司还展开了声势浩大的挖人行动,据称向竞争对手旗下的顶尖研究员开出了 1 亿美元的签约奖金。 通常,健康的研究机构不会因为一次挫折就动辄斥资 150 亿美元收购初创企业的大量股份。这些举动,似乎亦在展露这家公司正面临战略押注摇摇欲坠的危机。 对 Wang 的任命,造成了公司架构上一次令人错愕的上下级反转。身为图灵奖得主、卷积神经网络发明者、深度学习革命联合发起人的 LeCun,如今竟要向一位主业为训练数据标注的人汇报工作。在任何一家研究机构,这样的身份倒置都堪称骇人。这位领域奠基人端坐会议桌前,听着一位年龄不及自己一半的后辈,为那些对方既未参与创造、也未完全理解的技术规划发展蓝图。 LeCun 在采访中直接表示,此人“毫无研究经验,既不懂研究该如何开展,也不知道研究该如何落地”。“他学得很快,也清楚自己的短板所在……但他毫无研究经验,既不懂研究该如何开展、如何落地,也不知道什么样的东西能吸引研究员,什么样的东西会让研究员反感。”LeCun 如此说道。 当就这一汇报层级向 LeCun 追问时,他的回应措辞谨慎却一针见血:“没人能对研究员指手画脚。尤其像我这样的研究员,更是绝无可能。”LeCun 表示,尽管在 Zuckerberg 主导的 AI 业务重组后,这位 28 岁的年轻人曾短暂担任自己的上司,但实际上并没有对他发号施令。 实际上,双方更深层的矛盾似乎并非源于层级,而是源于理念分歧。Wang 代表的是 Meta 押注语言模型规模化的战略方向,而 LeCun 则认为这一范式从根本上就误入了歧途。让奉行这一理念的人身居管理要职,让他的留任变得绝无可能。 “我敢肯定,Meta 内部有不少人,或许也包括 Alex,都巴不得我不要对外宣称,在通往超级智能的道路上,大语言模型本质上已是一条死胡同。”LeCun 强调,“但我不会因为某个家伙说我错了,就改变自己的想法。我没有错。作为一名科学家,我的职业操守不允许我做出这种违心之举。” 如今 Meta 的 AI 战略,核心是沿用 OpenAI 联合创始人声称已触及天花板的架构方案,与 OpenAI 展开竞争。 然而,作为这家公司最具声望的 AI 研究员,LeCun 认为,这种方案根本无法实现 Meta 宣称要追逐的智能目标。据其透露的内容,负责 Meta 旗舰模型的团队交出的成果可信度极低,致使管理层对整个团队都丧失了信任。 事实上,LeCun 对大型语言模型的批判,早已超越 Meta 此次的具体失利事件。LeCun 一直以来都在强调,大型语言模型的局限性过大,若要释放 AI 的真正潜力,必须另辟蹊径。 过去数年间,他在公开演讲与技术论文中阐释的核心论点,本质上是一个数学层面的结论:语言这一载体,对于培养真正的智能而言,存在着根本性的带宽不足问题。 参与 Lex Fridman 播客节目时,LeCun 曾测算过一组数据:若要通读互联网上的全部文本(体量约为 2×10¹³字节),人类需要耗费 17 万年的时间。而一个四岁孩童,单是通过视觉输入接收的信息体量就约达 10¹⁵字节。也就是说,在幼儿阶段,孩子吸收的信息量,就比大型语言模型从人类全部书面语料库中提取的内容多出 50 倍。 这一数据背后,潜藏着更为深刻的启示。训练大型语言模型,就如同试图通过阅读所有与木材相关的书籍来学习木工手艺:你自始至终都没有碰过一把锤子。诚然,你能掌握相关的专业词汇,但却无法真正理解背后的物理原理。LeCun 的判断很简单:要学好木工,你必须亲手挥起锤子。 这一点恰好解释了 AI 能力上长期存在的短板。青少年只需 20 小时就能学会开车,幼儿第一次尝试就能擦干净桌子,家猫能轻松穿梭于复杂的三维空间。然而,即便投入了数十亿美元的研究经费,在万亿级别的语料库上训练出来的 AI 系统,却在这些任务面前束手无策。 2025 年 11 月,OpenAI 前首席科学家、规模化范式的缔造者 Ilya Sutskever 在接受 Dwarkesh Patel 采访时也抛出了这样一个振聋发聩的观点。他表示,该领域正从“规模化时代”迈向“研究时代”,单纯依靠算力规模的扩张,只会产生边际效益递减的结果。 当这一范式的开创者都如此表态时,其分量不言而喻。ChatGPT 问世后形成的、围绕大语言模型规模化的行业共识正在瓦解。 在接受采访的午餐会上,LeCun 用一个具体的例子阐释了他提出的另一种技术路径。当他掐别人一下时,对方会感到疼痛,其心智模型随即发生更新,下次当他再抬手靠近时,对方会本能地退缩。这种基于预判产生的反应,以及随之触发的情绪,才构成了对因果关系的真正理解。而大型语言模型并不具备这样的机制。它们只是基于统计规律来预测语言符号,而非通过因果模型去判断行为会引发何种后果。 为此,LeCun 提出了一套名为联合嵌入预测架构(JEPA)的世界模型架构,以此弥补现有技术的缺陷。该架构通过对视频与空间数据进行训练,培养系统基于物理原理的认知能力。它让系统学习与行为相关的抽象表征,而非执着于符号层面的预测;同时,它还融入了能随经验不断进化的持久记忆,而非在每次对话时都重置记忆。 采访中,LeCun 给出了该架构的落地时间表:12 个月内推出雏形版本,数年内实现更大规模的部署应用。 据称,他创办的这家初创公司命名为“先进机器智能”,其技术路径正是他所主张的、比大型语言模型更具优势的方案。在这家新公司里,他将出任执行董事长,而非首席执行官。 “我是一名科学家,一个有远见的人。我能激励人们去做有趣的事情。我很擅长预测哪种技术会成功,哪种会失败。但我当不了 CEO。”LeCun 说,“我既太缺乏条理,也太老了!” 世界模型能否后来居上,目前尚无定论。LeCun 预测,具备动物级智能水平的 AI 将在五到七年内实现,而达到人类级智能则需要十年时间。 这位曾助力构建当前 AI 范式的领军人物,如今正孤注一掷地押注:要实现超越,必须依托截然不同的技术路径。绝非细枝末节的渐进式改良,而是彻底颠覆式的全新架构。 参考链接: https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2篡改模型测试结果后,小扎边缘化所有参与员工
LeCun 锐评 Alexandr Wang:毫无经验、休想对我指手画脚
“语言模型已经达到瓶颈”
新架构一年内有雏形?
2025 年硅谷给华人 AI 精英开出上亿年薪!Agent、Infra 人才被抢疯了
2025 年的硅谷 AI 圈,最激烈的战场已不止于模型参数和榜单上,另一场残酷的战争也在暗中同步升级。 当大模型一路卷到极限,算力、参数规模、基准测试分数开始出现明显的边际递减,真正被重新定价的,是“人”。 过去几年,硅谷 AI 的主叙事是“谁能训练出更大的模型、刷出更高的分数”。 但进入 2025 年,模型能力仍然重要,却不再是唯一的决定因素;大家的关注重心逐渐从“模型参数与评测分数”,转向“谁能够将模型纳入产品与系统核心,并持续推动其在真实业务场景中发挥作用”。 这一变化,非常直观地体现在一连串人员流动中: 一边是科技巨头高调宣布重金抢人、疯狂扩招 Agent、系统、基础设施方向的研究与工程负责人;另一边,他们又在内部对原有 AI 研究体系进行重组,让多位中高层研究负责人选择离开舞台中央。 在一系列重大人事变动中,Meta 今年的变化尤为瞩目:比如前两天豪掷 20 亿美元买下智能体公司 Manus,顺手也把 Manus 创始人肖弘“纳入囊中”。另外据《华尔街日报》7 月报道,Meta 采用“爆炸式 offer”战术:签约金最高达 1 亿美元,决策窗口短至几小时。 而作为 Meta 的前首席 AI 科学家兼 FAIR 创始人的 Yann LeCun,却在 11 月官宣离职创业,聚焦高级机器智能研究项目(Advanced Machine Intelligence,AMI)。 OpenAI CEO 奥特曼直言,今年他见到了职业生涯中“最残酷的人才市场”,Meta 向他的 OpenAI 团队挖人,还抛出炸裂的报价:“签约金 1 亿美元起步,年薪还远高于此”。 从 Meta 到 OpenAI,从谷歌到苹果,从“首席科学家”到“研究负责人”...... 这些名字的变动,正在折射出一件重要的事情——美国科技巨头的 AI 研发重心,正在整体迁移。 不过研究的价值也从未失效,模型训练依然是产业生长的底座。但 AI 行业更看重的,已逐渐变成了把模型转化为可执行系统、并在真实场景中持续创造价值的能力。 还有值得一提的是,这场混战中,大量华人工程师在站上了关键岗位。 为什么今年看起来“裁员”和“抢人”同时发生? 看似矛盾现象的背后,其实是行业对 AI 发展路径的认知正在发生转向:通用人工智能(AGI)的乌托邦式愿景逐渐褪色,特定领域、可落地的超级智能(ASI)成为新共识。 对此,Anthropic 高管 Jack Clark 曾警告“巨变在即,AI 将把世界撕裂为两个平行宇宙”。 更直接的变化在于,AI 正在从“技术突破期”快速切换到“工程兑现期”。裁员与抢人,正是这一阶段转换在人才市场上的投射。 核心矛盾的起点,是大语言模型(LLM)正式迈入平台期。过去数年,“更大参数、更多数据、更高算力”的线性增长逻辑,支撑着 AI 行业的技术狂热与估值飙升。 但到 2025 年,这条路径的边际收益明显下降。顶尖模型的能力天花板逐渐显现,再叠加算力成本的指数级攀升,企业突然发现,“把模型做得更强”的投入产出比已大幅下滑。 这一点在 OpenAI 身上体现得尤为明显,其年营收约 130 亿美元,却要烧掉 90 亿美元维持运营,2028 年亏损甚至可能膨胀至营收的四分之三,算力成本压力倒逼企业必须转向商业价值兑现。 当技术探索的空间收窄,企业关注的重心自然转向三件事:能不能用、能不能卖、能不能规模化。 这一转向,直接改变了 AI 人才的价值排序。 在技术突破期,中高层研究人才的核心价值在于定义方向、探索未知、构建长期技术壁垒;但进入工程兑现期,企业的战略重心变成“把已有的模型能力转化为稳定的系统、可落地的产品和持续的现金流”。 不是 AI 人才变多了,而是“被需要的 AI 能力类型变了”。 2025 年硅谷 AI 人才流动潮中,Meta 是最具冲击力的变量之一:一边以天价薪酬全球争抢工程与产品型人才,一边持续流失 AI 体系核心的研究型高层。 田渊栋被裁、Joelle Pineau 离职、Yann LeCun 话语权旁落,这些并非孤立事件,而是 Meta AI 战略根本转向的集中体现——从“基础研究与产品并行”,彻底转向“以产品为核心的集权化研发体系”。 基础研究不再天然拥有战略优先级,唯有能直接服务产品主线、影响竞争胜负的研究,才能留在权力中心。 这一转向最直观的标志,是 FAIR 实验室的衰落。 2013 年,扎克伯格与 Yann LeCun 共同创立这个以“推动 AI 前沿、造福人类”为使命的基础研究高地,代表着 Meta 对长期 AI 研究的耐心押注——彼时逻辑清晰:基础研究定义能力上限,产品负责兑现价值。 但生成式 AI 浪潮打破了平衡,算力、数据与资本成为核心变量后,组织价值评判标准彻底转向“可转化性”:研究的重要性,不再取决于是否推进认知边界,而在于能否快速落地为产品能力。负责产品落地的 GenAI 团队逐渐成为主线,FAIR 则从“战略源头”退为“技术后方”。 Llama 系列的演进加速了这一趋势。Llama 3 的开源成功让 Meta 成为大厂开源阵营核心玩家,也让管理层明确目标:AI 不仅要领先,更必须渗透进 Meta 所有产品形态。 在此导向下,Llama 4 的规划重点被强拉至多模态能力与应用整合,推理能力、思维链等基础研究被归为“可延后”选项。直到 DeepSeek 与 OpenAI o1 实现推理突破,Meta 才意识到基础能力缺口无法用产品工程弥补,即便抽调 FAIR 团队临时“救火”,路线已难以逆转。 Meta 在 10 月裁掉 600 人,不少 FAIR 老人黯然离场,包括顶级研究员田渊栋。 值得注意的是,这些离开或被边缘化的顶尖研究者并未退场,反而带着对主流 AI 路径的明确判断,分流成截然不同的创业赛道。 最具前沿探索性的,是 Yann LeCun 押注的“世界模型”路线。 作为 FAIR 创始人、图灵奖得主,他始终是主流 LLM 路线的尖锐异议者,长期质疑“堆参数、喂数据”的范式,认为当前模型仅停留在统计拟合,并未真正理解世界。 离开 Meta 后,他创办 Advanced Machine Intelligence Labs(AMI),核心目标是通过建模世界运行规律,构建具备持久记忆、推理与规划能力的系统——这一路线不追逐短期性能指标,而是试图从根源重塑智能实现方式。 另一批研究者选择向现实业务靠拢,Joelle Pineau 是典型代表。 2025 年 5 月,这位 FAIR 体系的核心组织者、Llama 早期技术路线的深度参与者离职,加盟 Cohere 出任首席 AI 官。她长期主导强化学习与对话系统研究,此次转向清晰指向“可控、可部署、能被企业真正使用的 AI”。 而正以“主权模型”重新定位的 Cohere,也借 Pineau 的加入,补齐了研究深度与工程落地之间的关键短板。 还有一条路径,流向了全栈实验室化的创业公司,“PyTorch 之父” Soumith Chintala 是其中的代表。 2025 年 11 月,结束 11 年 Meta 生涯的他加入 OpenAI 前 CTO Mira Murati 创办的 Thinking Machines Lab(TML)。这位曾构建全球 AI 研究基础设施的人直言,离职的原因是希望跳出“极度成功的舒适区”,探索下一代 AI 系统形态。 在 OpenAI 核心研究员持续外流的背景下,TML 正逐渐成为新的承接平台。它以“让强 AI 更可理解、可定制”为方向,集结多位来自大厂的核心成员,凭借高额融资与“开放科学”的研究取向,逐渐成长为能够独立承担前沿探索的“平行实验室”。 答案从 2025 年硅谷科技巨头们的招聘与收编动态就能读出来,这场激烈的人才抢夺赛主要围绕三类核心能力展开:agent、多模态与实时交互、推理和 AI Infra。 首先是 Agent 与可执行系统方向,即能把模型变成“能干活”的系统。 这类人才的能力,不只限于模型训练本身,而是把模型嵌入到可执行、可操作的系统里——包括多步任务规划、工具调用、页面 / 应用直接操作等能力。 其二,多模态在 2025 年不再停留在“能生成图片 / 文字”这种静态功能,而更强调实时感知、持续交互和环境理解。 极具代表性案例,就是 Meta 在 6 月份不仅斥资约 140 亿美元投资并收编 Scale AI,还将其创始人兼 CEO 亚历山大·王(Alexandr Wang) 招致麾下。 亚历山大·王是一位 97 年出生的美籍华人小伙,从 MIT 辍学,后创立了一家做 AI 数据与评测基础设施的公司 Scale AI,为大型科技公司训练最新 AI 模型。 小扎还让这位年轻人和前 GitHub CEO Nat Friedmany 一起领导新成立的 “超级智能实验室(Meta Superintelligence Labs,MSL)”。 这个 MSL 很不简单,据 OpenAI CEO 奥特曼爆料,Meta 给该团队新员工提供签字奖金可达 1 亿美元(约合人民币 7 亿元)! 至于此消息为啥为从奥特曼口中说出,或许是因为小扎从 OpenAI 猛猛“偷家”吧——扎克伯格在他的备忘录中提到了 11 人,其中至少有 6 人是华人,7 人来自 OpenAI。 据 Business Insider 消息,MSI 首发团队成员中,余家辉、赵晟佳、毕树超、Huiwen Chang、Ji Lin、任泓宇、等 6 人都曾在 OpenAI 担任关键模型、关键团队的负责人。 这些人中,有的人曾参与过 Agent 型、多步推理或执行研究,有人则是在多模态、语音 / 视觉理解、后训练 / 交互系统方面有深厚积累的复合型研究人员。 另外,马斯克的 xAI 虽然暂时没有没有统一公开名单,但关于 xAI 的战略规划,曾多次提到多模态能力(尤其与超算中心、NVIDIA 推理能力结合),这类战略需要大量精通多模态模型与分布式系统的工程师来实现。 其三,关于推理和 AI Infra,主要是为了让模型跑得起、跑得稳、跑得便宜。 这里的“推理与 AI Infra”包含两个层面: 推理系统设计与优化:如何让大型模型在实际场景中高速、低成本地响应; 基础设施与可服务化能力:从数据管线、模型发布、调度、监控到弹性伸缩。 这类人才既要懂深度学习,又要懂系统工程、服务架构、调度策略,在 2025 年极度抢手。 比如,英伟达通过与 AI 芯片初创公司 Groq 的顶尖工程师达成协议,引入其联合创始人 Jonathan Ross 及执行团队。 这批人才曾在谷歌等大厂负责高性能、低延迟的 AI 推理芯片架构设计,而优化推理能力正是 Infra 人才的核心一环。 而谷歌这边,也在忙着抢夺 AI 软件工程师,其中高达 20% 的新增 hires 是“回流员工”(boomerang workers),这类岗位几乎全部聚焦于将内部 AI 研发转写入产品 / 系统层,包括推理效率提升、API 服务化框架、企业级部署架构等。 可见,推理效率和基础设施能力已成为 AI 竞争的重要战场,过去仅靠堆算力已无法满足企业级需求。 总而言之,这些都是硅谷 AI 战场上现在被重金争抢的关键能力,远远超出过去单纯“模型参数”和“benchmark 比拼”。 2025 年,顶级 AI 人才并没有离场,只是大家从论文和 Demo,更多地走向了系统、平台与现实世界。而 2025 年的硅谷,也正是在这场无声的人才迁徙中,完成了一次新的方向校准。 参考链接: https://www.ft.com/content/3584197e-a99a-4a06-9386-dc65cf603f45?utm_source为什么 2025 年的硅谷,裁员和抢人同时发生?
谁在离开舞台中央?长期研究型高层的集体“降权”
谁在被疯狂争抢?华人工程师站上关键岗位
