2026年1月

之前有讲过自己开汽车美容店的经历: https://v2ex.com/t/1184814?p=1#reply7
看到有老哥写了很多自己的尝试,我也来分享下我这前半生的尝试,都是小活,没有门槛,但是更多的想把这些经历像故事一样分享,没挣到大钱,但是人到三十,回顾起来还是挺有疑似的。

我的第一次尝试在我的初中,那时候我妈有一个月回娘家,给了我 200 的生活费,我特别想把这笔钱变多,那时候正是“打字员”这类虚假广告满天横飞的时候,于是我终于在我妈走的第一周,联系了我看了很久的一个打字员的工作,于是 qq 上那个人让我下载类似 yy 的软件,然后一步一步教我,先缴费 158 进入高级房,等进了高级房又说缴费多少进入什么房间的时候我就知道被骗了。于是我靠着差不多 50 的生活费,辛辛苦苦的活了一个月。

第一段经历就这样惨败的结束了,但是日后的反诈意识也是非常的强,总体来说是一件好事。

初三中考毕业的暑假,同学问我要不要去发传单,我爽快的答应了,然后跑去某个本地中学门口发了一上午的传单,主要是给职校打广告。忙忙碌碌了一中午,遭遇拒绝、冷眼各种很让人低落的待遇,挣了好像是 50 块钱。
就这样,我挣到了我的人生第一笔窝囊费。如果你有发传单的经历的话,应该能明白前几次发传单的心情,遭受到人拒绝是不太舒服的,需要几次的这样经才能适应。

我所在的高中是一所一个月才能放假回家一两天的高中,平时周六日只在周六下午自由休息两小时,这两个小时只能在学校里自由活动,允许家长进来看望自己的孩子。当时学校的体育班,在做外面的/*/*鸭代购,/*/*鸭给返点 10%,我跟我朋友算了算,以他们的实力大概一周收入就是一千多。
于是我们先捋了捋我们在学校各班级的人脉,发现至少同年级的每个班都可以做。其他年级的也可以额外拓展下,一周也有大几百的利润。终于等到了某次放假的时间,我出去沿着学校附近的街道走了几圈,谈下来三家愿意合作的店铺,面铺 15%的返利、面包店 20%的返利、炒菜炒饭铺 10%的返利。就这样我们轰轰烈烈的开始了我们的 [饭菜代理] 的业务,从安插在每个班级的子代理帮我们收集班里的需求,然后我们收集统计好,发给外面的店铺,最后到时候去提货,再发给客户。真的搞起来了,一周挣一千多块钱觉得也是应该的,因为太累了。活太多,而且风险还大:
上数学课的时候统计采购表,被数学老师逮到;
发送需求给店铺老板,被班主任逮到手机;
最后被班主任知道我在搞这些事情的时候,被叫家长;

所以这件事情,大概持续了一个多月后,不了了之。收益也就一两千块钱吧。
但是其实这件事我们还做了一些别的业务的尝试,比如从咸鱼上、从线下手机店淘二手手机,成本大概是 200-500 一部,一部手机的利润在 200-500 。为什么这个利润还可以呢?因为一是那时候线下手机店的手机卖的不便宜,很垃圾的手机就能被忽悠到 1000 多,其实线下的二手手机如果有经验的话,直接很便宜的价格就拿到了,再卖给同学,同学会觉得很值;二是,我们那时候淘的手机都很偏门,比如 windows 系统的诺基亚、不能插卡只能联 wifi 的 pixel 之类的手机,用的都非常丝滑。
但是也没卖几部,后面就不了了之了,老实了很多就开始好好准备高考了

高考结束了以后,因为那个时候有点小爱好,要买个装备,但是又没钱,我就跟我同学一个人 200 、一个人 100 的借了将近五千块钱,买了喜欢的设备。然后我就去了我们那的省会城市,找了个电子厂打工,黑中介,一个小时 15 块钱,一个月四千左右,那个时候觉得压力大,没事还去做兼职、小时工,周六日不加班就去发传单,成人高考那会还不严,给人家替考,去餐厅帮厨、去超市做理货员、去当保安、去售楼处当那个气氛组,当然都是一些体力活,好处就是不用动脑子,交了很多很开心的朋友,然后钱也够花了。随后几年的大学寒暑假,我从事的基本也都是餐厅服务员、后厨配菜这样的岗位。

我在大学的一次尝试就是那时候学校的菜鸟驿站总是整顿,没有一个固定的地方,然后离我们还比较远,我就搞了个代取快递,买了个电动车,最后电动车的本差不多回来了,菜鸟驿站也稳定了我就没再搞了。

开始工作的时候,就开始发现,现在的工作环境很差,有了一些危机感,每天都很焦虑,运气也很差,所以那时候的简历花了,升职加薪跳槽的路子算是断了。于是我开始动起来,先搞了外卖小哥,没事出去跑一跑,然后又搞了货拉拉搬家小哥,没事的时候出去给人搬家,整体来说一个月能增收个一两千吧。

再后来,在网上学了点打假的知识,这个算是偏方了,没赚到钱,还亏了不少;朋友搞了个无人直播的项目分享给我,我入手的时候已经不怎么赚钱了。后来学着理财买基金、炒股,很明显,这个亏了几千块钱,我又收手了。


然后就有了这个洗车店的业务,当然不是只做洗车,因为朋友之前就是做这些的工人,基本的维修技能都会,我们一拍即合,就搞起来了。
然后就没啥了。现在也在纠结迷茫,今年开初的时候,定了一个小目标,今年除了主业,搞 2w 副业的营收,截止今天已实现进度 0.25%。

欢迎老哥们来交流~

一年前,MCP 还只是一个“把模型连到工具”的开源协议;一年后,它已经冲进了一个很少有协议能抵达的位置:事实标准。

 

在这场一年狂飙的亲历者之一——MCP 联合创作者、核心维护者 David Soria Parrra 看来,最戏剧性的分水岭发生在四月前后:当 Sam Altman、Satya Nadella、Sundar Pichai 先后公开表态,Microsoft、Google、OpenAI 都将采用 MCP,“大客户”突然从 Cursor、VS Code 扩散到整个行业。

 

这一年,MCP 从本地 “桌面玩具”,一路演进到远程 server、认证机制、面向企业可用的 OAuth 重构,再到 11 月引入 long-running tasks,把深度研究、甚至 agent-to-agent 交互变成协议的一等公民。David 的总结很直接:“这一年真的非常疯狂。”

 

这段对谈里,David 也很坦率地复盘了 MCP 这一年的取舍:做对的,是死磕标准 HTTP;踩坑的,是把关键能力做成了‘可选项’,结果客户端大多不实现,双向能力被削掉。

 

更现实的问题是扩展性:规模一上来,多实例、多 Pod 下同一段交互可能打到不同机器,不得不用 Redis 之类的共享存储来“拼状态”,请求量到百万级就开始吃力:“当规模一上来,这件事一点都不好玩。”“一些公司——比如 Google、Microsoft——他们在用 MCP 的时候,规模已经大到我不能公开具体数字,但可以说是百万级请求。到了这个量级,这就真的成了一个问题。”

 

以下是播客内容整理,略有删节:

MCP 的一年:从发布到行业事实标准

 

主持人:要不你先简单讲讲 MCP 的发展情况,以及之前为什么决定把它捐赠给基金会?接下来我们再系统回顾 MCP 这一年的演进,然后再请基金会的其他负责人加入,聊一些更宏观的内容。

 

David Soria Parrra(MCP Co-creator):如果回到一年前,MCP 刚发布的时候,其实谁都没想到它会在这一年里迎来如此疯狂的增长。

 

老实说,这一年感觉像过了一个世纪。一开始是在感恩节和圣诞节前后,很多开发者开始自发地用 MCP 搭东西。随后,像 Cursor、VS Code 这样的“大客户”开始出现。

 

真正的拐点出现在四月左右——当时 Sam Altman、Satya Nadella、Sundar Pichai 等人陆续公开表示,Microsoft、Google、OpenAI 都会采用 MCP。那是一个非常明显的“分水岭”。

与此同时,我们也一直在推进协议本身的演进。

 

最初,MCP 几乎只支持本地使用:你在桌面上跑一个 MCP server,通过本地 stdio 和客户端通信。但到了今年三月,我们开始推进“远程 MCP server”——也就是如何通过网络连接 MCP,并且第一次引入了认证机制。到了六月,我们又对这套认证方案进行了比较大的修订,尤其是为了让它真正适用于企业场景。

 

我们非常幸运,在三月到六月这段时间里,有真正做 OAuth 标准的行业专家,直接参与进来,帮我们把一些关键细节“拉正”。我们也在这段时间里大量投入在安全最佳实践上。

 

到了 11 月底,我们发布了新一轮重要版本,引入了长时间运行任务(long-running tasks)这一关键原语,用来支持深度研究类任务,甚至是 agent-to-agent 的交互。

 

现在的感觉是:MCP 的基础已经非常扎实了。接下来还有一两个关键原语和可扩展性问题需要解决,然后协议整体会进入一个相对稳定的阶段。

 

说实话,这一年真的非常疯狂。

 

主持人:你刚刚提到 agent-to-agent,那是不是也涉及 A2A 协议?在 Agentic AI Foundation 成立时,有没有讨论过把其他协议也纳入进来?

 

David:老实说,这几乎是必然会发生的讨论。我们当然讨论过市场上其他协议,比如一些支付协议之类的东西。但在决定成立基金会时,我们有两个非常明确的原则:

 

第一,我们想从小开始。这是 Anthropic 第一次参与开放源代码基金会,一切都是新的。我们希望先在一个相对可控的范围内学习如何把这件事做好,并且和 OpenAI、Block 一起,把基金会的节奏掌控住。

 

第二,在协议层面,我们非常在意“事实标准(de facto standard)”。目前来看,真正已经具备广泛采用度的协议,只有 MCP。其他协议还没有“走到那一步”。当然,如果未来某个协议发展到那个阶段,并且在功能上是互补的,我们是完全开放的。

 

应用层,我们会更灵活;但在协议层,我们不希望一个基金会里同时维护五个做同一件事的通信协议。

 

主持人:你现在在基金会和 MCP 之间,是不是有点“戴两顶帽子”?

 

David:确实如此,但我主要精力仍然在 MCP 上。基金会本质上是一个“保护伞”,它最重要的作用是保证项目的中立性。至于基金会预算怎么用、办什么活动,这些相对来说反而是“比较枯燥”的部分。

 

在 MCP 的技术治理上,其实并没有发生本质变化。我依然是核心维护者,继续推动协议演进。

另外,我也会参与基金会的技术指导委员会(TSC),负责判断:哪些项目适合进入基金会?它们是否被良好维护?是否有真实采用?是否具备长期价值?

 

我们不希望基金会变成一个“项目垃圾场”。我知道有些基金会最终会落得什么下场。

 

主持人:这一年 MCP 发布了四次规范更新,节奏非常快。尤其是三月和五月那次,引入了 HTTP Streaming 和认证。要不要给大家系统梳理一下?

 

David:HTTP Streaming 那次更新非常关键,也是用户呼声最高的一次。我们在 11、12 月就已经意识到:下一步一定是远程 MCP,而远程就绕不开认证。

 

MCP 的一个特点是:它在每一层都非常“有主见(prescriptive)”。比如,在客户端和服务端互不认识的情况下,认证该怎么做,我们希望只有“一种正确方式”。

 

三月版本里,我们做了一版认证方案。现在回头看,它“还行”,但确实有问题。说白了,是我对企业认证场景理解不够。MCP 的一个核心优势,是它的社区:当我不懂的时候,会有真正懂的人站出来帮我。

 

主持人:三月那版认证,主要问题出在哪?

 

David:OAuth 里有两个核心角色:

  • 身份提供方(Authorization Server / IdP):发放 token

  • 资源服务器(Resource Server):接收 token 并给相应的资源作为回报

 

在第一版 MCP 认证规范里,我们把这两个角色合并进了 MCP server。对于创业公司来说,这没问题:你自己有账号体系,把 MCP server 直接绑在用户账号上,完全可用。但在企业环境里,这根本行不通。企业几乎总是有一个中央身份系统(比如 Google 登录、企业 SSO),用户每天早上只感知到“我登录了一次”,但背后其实是 IdP 在工作。

 

所以在六月的规范中,我们做了一个关键调整:明确把 MCP server 定义为资源服务器,和身份系统解耦。我们对“怎么拿 token”依然有建议,但不再强行绑定在 MCP server 里。同时,也补齐了动态客户端注册等细节。

 

主持人:那 agent 代表用户去操作,比如帮我用 Linear、Slack,这个问题现在解决了吗?

 

David:OAuth 本身是一个非常“以人为中心”的协议。它只定义:如果你没有 token,该怎么拿 token。一旦你有 token,后面就只是把它放进 Bearer Token 里而已。

 

我们目前并没有对 agent-to-agent 或 agent 代表用户的认证方式做强约束。在企业内网、封闭环境里,大家已经可以通过 workload identity 等方式做到。但如果客户端和服务端彼此不认识,我们目前还没有一个“完美方案”。

 

主持人:你们从本地服务器(比如基于 stdio 的方案),一路演进到可流式的 HTTP。在这个过程中,有哪些经验教训值得分享?有没有什么后悔的地方,或者对其他人有什么建议?

 

David:关于传输层这件事,其实有一个讨论,从过去几年一开始就从未停过。

 

就在最近两天,我们还在 Google 的办公室里,和一群来自 Google、Microsoft、AWS、Anthropic、OpenAI 的资深工程师坐在一起,专门讨论:到底需要做什么,才能把这件事真正、彻底地打牢?

 

回到今年三月,当时我们希望引入一种新的传输方式,它能够尽量保留我们在标准 IO(stdio)里拥有的很多特性。因为我们当时——而且直到今天我依然坚信——MCP 不只是为了简单的请求-响应,它还应该支持 Agent。而 Agent 天生就是某种程度上“有状态”的,它需要在客户端和服务器之间进行一种长期存在的通信

 

所以,我们一直在寻找一种具备这些特性的方案。我们当然也研究过一些替代方案,比如 WebSocket。但在实践中,我们发现,要真正把一个可靠的双向流(bidirectional stream)做好,其实会遇到很多问题。

 

于是我们就在思考:有没有一种“中间态”?这种中间态需要满足两个条件:一方面,它要足够简单,适合那些最基础的使用场景——比如用户只是想提供一个工具;另一方面,它又必须能够在需要的时候,升级成一个完整的双向流,因为你可能真的会遇到那种复杂的 Agent 之间相互通信的场景。正是在这样的背景下,可流式 HTTP(streamable HTTP)诞生了。

 

事后回看,我觉得我们有些地方做对了,也有些地方做错了。

 

做对的地方在于:我们非常坚定地只依赖标准 HTTP。但做错的地方在于:我们让太多事情对客户端来说是“可选的”。比如,客户端可以连接服务器,并打开一个从服务器返回的流,但它并不是必须这么做。而现实情况是——几乎没有客户端会这么做,因为这是可选的。结果就是,很多双向能力实际上被“抹掉”了。

 

于是,一些功能,比如elicitation(征询)sampling(采样),对服务器来说就变得不可用。原因很简单:服务器没有一个打开的返回流;而客户端在实现时会想,“这已经满足我产品的最小可用版本(MVP)了,我没必要再多做这些。”

 

这最终成了一个问题。我觉得这是一个非常明确的教训。

 

第二个教训来自于协议设计本身

 

我们设计的这套传输协议,要求服务器端持有一定的状态。如果你只有一台服务器,这当然没问题。但一旦你要做水平扩展——比如跑在多个 Pod、多个容器里——问题就来了。

 

设想这样一个流程:一次 tool call,然后是一次 elicitation,再接着是 elicitation 的结果返回。很可能,这几个请求会打到不同的服务器实例上。那你就必须想办法,让这几台服务器把这些信息“拼”在一起。现实中,这往往意味着你需要某种共享状态机制:Redis、Memcached,或者别的什么共享存储,总之你需要一个地方,能够让这些服务器共享状态。

 

从技术上说,这当然是可行的。我们在 PHP 应用、Python 应用里早就见过类似的模式。但说实话,当规模一上来,这件事一点都不好玩

 

而且我们也知道,一些公司——比如 Google、Microsoft——他们在用 MCP 的时候,规模已经大到我不能公开具体数字,但可以说是百万级请求到了这个量级,这就真的成了一个问题。

 

于是我们现在坐在这里,不断地问自己:如何在协议的下一次演进中,做到这几件事?

  • 对简单的 MCP Server 来说,仍然尽可能简单;

  • 在需要的时候,允许完整的双向流;

  • 同时,还要具备良好的可扩展性。

 

我觉得,我们正在逐步找到正确的解法,但这件事本身真的很复杂

 

因为今天的大多数技术选择,其实都非常极端:要么你做一个很简单的东西,比如 REST;要么你直接上“全双工”的方案,比如 WebSocket、gRPC。而我们需要的,其实是两者同时存在

 

在巨头之间“做标准”是什么体验?

 

主持人:和这么多顶级公司一起做标准,是什么感觉?在那样的场合,大家都是资深人士,每个人都有自己的观点。谁来做最终决定?

 

David:真的太有意思了。我能和业内最顶级的工程师一起工作。通常我们的目标是尽量达成共识。现实情况是,从技术角度讲,最终拍板的人是我,但说实话,这更多是一种形式上的存在。

 

真正重要的事情在于:我们努力把讨论不断收敛,明确哪些是真正大家都认可的问题,哪些是暂时还存在分歧的问题,然后在这些边界之内,去构建我们能做到的最佳解决方案

 

这个过程需要时间,需要大量迭代,但说真的,这件事本身非常有意思。因为你能看到来自不同公司的、非常独特的问题形态。你甚至能从问题本身,看出一家公司的“性格”——比如 Google 面临的问题和 Microsoft 就完全不同,而这些差异,很大程度上来自他们各自构建系统的方式。同样,Anthropic 的问题看起来也和 OpenAI 的问题不一样。

 

但我最喜欢的一点在于:有时候你会突然意识到,自己正坐在一个房间里,周围全是彼此竞争的公司,但大家却在一起构建同一件东西

 

我在开源世界已经待了大概 25 年了,我真的非常热爱这种状态。当一个标准真正运转起来时,这就是理想状态。而且这些人都非常优秀,我从每一位同行身上都学到了很多。所以我非常感激,自己能处在这样的位置。

 

主持人:这听起来有点像 IETF 的标准制定流程?你们有没有讨论过,这种“私下的小圈子”运作方式,和更传统的标准组织之间的差异?

 

David:这是个很有意思的问题。某种程度上,它确实有点像 IETF,但也有明显不同。

 

IETF 是一个完全开放的论坛,任何人都可以参与。它的结果是——不是因为刻意如此,而是“偶然地”——整个流程非常依赖共识,因此速度也相对较慢。

 

但这种慢,在很多方面其实是优点。因为一旦标准定下来,基本上是不可逆的。比如你看看 OS 2.1 规范,它已经制定了三四年,到现在都还没完全结束。这就是 IETF 标准化的节奏:这些事情本来就会花非常非常长的时间

 

我认为这对某些领域是好事,但在 AI 领域,目前的变化实在太快了,你几乎被迫要选择一个更小的核心群体。因此我们选择把 MCP 运作成一个非常传统的开源项目:有一个大约 8 人的核心维护者小组,基本上由他们来做最终决策;其他人可以提供输入、提出建议,而且很多变更并不是来自核心维护者,但决定权在他们手里

 

这是一种折中方案:一部分是共识驱动,一部分则是带有一点“技术独裁”的意味。如果你想要快速前进,这种模式在当前阶段对 MCP 来说是合理的。

 

主持人:那你们是如何平衡模型能力演进与协议设计之间的关系的?毕竟 Anthropic 和 OpenAI 都在做大量后训练(post-training),让模型更擅长工具调用;这会不会影响你们对协议形态的偏好?反过来,协议是否也会反向影响模型训练?

 

David:老实说,我不敢说自己对研究侧的所有事情都 100% 熟悉——我更多是产品背景。但从我了解的情况来看,协议确实会在一定程度上影响后训练,比如我们在模型卡中会使用MCP Atlas,确保模型在面对真实世界中大量存在的工具时,能正常工作。

 

但从另一个角度讲,协议的底层原语,其实很少直接被模型能力的提升所驱动。我们更像是在预期模型能力将会呈指数级增长,因此在协议中,依赖了一些你可以通过训练不断强化的机制。

 

举个更具体的例子。很多人都讨论过 MCP Server 的上下文构建问题。因为 MCP 打开了通往大量工具的大门,如果你天真地把所有工具一次性塞进上下文窗口,那只会造成严重的膨胀。

这就好比把所有技能、所有 Markdown 文件一次性丢进上下文里,结果当然会一团糟。

 

但我们其实从一开始就知道,可以采用一种叫做渐进式发现(progressive discovery)的方式:先给模型一小部分信息,让模型在需要的时候,再主动请求更多信息。

 

这本质上是一个通用原则。

 

而这里正是我们这些“大模型公司”具备的一点前瞻性所在——我们知道,如果愿意,是完全可以通过训练,把这种能力系统性地强化出来的。模型在原理上已经能做到这些事情了,训练只是让它做得更好。任何支持工具调用的模型,都可以做到这一点;只是如果你专门为此训练过,它的表现会更好。所以在这个层面上,协议设计和模型训练是相互配合的。

 

但归根结底,渐进式发现这种机制,本身就内生于任何具备工具调用能力的模型之中。

 

主持人:这也引出了“上下文腐烂(context rot)”的问题。还有 MCP 和所谓 “code mode” 的讨论——比如有人会说,“Anthropic 提倡 code mode,而 MCP 又是 Anthropic 做的,那是不是说明 code mode 才是正确方向?”

 

David:首先澄清一下,官方博客其实从来没用过 “code mode” 这个词,那是大家后来叫出来的。我们内部更常说的是 “programmatic MCP”,但本质上讨论的是同一件事。

 

关键在于:MCP 是应用和服务器之间的协议,模型本身在技术上并不直接参与 MCP。所以问题其实变成了:应用拿到一堆工具之后,该怎么用?你可以用最朴素的方式:把工具直接暴露给模型,让模型逐个调用。但你也可以更“创造性”一点:模型非常擅长写代码,那如果我们把这些工具当成 API,交给模型生成一段代码,让它提前把多个调用组合好,再在一个 sandbox 里执行呢?

 

本质上,模型原本就会做这样的组合:调用 A → 拿结果 → 回到推理 → 调用 B → 再组合成 C。你只是让模型提前优化了这个过程,把它编译成一段可执行代码而已。

 

而 MCP 的价值并没有因此消失:

  • 认证(authentication)仍然由 MCP 处理;

  • 接口是为语言模型设计的;

  • 工具是可发现的、自文档化的。

 

这些能力依然存在。你只是换了一种使用方式而已。所以当有人说,“那 MCP 是不是就没用了?”我其实挺困惑的。它不是没用,而是被用在了不同的层次上

 

随着模型和基础设施逐渐成熟——比如你可以默认 AI 应用都有 sandbox 执行环境——你确实可以玩出更多有意思的花样。但这并不意味着,一个把模型连接到外部世界的协议就失去了价值。

 

我个人更愿意把这种变化,看作一种优化,说得直白一点,就是token 级别的优化

 

MCP 有没有竞争对手

 

主持人:这正好可以引出 skills。skills 是一个相对较新的概念。我之所以提到它,是因为在我脑子里,它和渐进式发现、预置代码脚本这些概念是连在一起的。而且 skills 还能生成 skills,本身就很有意思。很多人试图把 MCP 和 skills 放在对立面来比较,显然它们并不重叠,但你是怎么看待这个问题的?

 

David:是的,我同意。我觉得有意思的点就在于:它们并不重叠。它们解决的是不同的问题。

我觉得 skills 非常棒,而且你知道的,我认为 skills 最核心的出发点之一,就是渐进式发现(progressive discovery)这个原则。但我也认为,“渐进式发现”这种机制,其实是通用于你能用模型做的几乎任何事情的——它不是 skills 独有的。

 

那 skills 到底提供什么?它提供的是某一类任务的领域知识(domain knowledge):比如你应该如何做事、如何表现,模型应该如何扮演一个数据科学家,或者如何扮演一个会计之类的角色。

 

但 MCP 提供的,是你能对外部世界采取的真实动作的连接性(connectiveness)——也就是你能执行哪些实际操作、如何把这些操作真正连到外部系统上。

 

所以我认为它们在某种意义上是正交的(orthogonal):skills 给你的是更“纵向”的能力——偏领域、偏角色、偏方法论;而 MCP 给你的是更“横向”的能力——偏连接、偏动作、偏“给我那个具体操作”。

 

当然,skills 也可以执行动作。它能执行动作,是因为你可以在里面放代码和脚本,这当然很棒。但这里有两个关键点,我觉得很多人容易忽略。

 

第一,你需要一个执行环境(execution environment)——也就是你需要一台机器来跑这些代码。是的,你需要“机器”。这在很多场景下完全没问题:比如你在本地跑一个东西(像 Cloud Code 之类),那我们就可以讨论 CLI;在这种你确实拥有执行环境的场景里,这套方式就非常合理,也很好用。

 

或者,如果你有一个远程执行环境,那同样也说得通。但即便如此,你在这条路径上仍然得不到认证(authentication)这一块能力。所以我认为 MCP 带来的关键价值之一,就是它把认证这件事补齐了——这是 skills 本身不提供的那部分。

 

第二个点是:你不必去处理“外部方的持续变化”。举个例子,如果你接的是一个 Linear 的 MCP server,那么对方可以持续改进它,而你不需要在自己的 skill 里去处理这些变化——它不是被“固定在某个时间点”的。

 

第三个点是:你其实不一定需要一个本地的执行环境,因为执行环境在某种意义上是“在别处”的——它在服务器端。也就是说,执行发生在 MCP server 那边。

 

因此,如果你在构建的是一个 Web 应用,或者一个移动应用,这些特性在某些方面会更契合、更好用。

 

所以整体来看,我认为它们大多数时候都是正交的。并且我确实看到过一些很酷的落地方式:人们用 skills 去探索不同的功能、不同的角色(比如会计、工程师、数据科学家),然后再用 MCP servers 把这些 skills 连接到公司内部真正的数据源上。我觉得这是一个非常有趣的模型,也最接近我理解和看待它们关系的方式。

 

主持人:所以 MCP 是连接层?

 

David:我会说是通信层。是的,通信层。

 

主持人:从架构上讲我很好奇:MCP client 是放在每个 skill 里面,还是大家共享一个 client?比如共享 client 还能发现 skills 之类的。

 

David:我们是共享的方式。我觉得从技术上你确实更想走“共享更多”的方向——共享越多,你能做的事情就越多:比如做 discovery(发现)、做连接池(connection pooling)、做自动发现,甚至你可以让 skill 只用很“松散”的方式描述它想要什么,然后系统去你有权限访问的 registry 里帮你找一个合适的 MCP server。

 

这些能力只有在 shared 的架构里更容易做出来。当然,最终两种方式都能工作,只是这仍然是一个值得继续实验的方向。

 

Anthropic 怎么用 MCP?

主持人:我想强调一下,可能很多人都没意识到——你刚才一直说“我们怎么做怎么做”,但实际上我觉得外界并不理解 Anthropic 内部到底 有多大规模地在 dogfood MCP。我也是看了 John Welsh 的演讲才真正理解,他说:“我们有一个 MCP gateway,一切都要走这个 gateway。”你能多讲讲这个吗?

 

David:当然。我们内部两种都用:skills 用得很多,MCP servers 也用得很多。因为你要让大家很容易部署 MCP,你需要和公司内部的 IdP(身份系统)打通之类的东西。所以我们为自己定制开发了一个 gateway。

 

你只需要把 MCP server 部署起来,剩下的都是内部应用、内部系统在用。有些东西“技术上”算外部系统,但因为它们没有提供第一方 MCP server,我们就自己做了。比如我们有一个 Slack 的 MCP server——我特别爱用。它可以让 Claude 帮我总结 Slack。

 

我们内部还有很多类似的用法:例如我们每半年(或者一年两次)会做一次员工调查,问大家对公司、对未来、对 AI、对安全等议题的感受。我们也有一个 MCP server 支持这件事,然后你可以围绕结果问很多问题,这非常有趣。

 

主持人:这些都是你们团队维护的吗?

 

David:不是。我们维护的是 gateway。但有意思的地方在于:MCP 从一开始的想法就是——在我们开源之前,它源自一个很现实的困境:公司增长太快了。我在研发工具、开发者工具这一侧,增长速度一定跟不上业务扩张。那我怎么做一个东西,让大家能“自己为自己构建工具”?

这就是 MCP 的起源故事。

 

所以你现在回头看,一年之后发生的事情,正好就是我们当初想要的:大家真的在为自己构建 MCP servers。

 

我甚至可能完全不知道 Anthropic 内部 90% 的 MCP servers,因为它们可能在研究团队里,我看不到;或者人们就是自己做给自己用,我也不会被同步到。

 

主持人:那它们是自己 host 吗?还是有远程托管?

 

David:基本上大家只需要一条命令启动,它就会在一个 Kubernetes 集群里跑起来。算是“半托管”的形态。对任何大公司来说,这类平台基础设施都很重要。外部也有一些平台会帮你做这件事,但从安全角度,我们倾向于自己做。

 

不过外界也有类似的产品。比如有人做了一个叫 fast MCP 的东西——Jeremiah 他们做的 fast MCP cloud,有点像这样:两条命令,你就能跑起一个 MCP server 实例,支持 HTTP 流式传输。

 

很多企业还会用类似 LiteLLM 这样的东西做 gateway:你甚至可以启动标准 IO 的 server,把它接到 gateway 上,然后由 gateway 来处理认证等“所有麻烦的部分”。所以落地路径其实很多。

 

但我认为你真正想要的“理想基础设施”是:让部署变得极其琐碎、极其简单——比如“一条命令”启动一个原本只是 stdio 的 MCP server,然后它瞬间变成一个带有 HTTP streaming、并且集成了认证的远程 MCP server。最终开发者只需要做“标准部分”,其他复杂部分都由平台替你完成。

 

主持人:我很喜欢你把这个点讲出来,因为很多人会直接把这套思路拿回公司里落地。否则替代方案就是:混乱、重复造轮子、各自重建一遍。顺便 shout out Jeremiah——我还邀请他来我在纽约的峰会做一个 fast MCP 的 workshop。他写过一篇很棒的博客,说我们看到的 MCP 使用,很大一部分其实都发生在企业内部。

 

David:是的,我们也观察到同样的现象:在大型企业内部,你几乎到处都能看到 MCP。它的增长速度,比你想象得快得多——因为它多数都在企业内部发生,外界根本看不见。

 

Registry 怎么演化?

 

主持人:说到 discovery,你们推出了官方 registry。然后又出现了各种 registry 公司、gateway 公司。现在官方 registry 里甚至出现了“自动把自己的 MCP server 放进官方 registry”的子 registry。你们是不是需要更多 registry?你从推出 registry 这件事上学到了什么?你觉得未来会怎么演化?

 

David:我们看到很多不同的 registry 冒出来。我们一直觉得,生态确实需要一种类似npm / PyPI(MPM)的模式:有一个更中心化的地方,任何人都可以把 MCP server 发布上去。

这就是官方 registry 最初的出发点。

 

但我们同时也想推动:至少整个生态要有一个共同的标准,让不同 registry 之间能“说同一种语言”。因为我们真正想实现的世界是:模型可以从 registry 里自动选择一个 MCP server,安装它,用在当前任务上——像魔法一样。

 

要做到这一点,你需要一个标准化接口。我们很早就开始和 GitHub 团队合作(大概四月份),但后来我被别的事情分走了注意力,比如认证,去集中解决那块了。

 

我希望看到的方向是:未来会有一个“官方 registry”,任何人都可以往里放 MCP server。它的角色就像 npm ——而 npm 也有完全相同的问题:任何人都能发布,你并不知道该信谁、不该信谁;会有供应链攻击。这是公共 registry 的基本属性。

 

所以我们才提出了子 registry(sub-registries)的概念:像 Smithery 这类服务可以在官方 registry 之上做过滤、做精选、做策展(curate)。我们希望生态最终能形成这样的结构。

我们现在还没完全到那个状态,但正在往那个方向走。比如 GitHub 的 registry 是“策展式”的,同时它和官方 registry 讲的是同一种格式。

 

最终我们想要的是:作为一家企业,你可以有一个内部 registry——它基于官方 registry 的镜像,再加上你自己的私有 MCP servers;它是你信任的来源,同时它暴露的 API 和官方 registry 一样。这样无论是 VS Code 还是其他客户端,只要指向你的内部 registry,就可以顺畅工作。

 

主持人:这很有意思,因为 npm 在某种意义上更像一个“下载网关”。我其实不太会去 npm 做发现,我更多是在别处看到包,然后再去 npm 安装。你觉得 registry 的核心是 discovery 吗?还是 agent 会用别的方式完成发现?

 

David:我认为 discovery 在模型世界里会更重要。这里和 npm 的差别在于:

我们是在做一个AI-first的东西,我们可以假设:有一个聪明的模型,它“知道自己想要什么”。

 

这在过去是不存在的。如果你今天重新设计现代包管理系统,并且把模型当作核心,你可能会做出类似的交互:“这是我想做的事,你自己决定装哪些包,我不在乎,反正把事情做成就行。”这就是它的类比。

 

但再次强调:公共 registry 不应该直接让模型这么做,因为公共 registry 很容易变成一个“垃圾场”。你应该在一个可信、被策展过的 registry 上做这种自动化选择。

 

主持人:我很喜欢你那句话——模型知道自己想要什么。因为现在很多人都有一个梦想:agent 能用 MCP 目录去发现新的 server,自己安装自己使用。这听起来非常 AGI。如果真能跑通当然很牛,但也可能跑不通。要做到这一点,到底需要什么?

 

David:我觉得需要两件事:

第一,你需要一个好的 registry 接口。

第二,你需要真的去为这个目标做工程、做实验,看看什么可行、什么不可行。

 

你肯定需要信任等级(trust levels)。你可能还需要签名(signatures)。我有一个想法——不确定会不会真的做——比如:你可以附带来自不同模型提供商的签名,表示他们扫描过这个 MCP server,并且愿意为它背书:

  • “Anthropic 的签名:这些 tool descriptions 是安全的”

  • “OpenAI 的签名:我们认为这些是可信的”

 

然后你就可以基于这些签名自行决策。这有点像分布式代码签名——不过也不完全分布式,本质上可能还是中心化的。但我认为这是你最终会需要的一类机制。

 

不过最先跑通的场景,可能反而是企业内部:企业会用私有 registry,本身就带有隐含信任。就像他们今天已经在用私有 npm / 私有 PyPI 一样,他们也会用私有 MCP registry。在这种环境里,你天然有 trust,然后就可以开始做搜索和自动选择。我们自己其实就有内部 registry:当你通过 John 那套基础设施启动一个 MCP server,它就会被注册进去。所以我们也需要在内部继续做实验。

 

Sampling:理想很美,但客户端不配合

 

主持人:你今年在伦敦办了一些活动,你看到什么好的 sampling 用例了吗?

 

David:还没有特别多。我从 sampling 这件事学到的一点是:人们想在 sampling 的过程中使用一些“只在 sampling 时出现”的工具——这些工具并不是 MCP server 暴露出来的那套工具。但我们之前没有能力做到这一点。在这次迭代里我们刚修复了这个问题,所以我们希望未来能看到更多 sampling 用例。偶尔会有一些 MCP server 在用 sampling,但不多。

 

尤其是当 MCP servers 从“本地为主”走向“远程为主”,在远程场景里,通常更好的选择可能是直接提供 SDK:你完全控制它、自己部署,甚至还可以收费。

 

而在本地场景里,sampling 的价值更大:因为你是在给很多人分发一个东西,你并不知道他们用的是哪个模型、哪个应用(可能是 VS Code,也可能是 Claude Desktop),这种情况下 sampling 才更有意义。

 

但现在的问题是:客户端基本都不支持 sampling。所以 sampling 这件事让我挺沮丧的——我仍然觉得这是个很强的想法,但你知道的,有时候你总得赢一些、也得输一些。

 

主持人:但你们也在升级它,我还是很期待。有点奇怪——如果采样这件事做对了,它某种意义上会变成真正的 agent-to-agent 协议。

 

David:是的。

 

主持人:你看到的大多数用例还是偏“数据消费”吗?我自己的 MCP 用法也 mostly 是拿上下文、拿数据。最多的 action 可能就是更新一下 Linear 任务状态。你见过很复杂的“用 MCP 做动作的工作流”吗?还是大家基本都在用它做上下文?

 

David:大多数人确实是用它做上下文,这占了绝大多数。毕竟它的名字就叫 Model Context(模型上下文)。顺便说一句,OpenAI 的 Nick Cooper 经常跟我说——而且他说得对——MCP 这个名字可能取错了,它确实会让人感觉用途被“限制”了。

 

我看到的主要还是数据用例。也有人把它用于 deep research,一些更复杂的 agent 暴露出来,但并不普遍。deep research 这种自定义研究用例不算罕见,但除此之外,大多数还是数据、以及围绕数据的深度研究。

 

现在你还会看到一个新方向:通过 MCP UI(未来我们可能叫 MCP Apps / MCPI)暴露 UI 组件。我觉得这非常有前景,也非常有意思。现在在一些 chat apps 里已经能看到不少类似实践。

 

Tasks:为长时间、异步 agent 操作而生的新原语

 

主持人:我很好奇,因为如果大多数用例是“上下文”,你们做 tasks 这个原语,就好像大家暂时还没怎么用它。你们设计 tasks 的出发点是什么?你期待它怎么被用起来?

 

David:我们做 tasks,是因为很多人来找我们说:“我们真的需要长时间运行的操作——也就是 agents。”

 

他们想要那种“深度研究任务”,可能一小时才完成;甚至可能一天都跑不完。过去人们会很别扭地用 tools 去实现这类事情——工具本质上就是 RPC 接口,理论上你能凑出来,但很快就会变得别扭:模型需要理解“我得去轮询、我得去拉取”,体验很差,也不是一等公民(first-class primitive),限制很多。

 

但这类诉求太普遍了:大家都想要长时间运行的 agents。GitHub issue 里,大公司也一直在说“我们需要 long-running operations”。所以我们觉得必须做点什么。

 

现在 tasks 刚刚落地到 SDK,还需要落地到客户端,然后我们才会看到更广泛的使用。但我非常确信:自定义研究类任务会大量用上它,其他场景也会逐步跟进。

 

主持人:我对 tasks 非常看好。我觉得任何编排系统或协议都得有 sync 版本和 async 版本。

 

David:完全同意。

 

主持人:在 tasks 的设计上,有没有哪些重要分岔点?比如本来有两条路,你们选了其中一条。

David:讨论非常多。有人提议:tasks 其实就是“异步 tools”,做成一个新的 tool primitive 就行。

 

但对我来说,我的试金石(litmus test)一直是:如果未来我想把 Claude Code 或任何 coding agent 当作一个 MCP server 暴露出来,那么 tasks 必须能支撑这种形态。

 

纯粹的异步工具调用做不到这一点。你需要一种操作方式:它能够在长时间运行的过程中返回中间结果。理想状态下,你会想暴露这样的东西:“我通过调用这个工具、那个工具、还有那个输入,得到中间产物……最后得到结果。”这才是你希望一个长任务能够表达的。

 

tasks 现在还没完全做到这一步,但它的设计是“足够通用”的,未来可以支持这种更丰富的表达——这就是最核心的约束。

 

另一个关键约束是:我们不希望 tasks 成为 tools 的复制品 ——只是语义稍有不同。我们希望它是一个更抽象的概念:你通过一次带元数据的 tool call 来创建一个 task,然后系统自动创建并管理这个 task。所以task 更像一个“容器(container)”:它描述了一段从开始到结束的异步过程,而我们当前用 tool call 作为触发方式。

 

这样的抽象会打开很多未来可能性。所以我觉得,真正的设计目的是让实现变得更抽象。(虽然)实现起来很复杂,但也最终被解决了,因为复杂性会被 SDK 吞掉:SDK 会帮你实现细节,在开发者视角里,它就是一个 async 调用,然后返回结果。

 

主持人:听起来会和很多异步 RPC 框架有点重叠,比如 JS 世界的 tRPC、或者各种 protobuf 体系。

 

David:是的。从接口风格来说,它很像经典的操作系统接口:你创建一个 task,然后不断 pull(轮询)直到它完成。

 

然后我们下一轮会做一个优化——这次没来得及做:你不用每隔几分钟/几小时去 pull,server 可以回调你(发事件、webhook 之类的)告诉你“我完成了”。

 

这是优化,但核心接口始终是:客户端可以 pull。这也很像操作系统里的一些文件系统操作:客户端轮询是一种最通用、最可靠的基线能力……

 

你可以一直 pull(轮询):文件变了吗、文件变了吗……但你也可以用现代一些的内核接口,比如 inotify 之类的通知机制,或者 io_uring 之类的方式,它会告诉你:哦,我完成了——很好,文件变了。

 

主持人:我学到一个“骚操作”——server 可以一直把 HTTP 连接挂着,等它做完了再断开;连接断开本身就成了一个信号,告诉后端“完成了”。

 

David:对,但我们不一定想这么做。因为它可能要跑几天,我也不知道别人会怎么处理这种连接。

 

主持人:这其实挺不负责任的,但确实很酷。老实说,tasks 真的很有意思——我们在做 Devin API、以及 Cognition 那些东西时,也基本被迫“重新发明”过类似机制。这也很有代表性:每个人最终都会需要某种 long-running operation。而当你在调用一个 agent 时,你同样需要这个能力。

 

David:是的。但对我们来说,有一个有意思的点是:MCP 一直在做的事情,是把大家“此刻正在尝试做的东西”封装起来;我们并不想强行规定一年后大家“应该怎么做”。因为我们不知道,我们不预测未来。

 

我们做 tasks,是因为大家说:我们现在就需要它。实际上我们六个月前就需要它了。于是我们说,好吧,那现在就是动手的时候了。

 

我们不想做那种“预测未来”的协议,所以才努力让协议保持相对最小化。虽然也有人会觉得:现在协议里的 primitive 已经太多了。

 

超长任务与上下文压缩

 

主持人:一个小问题。假设是超级长的任务,过程中会来回传很多消息。Anthropic 在上下文压缩(或者叫 compaction)这件事上算是领先者之一,其他实验室也在做类似事情。那这种场景怎么处理?我们是不是就无状态地把上下文截断也没关系?你需要保留“全过程完整日志”吗?还是说删掉就删掉了?

 

David:不需要。你看,我们现在这个行业还是非常早期,我们一直在学习:模型到底需要什么、不需要什么。

 

甚至到今天,有些 agent 已经开始在跑了几轮之后丢弃 tool call 的结果,因为它不再需要了。我觉得这非常好。所以除了 compaction 之外,我觉得你还会看到更好的机制:更清楚地理解“该保留什么、不该保留什么”。比如对一个长时间异步任务,你可能会这样:某段时间模型确实需要看到全部过程,但当你拿到最终结果之后,你就把其他东西都丢掉。

 

你甚至可以调用一个更小的模型——比如 Haiku ——让它来判断:这些内容里哪些该保留?告诉我。也可能最“AGI build”的方式就是:让模型自己决定它需要保留什么。所以你会看到两种世界并存。

 

我们现在还没有唯一答案,因为大家仍在摸索。compaction 是一个很好的阶段性方法,但它也不会是最后一步。

 

实际上,如果你更认真地思考:你能训练模型在这里做什么,我觉得会有更好的方式。但这些都和“你如何获取上下文”是相互独立的。

 

我一直把 MCP 看作一个应用层协议:它只负责“你如何获得上下文”。至于“你如何选择上下文”,那是应用层问题——所有 agent 应用最终都会面对。

 

未来会有很多技术路径。一年前所有人都会说:RAG 才是答案;现在大家又说 RAG 好像“死了”。我们开始用模型、用 compaction。至于一年后会怎样,我也不知道。

 

主持人:我还有个问题:你怎么看 MCP servers 在未来的定位——它们是给开发者用来构建 AI 应用的?还是一个面向 AI 消费者、让他们把各种服务“插上就能用”的协议?我觉得很多人会把它理解错:他们说“我有 REST API,为什么还需要 MCP?”在我看来,MCP 可能并不是“给开发者用的”,而是给使用 AI 工具的人,用来把东西插进去的。

 

David:我经常被拿来和 REST API 比。这个对比挺有意思的,因为这里其实有两个问题:第一,REST 并不告诉你认证该怎么做。第二,你们已经在跟我抱怨 “tool bloat(工具膨胀)” 了,但你们有没有看过平均一个 OpenAPI spec 有多长?你把那个塞进模型里,膨胀只会更严重——实际上会糟得多。

 

更有意思的是,当人们尝试一比一映射时,模型经常会有点迷糊:你会有“按名字搜索、按 ID 搜索、按某字段搜索”等等,突然冒出五个长得很像的工具,模型就会问:你到底要用哪个?我也不知道了。所以这是个关于 REST vs MCP 的小插曲。

 

但我确实希望 MCP 生活在一个更“消费者导向”的世界:这是使用者应该知道的能力。我想要的世界是:你打开应用,直接说“做这件事”,它就把事情做完——它在底下自动连到合适的服务。MCP 是幕后细节;开发者需要知道它,因为这是通信通道;但对最终用户来说,你只需要拿到结果、把任务完成。

 

坦白讲,我更喜欢一个世界:没人需要知道 MCP 是什么。比如我妈如果要用 Claude,她不应该知道 MCP 是啥。但我认为 MCP 的重点确实是:让外部服务“可插拔”。在这个意义上,它更偏消费者侧。当然开发者也有用例:他们作为 builder 要构建这些东西;而且我也仍然很爱我的 Playwright MCP server。

 

主持人:我很好奇你说的 MCP Apps / UI。现在每个客户端——比如 ChatGPT——都有自己的一套渲染方式。所以如果我习惯了某个产品的 MCP app,但换到另一个地方,它可能就是另一个版本、另一种策展方式,体验会很不一样。我想知道你怎么看:尤其现在 OpenAI 也进了基金会,你觉得会不会形成统一结构?让大家按同一个标准来?

 

David:这里有两个影响源:一方面,MCP UI(或者 MCPY)作为项目本身已经存在一段时间了,它有很多很好的想法。OpenAI 也吸收了其中一些想法,并做了不少改进。更重要的是:我们三周前在 MCP 博客上刚宣布——我们正在和他们一起做一个共同标准

 

我们的目标是回到一个世界:你为一个平台开发一次,就可以在所有平台用;或者说“一次构建,到处运行”——你在 ChatGPT 里能用,也可能在 Claude、在 Goose、或任何实现了该标准的程序里用。

 

而这件事的核心驱动力是:现代 AI 应用几乎一切都是文本交互,这没问题,也挺好;但有些事情,人类就是更擅长用视觉来做。

 

最典型的例子:选飞机座位。如果让你用纯文本选——“这里有 25 个座位可选”——谁愿意这么干?你根本不知道这些座位在机舱图上是哪里。你当然想要一个 UI:你能点着选;而模型也能在这个 UI 上导航、交互;并且你作为人类也能同时交互。这就是我们想要的方向:做更丰富的界面。纯文本界面确实有天然限制。

 

你会在音乐制作等场景看到这种需求;你也会看到品牌方非常在意界面呈现。购物也是一个极好的例子:购物行业 20 年的 A/B 测试,研究“怎么把东西卖给你”最有效——购物界面其实非常复杂。所以我们需要一种方式,把这些熟悉的复杂 UI 展示给用户,让用户能交互。这就是 MCP Apps 最终要做的事。

 

主持人:技术方向上是 iframe?

 

David:对,是 iframe。本质上你通过 MCP resource 提供原始 HTML,把它放进一个 iframe,然后通过一个明确的接口用 postMessage 和外部通信。

 

因为是 raw HTML,而且不是加载外部内容,你如果愿意,理论上可以提前做安全分析。同时 iframe 也天然能提供比较清晰的隔离边界,让外部应用在一个安全边界内与之交互。

 

主持人:iframe 在浏览器里用了很多年。我唯一担心的是 CORS……我太讨厌 CORS 了,而 iframe 总会遇到 CORS 问题。

 

David:是的,但这里理论上不加载任何外部内容——至少我们不希望它这么做。当然,未来我们可能会不停迭代,五年后可能会出现一堆 CORS header 之类的复杂东西。但现在我们还是从小做起:纯 raw HTML,最好不要有外部引用,这样就不会碰到那些问题。

 

主持人:那能继承宿主应用的样式吗?

David:不能。iframe 里你得把样式内联进去。

 

主持人:这听起来很小,但 UI 团队会非常在意。大家会希望它看起来像 ChatGPT。

David:完全同意。品牌方和设计师会非常非常在意。这也是我们需要解决的问题:先把东西推出去,让大家用起来,然后基于真实使用方式迭代。这也正是为什么我觉得长期来看它不应该一直是 iframe。我不知道最终解决方案是什么,但我们可能需要一种“新的 iframe”,它允许一定的“渗透性/可融合性”。

 

主持人:我觉得这挺合理。另一条路可能就是“AGI build”的方式:给它一个 tool 说“给我样式”,模型再去问宿主应用“我应该长什么样”。

 

主持人:那 MCP app 应不应该知道自己被嵌在哪个父应用里?比如父应用也暴露工具给模型调用,对吧?那是不是需要一个标准接口让父应用把样式传下去?

 

David:可能是。这个问题很大。我得去问问团队。我自己并不在最底层细节里,我更多是站在整体方向上。

 

主持人:这对我来说有点意外。我以前从没关注 MCP UI,结果你们突然都采纳了。我就想:好吧,那看来它已经是 MCP 的一部分了——它让 MCP 从纯后端议题,变成了前端议题。

 

David:需要说明的是:技术上它是 MCP 的一个扩展(extension),它不是 MCP 核心的一部分。这更多是治理层面的区分。

 

如果你是一个能渲染 HTML 的客户端,你可以考虑实现它;但就算你不实现,你仍然是一个 MCP client。现实是:很多 CLI agent 根本渲染不了 HTML,所以它们永远不会实现。这没问题。

 

主持人:还有其他类似的扩展吗?

 

David:我们可能会在金融服务方向做一些扩展。比如一年后,你可能会看到这样的世界:客户端会有某种“认证/资质”,并得到一个签名——证明它是“金融服务 MCP 客户端”,然后向 server 出示这个证明,server 才允许连接,因为它知道客户端会遵守归因(attribution)等法律合同要求。

 

类似的机制也会出现在 HIPAA(医疗健康数据)这类场景:当你面对公共 server 和公共 client,同时还要处理敏感数据时,你必须提供一些保证。

 

主持人:这不是 OAuth 的一部分吗?

 

David:不一定。举个例子:假设客户端同时装了五个 MCP servers,其中有一个是医疗 server。这个医疗 server 可能会要求:在这个 session 里,你不允许使用其他 MCP servers,因为我给你的数据不能泄露到任何地方。你必须保证它不会跑出去——因为这是 HIPAA 数据、或者金融数据。这是一个很典型的约束:你不希望自己的社保号、健康数据不小心出现在别的地方。

 

加入 Linux 基金会会不会分心?

 

主持人:我们接下来会切到 AAIF ,最后,有没有什么行动号召?比如招人、或者呼吁大家参与 MCP spec?

 

David:最重要的还是——每天都去用 MCP 去构建:去做真正好的 MCP servers。我们看到很多很一般的 MCP servers,也看到一些非常非常优秀的。把 server 做好、把用法做扎实,这很关键。

 

第二点,我们是一个相当开放的社区,按传统开源方式运作:本质上取决于大家愿意投入多少时间和精力。所以你可以通过很多方式参与:给反馈、在 Discord 里交流、给点子;也可以帮我们做 SDK,比如 TypeScript SDK、Python SDK。我们也一直在找新的 SDK——比如我们有 Go SDK 在推进,但我们没有 Haskell SDK。如果你是 Haskell 开发者,你也许可以来写一个(笑)。

 

总之,可以做的事情很多。不要低估“参与社区”本身的价值。当然也别忘了去构建:现在机会太多了,尤其是我们对 progressive discovery 的理解更成熟了,对 code mode 的理解也更成熟了——接下来会出现一代新的客户端、一代新的 server,我非常期待大家去做出来。

 

主持人:我最后一个问题,是想让大家直接听你说。我能感受到你的能量,我也对你们做的事情非常兴奋。但很多人对 MCP 加入 Linux 基金会有点焦虑:他们会说,“这是不是意味着 Anthropic 分心了?”你能回应一下吗?

 

David:我很喜欢你问这个问题。我完全理解大家为什么会这么想,但事实恰恰相反。Anthropic 的投入和承诺没有变:我们还是同一批人在做 SDK,我们的产品仍然高度依赖 MCP。我还是 MCP 的核心维护者。技术上什么都没变。

 

基金会真正带来的核心变化只有两点:第一,它让整个行业确信:MCP 会永远开放,永远不会被拿走。历史上确实有公司把开源项目又变回专有。协议领域也有很多专有例子——比如 HDMI。你看 HDMI 在 Linux 上的那些问题。HDMI 2.1 的 HDMI Forum 不愿意让 AMD 开发 HDMI 2.1 的开源 Linux 驱动——真的,有些资料你可以去查。

 

所以行业里很多人会盯着这些风险。基金会的意义就是:现在 MCP 归属一个中立实体,它会一直开放。你可以使用 “MCP” 这个名字,也不会有人因为商标去起诉你。这会给生态巨大的信心:它是中立的、可持续的。

 

第二点,如果说我最骄傲的是什么:我觉得我们已经在行业里为“开放标准”定下了基调。现在我们可以利用这个势能,在一个中立空间里建立社区:让大家把真正做得好、维护得好、长期可靠的项目放进来,成为基金会的一部分。

 

而且我们的门槛会很高:项目必须维护得很好。我们不想、也不会把基金会做成“分心”或“甩包袱”的地方。对我们来说,MCP 仍然是产品核心、仍然超级重要;Anthropic 的承诺和投入一如既往。

 

参考链接:

https://www.youtube.com/watch?v=z6XWYCM3Q8s

 

Coding agents(编码智能体) 已成为应用型 AI 中最活跃的领域之一,但许多团队在模型或服务商更迭时,仍不断重复构建脆弱的基础设施。那么,如何在生态不断变化的背景下保持快速迭代与高度韧性,并将更多精力投入到领域特定的工作流程和用户体验上?

作为行业内的动向标杆,OpenAI 的 Codex 提出了解决方法——“模型和 Harness(工具集)的共同构建”。最近,OpenAI 的架构师 Bill Chen 和 Brian Fioca 在演讲里一起详细介绍了该构建过程中克服的挑战,以及这个 Coding Agent 本身一些新兴的使用模式。基于该演讲视频,InfoQ 进行了部分删改。

核心观点如下:

  • 通过将模型与 Harness 一同开发,你能更好地理解它的行为,这也是 Codex 作为一个集成了模型和 Harness 的系统的优势所在。

  • 单纯在模型上构建包装器,忽视了基础设施层的整体价值。将精力集中在让产品脱颖而出的差异化功能上,才是这种模式的核心价值所在。

  • 未来将是关于庞大代码库和非标准库的时代,如何在闭源环境中工作,如何匹配现有模板和实践,模型将不断支持这些能力。

Coding Agent 的构成

首先,我们来谈谈 Coding Agent 的构成。其实非常简单,一个 Coding Agent 由三部分组成:用户界面、模型和 Harness。用户界面显而易见,可能是命令行工具,也可能是集成开发环境,或者是云端或后台 Agent。模型也很直白,比如我们最近发布的 GPT-5.1 系列模型或其他一些供应商的模型。至于 Harness,这是一个稍微复杂一点的部分,它直接与模型交互,最简化地说,可以将其看作是由一系列提示和工具组合而成的核心 Agent 循环,它为模型提供输入和输出。

Coding 领域是应用人工智能最活跃的前沿之一,而随着新模型的不断发布,我们面临的挑战也在增加。更为复杂的是,大家不得不不断调整 Agent 以适应新发布的模型。

接下来我们将聚焦于 Harness 的部分。Harness 是模型的接口层,它是模型与用户、代码之间进行交互的媒介。它包括了模型需要的所有组件,以便在多轮对话中进行工作,调用工具,并最终为你编写代码,解读用户的需求。对一些产品来说,Harness 可能是其中的关键部分。不过,构建一个高效的 Harness 并不是一件轻松的事。

那么,构建 Harness 过程中遇到的挑战有哪些呢?首先是 AV(音视频工具)问题。你可能会为 Agent 提供一个全新的、创新的工具,但它可能是模型之前从未见过的,它可能并不擅长使用这种工具。即使它曾经见过,你也需要花时间根据该模型的特点调整 Prompt。

新模型不断发布,延迟问题也是一个挑战。模型在处理某些问题时需要时间,那么,我们应该如何设计提示,避免延迟过长?如何在用户体验上展示模型思考的过程?它在思考时是否与用户沟通,还是我们需要总结其输出结果?此外,管理上下文窗口和数据压缩也是一大难题。另外,API 接口也在不断变化,现在我们有完成功能、响应功能,以及未来可能出现的其他功能,模型是否能熟练使用这些工具以便发挥最大的智能也是一个问题。

将模型适配到 Harness 中需要大量的 Prompt 设计。实际上,模型的训练方式会带来一些副作用。我喜欢这样理解:(Steerability = Intelligence + Habit)智能加上习惯。一方面,智能是指:模型擅长什么?熟悉哪些编程语言?在某些框架中,模型能把代码写得多好?另一方面,它又养成了哪些习惯来解决问题?我们在训练模型时,培养了它在规划解决方案、查找背景信息、思考问题后再动手写代码,并在最后测试工作的习惯。

理解这些习惯是成为一名优秀的 Prompt 工程师的关键。如果你没有按照模型熟悉的方式来指导它,可能会遇到问题。当我们发布 GPT-5 时,许多不习惯使用我们模型的人,尝试将其他模型的 Prompt 直接套用到我们的 Harness 中,结果发现我们的模型做的事情比其他模型要更为细致,导致了响应速度慢,效果不如预期。我们最终发现,如果让模型按照它习惯的方式进行工作,而不是过度引导,它的表现会更好。通过与模型的对话,我问它:“我喜欢这个解决方案,但它花了太长时间。下次你能做得更快吗?”模型回答说:“你让我去看所有的内容,其实我并不需要这样做,正是因为这个原因,才耗费了这么长时间。”

因此,通过将模型与 Harness 一同开发,你能更好地理解它的行为,这也是 Codex 作为一个集成了模型和 Harness 的系统的优势所在。

Codex 作为 Harness/Agent

Codex 被设计成一个适用于各种编程环境的 Agent,它可以作为 VS Code 插件、CLI 工具使用,甚至可以通过 VS Code 插件或手机上的 ChatGPT 在云端调用。它的功能非常基础:你可以通过提示将想法转化为可运行的代码,具备规划能力。它能在代码仓库中导航并编辑文件,执行命令和任务,你也可以从 Slack 或 GitHub 上调用它来审查 PR。

这意味着 Codex 的 Harness 需要能够完成许多复杂的任务:需要处理并行工具调用、线程合并等问题,还要考虑安全性,例如沙箱管理、提示语转发、权限设置、端口管理等。数据压缩和上下文优化的管理也非常复杂。何时触发压缩,何时重新注入数据,如何优化缓存,所有这些都是必须要解决的挑战。如果你要从零开始构建这些功能并保持其更新,工作量巨大。幸好,我们已经将这些功能集成到一个 Agent 系统中,它能安全地编写自己的工具来解决遇到的新问题。

这听起来比普通的 Coding Agent 强大多了,不是吗?但想想看,其实在浏览器和图形用户界面出现之前,我们操作计算机的方式不就是通过命令行界面写代码并将其串联起来吗?这意味着,如果你能将任务以命令行方式以及文件任务的形式表达出来,Codex 就能知道该如何执行。

举个例子,我喜欢使用 Codex 将我的桌面上的照片整理到一个文件夹里,这是一个非常简单的应用场景。但它还能做的不仅如此,它能够分析文件夹中大量的 CSV 文件,进行数据分析,这并不一定是 Coding 任务,只要能够通过命令行工具来完成,Codex 就能帮你做。现在我们可以看到,Codex 是如此强大和有趣。

用 Codex 构建自己的 Agent

如果你希望将 Codex 集成到自己的 Agent 中,该如何操作呢?如果你打算创建下一个 Coding 初创公司,一个关键的模式是:Harness 成为新的抽象层。这个模式的好处非常明显,你不再需要在每次模型升级时都优先优化提示语和工具。但这是不是意味着你仅仅是在构建一个包装器呢?不是。正如我所说,单纯在模型上构建包装器,忽视了基础设施层的整体价值。将精力集中在让产品脱颖而出的差异化功能上,才是这种模式的核心价值所在。

我们来看看一些我们与客户合作时所遇到的模式,这些模式实际上帮助他们成功构建了产品。Codex 是一个 SDK,你可以通过 TypeScript 库来调用它,也可以通过 Python 执行它。它还提供了一个 GitHub 动作,能够自动合并 PR 中的冲突,解决大家讨厌的合并问题。此外,你还可以将它添加到 AgentSDK 中,并为你的产品提供 MCP 连接器。这样,你就可以拥有一个 Agent 系统。

我喜欢说,我们从最初的聊天机器人开始,它们能与用户对话;然后我们为这些聊天机器人提供了使用的工具;如今,你可以为聊天机器人添加更多工具,使它能够自己生成尚未拥有的 Harness。现在,你可以构建一个企业级的软件,允许它为每个客户即时编写插件连接器,这曾是专业服务团队的工作。你可以获得完全可定制的软件,且它可以与自己对话。我曾为开发日创建了一个看板,它能够自动修复自己的 bug,非常有趣。

 

最后,你也可以像 Zed 一样,将 Codex 嵌入到一个层级中,为 IDE 提供接口,使其能够与用户互动并进行代码编辑。这样,Zed 就不必处理我们擅长的部分,而是可以专注于打造最好的代码编辑器。

我们的顶级合作伙伴,如 GitHub,已经利用这些模式取得了巨大成功。我们为 GitHub 创建了一个 SDK,允许他们直接与 Codex 集成。你也可以使用这个 SDK 将 Codex 作为你 CI/CD 管道的一部分,或者将它作为与自己 Agent 直接互动的工具。如果你想定制 Agent 层,完全可以这么做。举个例子,我们与 Cursor 团队紧密合作,他们将自己的 Harness 与我们开源的 Codex CLI 实现对接,成功地优化了系统性能,所有这些都是公开可用的,你可以克隆我们的代码库,随意使用。

Codex 的未来是什么样的呢?它还没有发布一年,尤其是在推出 Codex Max 之后,变化非常迅速。它目前是增长最快的模型,每周服务数十万亿个 token,这个数字从开发日以来翻了一番。我们可以合理假设,模型将变得更强大,它们能处理更长周期的任务,而且不需要监督。新模型的信任度将进一步提高,我相信这些模型已经能够处理比六个月前更复杂的工作,而且这种信任感将不断增长。

未来将是关于庞大代码库和非标准库的时代,如何在闭源环境中工作,如何匹配现有模板和实践,模型将不断支持这些能力。SDK 也将不断发展,以更好地支持这些模型的能力,使模型能够在执行任务的过程中不断学习,避免重复错误,并为写代码和使用终端解决问题的 Agent 提供更多支持,你将能够通过 SDK 在自己的产品中使用这一切。

那么,我们从中学到了什么呢?Harness 构建非常复杂,特别是在新的模型不断发布的背景下。我们已经为你在 Codex 里构建了一个集成的工具,你可以直接使用它,或者查看源代码自行改进。除 Coding 以外,通过它你还可以构建更多全新功能,而我们会处理确保你的计算机 Agent 具备最强的能力。同时,我们非常期待看到你们用它创造出的产品。

参考链接:

https://www.youtube.com/watch?v=wVl6ZjELpBk

微软2026年1月补丁星期二修复3个零日漏洞及114个安全缺陷

比利时AZ Monica医院遭网络攻击后关闭服务器

Target员工确认泄露源代码属实

Betterment在加密货币诈骗邮件浪潮后确认数据泄露

门罗大学称2024年数据泄露事件影响32万人

乌克兰军队成为新型慈善主题恶意软件活动攻击目标

新型VoidLink恶意软件框架瞄准Linux云服务器

中缅因州医疗保健机构数据泄露事件影响超14.5万人

12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈指可数的 “明星企业”,OpenAI 不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡,还需承接外界对其技术突破的高期待。面对 “开创下一个 AI 技术范式” 的巨大压力,OpenAI 将采取怎样的策略破局?

最近,OpenAI 首席研究官 Mark Chen 在播客节目中,与主持人 Ashlee 细致分享了 OpenAI 在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro 已在取得的科学发现。基于该播客视频,InfoQ 进行了部分删改。

核心观点如下:

  • 一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。

  • 成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

  • 未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

  • 完全冻结研究部门的新增人头,如果团队想招人,就必须自己决定谁不再适合继续留下。

目标是找到“下一个范式”

Ashlee:“人才争夺战”最近引发了大量关注,外界普遍认为 Meta 的动作非常激进。你能具体谈谈这种你来我往的竞争现状吗?

Mark:整个行业的人才池其实很有限,大家都知道最关键的资源之一就是顶尖人才。Meta 的积极挖人并不令人意外,但我们也没有袖手旁观。媒体往往强调“人才单向流向 Meta”,但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前,先后接触过我近一半的直接下属,但这些人全部拒绝了他们。当然,如果 Meta 每年能投入约百亿美元用于人才,他们总能挖到一些人。但总体来看,我们很好地保护了核心人才。

竞争过程中也发生过不少颇具戏剧性的事:扎克伯格曾亲自给我们团队成员送去他亲手熬的汤,以此示好。当时我非常震惊,但后来也理解这类方式确实可能有效。之后我也给从 Meta 挖来的对象送过汤,甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句,我自己并不亲自熬汤,米其林餐厅的汤当然比我做得好。

但真正让我有信心的是:即使面对 Meta 的高薪挖角,在 OpenAI,无论是来自 Meta 的员工,还是我们原本的研究人员,都没有人认为“AGI 会首先在 Meta 诞生”。他们对 OpenAI 的研究路线都有高度信心。我也一直非常明确告诉团队,我们不会与 Meta 进行“薪资逐美元匹配”的竞争。在远低于 Meta 的薪酬下,关键成员仍然选择留下,这让我更加确信:他们真正相信 OpenAI 的未来。

Ashlee:在这种竞争中,有没有类似“博弈策略”的考虑?

Mark:关键在于:目标不是留住组织内的每一个人,而是认清必须保留的核心力量,并确保他们留下来,我们在这点上做得很好。

Ashlee:在我看来,Sam 是真正沉浸于研究的那个人,是最顶层的决策者。而你和 Jakub 负责共同制定 OpenAI 的研究方向,同时你还要决定算力如何分配到具体项目上,既要决定公司往哪里走,又要管理执行路径。听起来像是一份非常艰难的工作,因为我想象得到大家会竭尽所能从你那里争取 GPU。

Mark:确实如此。人们为了获得 GPU,会想尽各种“幕后交易”。但这确实是我职责的重要部分:确定研究优先级,并对最终执行负责。

Jakub 和我每隔一两个月会做一次“项目盘点”,梳理一份包含约 300 个项目的大型表格,尽可能深入了解每个项目,并对它们进行排序。对一家约 500 人规模的组织来说,明确“核心优先级”,并通过口头沟通及算力分配来传达,是非常重要的。

Ashlee:这 300 个项目里既有大型前沿模型,也有各种实验性方向。你们如何管理、追踪并判断哪些项目值得投入 GPU?

Mark:关键在于始终聚焦核心路线图。与其他大实验室不同,OpenAI 始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果,也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”,并愿意投入大量资源。很多人可能会惊讶:我们的算力大头,其实花在“探索”上,而不是训练最终的成品模型。

Ashlee:所有团队都会说自己的项目最重要、最值得,怎么判断优先级?

Mark:最困难的决策通常是:我们无法在当下为某个项目提供支持。但成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。

Ashlee:你们也强调不要“对竞争者做出反应”。如今 AI 领域的竞争比以往都激烈,你们如何保持独立判断?

Mark:现在的 AI 研究竞争确实空前激烈,但不能陷入这种竞争节奏。你随时可以发布一个小更新,在几周或几个月内领先别人,但这种方式无法长期维持。真正重要的是“破解下一个范式”。

例如 RO(reasoning optimization)项目,我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎,因为大家都觉得预训练和后训练机制运转良好,没必要做别的。但现在,“思考能力”已经变成不可或缺的基础能力。

我们的使命就是大胆押注,并构建足够强的算法,使它们能扩展到未来数个量级的算力。

研究员 vs 工程师

Ashlee:随着 OpenAI 成为一家有明确产品线的公司,你们如何不被“商业优先”压过“研究优先”?

Mark:OpenAI 最特别的地方在于:我们仍然是一家“纯粹的 AI 研究公司”,这点在业界非常罕见。我们以非营利形式创立,我加入时公司仍是非营利组织,那时的精神是“全力推进 AGI 研究,并保证安全”。我认为这依然是创造价值的最佳方式:只要研究领先,价值创造自然而然会发生。我 2018 年加入时的那种“核心文化”,至今依然存在。

Ashlee:马斯克曾说:“这帮人不是研究员,只是在做工程。”你怎么看?

Mark:在构建大模型时,优化每一个百分点、加速每一个 kernel、确保数值稳定,都是极深的工程实践。如果把研究凌驾于工程之上,其实已经输了。一旦缺少工程能力,就无法在当今这种规模的 GPU 上运行模型。

Ashlee:但外界确实把“研究员”和“工程师”赋予了不同的神秘感。

Mark:研究人员形态各异,有的人每天都有无数想法,其中很多并不好,但总能在某个时刻提出改变方向的优秀点子,而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作,因此也无法简单划分为某种刻板印象。

Ashlee:当竞争对手发布新模型,你和你们团队会做什么?大家会第一时间去试吗?有没有你们常用来测试新模型的“那一道题”?

Mark:会。以 Gemini 3 为例,它是个不错的模型。

但我们内部其实有能力相当的模型,而且快要发布了。

Benchmark 只能说明一部分,大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测,目前还没看到模型完全解出来,就算是“thinking model”也不行。

Ashlee:是秘密题目吗?

Mark:不算,不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题,叫“42 problem”。你要构建一个 mod 42 的随机数生成器,你有的原子操作是一些模 42 以下素数的 RNG,你要让期望调用次数最小。挺可爱的题目,但还没人类语言模型做到最优。

Ashlee:我原本以为你会在对手发布模型当天半夜就冲上去丢题测试。

Mark:没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力,把整个团队的肌肉练起来,做出现在能跟 Gemini 3 一较高下的模型。

Ashlee:所以你现在更关注长线构建,而不是每次新品发布就冲去试题。

Mark:对的。

Ashlee:我知道你和 Jakub 都有竞赛背景。我当初第一次见 Jakub 是在 Facebook Hacker Cup。你以前也是数学比赛选手吧?

Mark:对,我从小学、高中都在做数学竞赛。不过我真正写代码很晚,是大学室友怂恿的。当时我还有点数学系学生的傲气,觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了,而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛,算是朋友间的活动。后来我发现自己还挺有天赋,又开始给美国国家队出题、最后去带队。既是激烈比赛,也是一个紧密社区,大家之后都会在科研界再相遇。

Ashlee:那你这么忙,还能当教练?

Mark:其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研:有好时段、有坏时段,你不能因为连续失败就被心理打倒,很大部分是士气管理。我最近在带模型做竞赛题时也发现,模型的“难度直觉”跟人完全不同,人认为 ad-hoc 的题模型反而容易。这让我更相信未来的科研是“AI + 人类直觉”的组合,会产生新的突破。

Ashlee:有点像 AlphaGo 的“Move 37”时刻?

Mark:是的。我觉得 GPT-5 Pro 发布之后,前沿科研有了拐点。发布三天后,一个物理学家朋友把他的最新论文丢进去,模型想了 30 分钟就完全搞懂,他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。

Ashlee:但当 AI 开始做那些原本属于顶尖人类智力的事,会不会让你觉得有点伤感?

Mark:竞赛是我很喜欢、也曾经擅长的东西,但我也看着模型从普通选手水平爬到超过我,再超过 Jakub,就像亲眼看到自动化的速度快得不可思议。去年模型在 coder 比赛还只是排 100 多名,今年已经能冲进前五。变化太快了。

Ashlee:那十年后还会有人类比赛吗?

Mark:会的,因为它本质上就很有趣。那些只是为了简历而参加的人会消失,但真正热爱的人不会。

Ashlee:我采访别人时,他们说有些国家只要 IOI 奖牌就能直接保送大学。

Mark:是,但我觉得未来这些考试本身会被 AI 打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟 ChatGPT 对话,由一个不会被越狱的特别版 ChatGPT 判断他们是否具备在 OpenAI 工作的能力。

Ashlee:你家里有很强的科技背景,你父母都在 Bell Labs,对你影响很大吧?

Mark:我从小吃饭桌上就是各种科学谜题。后来搬到西岸,我爸做创业,让我看到初创公司的另一面。再搬到台湾读书,又是完全不同的文化,纪律性更强。各种经历混在一起,形成了今天的我。

Ashlee:你 MIT 那届是名人辈出的超级年份吧?

Mark:是,2012 年那一年特别厉害。Jacob Steinhardt、Paul Christiano,还有后来 AI 领域很多重要的人物都在那一届。

Ashlee:你也通过竞赛认识了 Cognition 的 Scott Wu,那些在 X 上被当成数学 meme 的人。

Mark:对,我们就在竞赛社区认识。

Ashlee:你从 MIT 毕业后,直接去了华尔街。

Mark:老实说,我对在华尔街做高频交易并没有太多自豪感。当时在 MIT,许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”,只要足够聪明,你就能获得对应的收益。然而文化上我并不适应。在那种环境里,当你发现了什么突破,第一反应是把知识藏好,因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统:即便某家 HFT 公司的算法快了一点,外界其实几乎没有任何感受。我做了四五年后发现,我们始终在跟同一批对手竞争,大家都稍微变快了,但世界并没有因此改变多少,我觉得是时候做点别的事了。

当时 AlphaGo 的比赛对我触动很大。虽然我并不下围棋,但看到模型展现出的创造性,我特别想弄明白背后的原理。

Ashlee:所以你是看到了那场比赛后,才开始关注 AI?当时你有在读论文吗?

Mark:坦白讲,没有。直到 AlphaGo 之后我才开始深入研究 AI。我的第一个目标就是复现 DQN 的结果,复现一个能在 Atari 游戏中达到超人水平的网络,那基本就是我踏入 AI 的起点。

Ashlee:你是在上班后业余时间做这些吗?我记得我大概 2018 年采访 George Hotz,他在自家车库做自动驾驶。他当时说,AI 仍然很年轻,只要读 10 到 30 篇论文,就能掌握整个领域。当然他的话未必完全准确,但 AI 的确很特别:历史很长,但此刻却异常“浅”。

Mark:确实非常“浅”。我常建议对 AI 望而却步的人:只要花三到六个月做一个项目,比如复现 DQN,就能很快触达前沿。过去几年虽然增加了一些深度,但远没有理论数学或物理那么深奥。

Ashlee:你觉得 AI 会像数学一样,天才都在二十几岁出现突破吗?还是这是一个可以做一辈子的领域?

Mark:我认为完全可以持续做下去。OpenAI 的文化确实偏年轻,但做好研究并不需要年轻。年轻人确实因为“先验少”,更容易突破传统路径,但随着经验增长,你也会形成自己的视角和框架,这既是优势,有时也会让你更固化。

OpenAI 的内部故事

Ashlee:你在 2018 年加入 OpenAI,那时公司应该只有 50 人左右?

Mark:差不多 20 人而已。我是以“研究员 resident”的身份加入的,也就是 OpenAI 会从其他行业招人进来集中训练半年,像压缩版 PhD,然后再参与更深入的研究项目。我很幸运能向 Ilya 学习,他基本决定了我的项目、学习路径和方向。

Ashlee:但如果去 LinkedIn 看,你的第一份 OpenAI 的头衔看起来像是“前沿研究主管”。

Mark:并不是,我做了三年左右的个人研究(IC)。当时我主要研究生成式模型,因为那是 Ilya 最关注的方向。之后我才开始带团队。

Ashlee:公众最早看到的大项目可能是 DALL·E,对吗?

Mark:是的。其实在那之前,我最自豪的项目之一是 Image GPT。它证明了 Transformer 不止能处理文本,也能在图像上学到强大的表示能力,是 DALL·E 的前身。而另外一个我非常自豪的项目是 Codex,我们搭建了代码模型的评估体系,也探索了如何让语言模型在代码任务上达到高水平。

Ashlee:那你当初为什么选 OpenAI?是因为当时这个小公司里有很多有意思的人吗?没钱、没人、前景很不确定,居然要挑战 Google 这种巨头。

Mark:我觉得一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。当时 OpenAI 两者兼具,这非常罕见。而且我认识 Greg,我们以前参加过数学竞赛,我给他发消息说:“我不确定自己是否适合,但这里似乎在做重要的事情。”

Ashlee:但你从外部加入,然后现在成为研究负责人,这听起来还是很不可思议。

Mark:对我来说也很不真实。从 IC 转管理者,我其实非常犹豫。不过一路上我遇到的管理者都非常支持我,他们看到了我的潜力,会主动为我争取机会。我从没主动要求升职,每次都是自然而然的结果。管理这件事,本质上主要靠经验累积,而 OpenAI 是一个能让你不断获得“经验值”的地方。

Ashlee:我认识的你是一个温和、稳重的人。但 OpenAI 过去几年经历了很多戏剧性的风波,甚至像“权力的游戏”。你要在这种环境里做管理,这和你的性格几乎相反。

Mark:老实说我在 OpenAI 算是很幸运。一路上都有人支持我、给我建议,也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。

Ashlee:不过你在“政变事件”那段时间做了两件很重要的事:你先帮助研究员们统一意见、促成那封让 Sam 回归的请愿信。然后一两天之后,你在 Chelsea 家做了一次很重要的短讲。这两个瞬间对我而言都很震撼,在危机时刻挺身而出、凝聚团队……这对你意味着什么?

Mark:对我而言,那确实是一个关键时刻。“风波”后的几天里,整个团队都处在高度不确定中。那段时间,我、Nick 和 Barrett 都感到一种责任感:竞争实验室正不断向我们的研究人员打电话,试图把他们挖走。我当时给自己设下目标:不能失去任何一个人。最终我们也做到了。

那几天,我们每天都把自己的家打开,让同事随时过来,释放焦虑,同时保持他们与领导层的沟通渠道畅通,让大家知道自己仍然能发挥作用。渐渐地,团队形成了一种“我们一起面对外界”的精神,大家都在思考:如何向世界传达“我们仍然站在一起”。

当时我在几处房子之间来回协调,我们提出了组建请愿书的想法,表达我们支持 Sam 的立场。大概凌晨两点,这个想法最终确定下来。到第二天早上,研究团队已有 90% 以上的人签署,到最后接近一百人都签了。那一整晚,大家都在互相打电话确认:“你参加吗?”

Ashlee:但你当时的处境应该挺尴尬的吧?毕竟一开始似乎是 Ilia 和 Sam 立场对立,而 Ilia 又是你的导师。后来 Ilia 又回来了……那会不会让你很尴尬?

Mark:不会说尴尬,但确实很困难,因为那是个信息极少的环境。那时候确实很容易怀疑:Sam 到底做了什么?但换个角度想,如果真有严重问题,Greg 和 Jakub 这种极其正直的人会因此辞职吗?我觉得肯定有部分事实被误解了。

Ashlee:Jakub 在那里工作很久了。关于他,有什么是外界不了解的?

Mark:他其实非常幽默,带着强烈的讽刺感,我常常被他逗得发笑。和他共事让我最珍惜的一点,是我们之间高度的默契。进会议室后,我们能迅速碰撞出一致的结论,然后分别负责路线图的不同部分。

说到“把团队留在一起”,我现在仍有这种使命感。我认为我们仍然“被攻击着”,任何公司想要招人时,第一选择往往是从 OpenAI 下手,因为他们想要我们的专业能力、愿景和世界观。OpenAI 造就了今天 AI 领域最多的明星研究员,因此我们对团队有强烈的保护欲。只要有人来挖,我就会尽一切努力确保团队感到被重视、被理解,并清楚自己在整个路线图中的位置。

Ashlee:在写书、回顾历史的过程中,我一直在想:这是否是一个高度依赖“天才个体”的领域?从 2012 年 Ilia 的突破,到 2017 年 Transformer,再到 Alec Radford……似乎每隔几年就有那么 8–10 个关键人物在推动整个领域。如果他们离开了,比如 John Schulman、Alec 离开了,那对团队不是巨大损失吗?但你们之后仍然在推理和其他方向取得了突破。

Mark:我并不同意“完全依赖明星个体”这种说法。OpenAI 的确会从上层做方向性押注,但我们内部有非常深厚的自下而上文化,很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展,是非常美妙的事,推理方向就是典型例子。

Ashlee:但行业确实会花大价钱去挖“明星”,比如 Google 花巨资请回 Noam Shazeer。

Mark:当然,人才既有培养也有争夺。反过来,我从 Meta 学到的一点就是:OpenAI 自己也可以非常积极地争取顶尖人才,我自己也从他们那套激进的招聘策略中学了几招。归根结底,我们的目标始终是:组建一支最强的团队,完成我们要实现的使命。

Ashlee:这个圈子其实很小,你们虽然竞争激烈,但私下也都是朋友。那边做研究,这边又试图挖对方的人,这不是很微妙吗?

Mark:这是残酷竞争的行业,但我个人也非常享受竞争。我讨厌失败,因此无论是研究还是招聘,我都会全力以赴。

Ashlee:这让我想到半导体行业早期也是这样:工程师们不断突破物理极限,在酒吧里分享最新发现,同时又被各家疯狂挖角。

Mark:是的,任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应:一种是建立深度信息隔离层,严密保护一切;另一种是继续保持开放文化,用速度压制对手。OpenAI 明显是第二种,我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法,这才是最快的前进方式。

Ashlee:那现在你、Sam 和 Jakub 之间的合作方式是怎样的?大家都能看出来 Sam 更偏研究,而你们两位更深度参与技术细节。

Mark:我们三个人联系非常紧密,我每天都会和他们交流。Sam 热爱研究,也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”,比如潜在问题、工作环境中的隐形障碍,他能帮我把这些提前揪出来。Jakub 和我则更专注于如何设计组织、让团队以最高效率协作,比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。

Ashlee:Sam 平时看论文、和你们聊天吗?

Mark:对,他会看论文,也会经常与研究人员交流,理解他们的研究方式。当然,他还负责范围远超研究的事务。

OpenAI 到底发现了什么?

Ashlee:我知道你们最近在预训练方面似乎有了重大突破,也明显比之前更有信心,能透露一下你们到底发现了什么吗?

Mark:我对过去两年的总体观察是:我们把大量资源投入到“推理”这一能力的研究上,努力理解并打磨这个核心原语,这条路确实走通了。但副作用是,模型的其他重要环节,特别是预训练和后训练,相对失去了些“肌肉”。过去六个月里,Jakub 和我花了很多时间把这部分能力重新练起来。

我一直把预训练看作一种“肌肉”,必须持续锻炼:信息要保持最新,团队要在优化、数值计算等前沿方向持续投入,同时也要确保有足够的心智关注度。所以我最近一个重要工作,就是引导公司内部的讨论重回预训练,我们认为预训练还有极大空间。

外界有人说“Scaling 已死”,但我们完全不认同。某种意义上,行业现在把注意力集中在 RL,这反而给了我们“信息优势”,因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力,我们最近训练出的模型明显更强,这也让我们对包括 Gemini 3 在内的接下来一系列发布更有信心。

Ashlee:我脑中对这段历史的画面是这样的:你们跑得太快了,整个领域也跑得太快。突然之间,我们从互联网收集到巨量资料,把它扔进一台超级计算机,于是 ChatGPT 诞生了,然后所有人就开始疯狂冲刺。但对于不紧密跟进的人来说,问题可能是:最初那波数据其实非常粗糙,只是稍微清洗了一下就丢给模型。而现在你们说在“学习更高效地塑造数据”,但外界很难理解到底之前的“错误”是什么。

Mark:你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式,模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限:当你模仿人类时,你很难真正超越人类。

这也是为什么 RL 重要,它让我们有机会把模型推向更难的任务,让它从人类范式之外思考,拓展能力边界。但随之而来的,是一个更困难的问题:如果我们要让模型真正超越人类,该怎么衡量?

例如,在科学领域,当能力达到了“超人类”水平,人类真的能够判断 A 比 B 强吗?如何判断一个“超人类数学家”比另一个更厉害?我们需要更好的评估体系。迄今为止,我们很幸运,IMO、IOI 等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类,这些测验本身就失效了。

Ashlee:我常看到那些竞赛牛娃后来进 Google、Facebook,但他们不一定是最顶尖的工程师,也不一定愿意或适合进入工业界。所以单纯在竞赛上拔尖并不等于就是“最强工程师”。那如果未来 AI 在这些竞赛上表现极佳,我们到底能从中学到什么?

Mark:这正是我喜欢 AI 研究的地方,它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是:你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断,例如路线选择、资源配置、项目方向。如果判断错误,很快就会失去团队的信任。

我很享受与这样一群极度技术驱动的人共事,他们都深度投入、极高水准,与他们讨论技术本身,是一件真正的乐趣。

Ashlee:在我心里,Transformer 是一次巨大飞跃,而“推理能力”的突破甚至可能更惊人。最近与你、Greg、Jakub、Sam 交流时,我感觉你们说过去三到五年投入的大量工程工作,其实还没有完全显现出来。你们现在看到的,是另一场类似 Transformer 的跃迁吗?

Mark:我认为是的。比如在 GPT-5 时,我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力,我们正在快速扩大投入。关键仍是维持一组多样化的探索,把最有实证价值的方向加大力度推进。

Ashlee:但两周前,Karpathy 在播客上说 AGI 可能要十年;上周 Dario 又说更接近两年。行业内部声音完全不一致。你怎么看?

Mark:Twitter 很喜欢那种“结束了!”“又回来了!”的戏剧化循环。但 AGI 本身连定义都不统一,在 OpenAI 内部,你把所有人叫到一个房间,也不可能给出一个完全一致的 AGI 定义。

我更把它类比成工业革命:你说纺织机是工业革命,还是蒸汽机是?视角不同,切点也不同。对我而言,我更看重的是:模型是否开始产出真正新的科学知识?是否推动科学前沿?从今年夏天以来,我感觉在这方面出现了巨大的相变。

Ashlee:你说的新科学成果,是不是指最近那些生物科技初创公司,比如一次性设计抗体、分子结构那类突破?还是你指的另有其事?

Mark:那次与物理学家的交流给了我很大启发,我回去后就想,我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家,能够获得最大程度的支持。我知道其他公司也在推动科学前沿,但我们和谷歌等机构的不同之处在于:我们希望让所有科学家都有机会借助工具做出诺奖级突破,而不是让 OpenAI 自己拿诺奖。我们要构建的是通用的工具与框架,让科学界整体都能加速。

Ashlee:你能具体说说有哪些让你兴奋的发现吗?

Mark:当然。你可以去看 Sebastian 的推特,他最近发了关于 GPT-5 在一个开放凸优化问题上取得进展的论文,这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”,但远比这复杂。

Ashlee:这两天听到有人声称“我们做出了 AI 科学家”“我们一次性设计出增强型蛋白质”,这些公司里不少是真正的科学家,我也多少会兴奋。但数量实在太多,我很难判断哪些是真正的突破、哪些只是噪音。

Mark:如果这些突破发生在生物领域,我一点也不意外。尽管我主要的专业在计算机科学和数学,但我们团队里有顶级专家,他们确认了不少是真正的科学发现,生物学里出现类似情况并不令人惊讶。

Ashlee:但你描述的情况似乎与最近几周不断变化的公众叙事不同。比如一些播客里的人会说 AI 没什么进展,都是虚幻的。如果这些发现是真的,公众应该会感受到变化才对。

Mark:我们在筹建 OpenAI for Science 时与许多物理学家和数学家交流过,其中大多数人对 AI 其实并不乐观,他们觉得模型不可能证明新定理。但正因为如此,我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快,我们希望为他们提供工具,也希望说服更多研究者:这是未来科学研究的正确方法。

Ashlee:每个人对 AGI 的定义不同,但你似乎认为未来一两年会发生非常剧烈的变化?

Mark:“AGI 两年后到来”一直是个梗,但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果,让我真正产生了信念。在 OpenAI 内部,我们设定了两个非常具体的目标:

第一,1 年内改变研究方式:让研究过程可以依赖 AI 实习生。也就是:研究者负责提出想法,模型负责实现、编写代码、调试。

第二,2.5 年内让 AI 能进行端到端研究。这意味着:研究者只确定方向,模型完成从构思到执行到验证的全过程。

与今天相比,这是完全不同的研究范式。

算力、GPU 与 AI 硬件

Ashlee:在与 OpenAI 的人聊时,我常听到一句话——基础设施扩张得很快,模型只要算力再提升 10 倍就会变得更好。但也有人说从 GPT-4 到 GPT-5,你们算力增加了,却没有看到预期的效果。可你们的叙述又让我觉得:其实我们还没真正看到“10 倍算力飞跃”带来的结果。

Mark:有人问我:“你们真的需要这么多算力吗?”我总是被这个问题震惊,因为我每天面对的都是海量算力需求。如果我们今天多 3 倍算力,我能立刻高效用完;如果多 10 倍,大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多 GPU 吗?”对我来说毫无意义。

Ashlee:那除了算力需求,你们对模型规模继续扩大是否同样乐观?你们是否看到,类似“规模效应”会再次推动巨大跃升?

Mark:是的,我们非常明确要继续扩大模型规模;而且我们有突破性的算法能支持更有效地扩展。我认为 Gemini 3 也很令人印象深刻,但从细节看,比如 SWE-bench 等指标,他们在数据效率方面仍没有重大突破,而这是我们非常强的部分。

Ashlee:我看到了一份泄露的备忘录,Sam 对 Gemini 3 的语气听起来相当严肃,仿佛是一个转折点。你们内部应该都看过吧?

Mark:是的,但你要知道,Sam 的工作之一就是不断在组织里注入紧迫感,我也一样。我们必须保持专注,加快节奏。Gemini 3 是谷歌该做的正确押注,但与此同时,我们也有明确的策略与回应,并且我们有信心执行得更快。

Ashlee:你们会参与像 Jony Ive 的 AI 设备这样的项目吗?比如研究团队在其中扮演怎样的角色?

Mark:是的,事实上,就在昨天我和 Jony Ive 以及几位研究负责人一起吃了晚饭。我一直在思考未来的 ChatGPT 会是什么样子。现在的交互方式对我来说还很“笨”,非常非思维原生:你给一个提示,它回答;你不提示,它就停止思考。而且如果你再给出类似的问题,它会重新花一样多的时间推理,仿佛没有从第一次的上下文中变得更聪明。

未来显然应该不同。记忆会是核心能力:每次你使用 ChatGPT,它都会学到关于你的更深层次信息,思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来,它会变得更好。我认为这会彻底改变“设备”的范式,因此我们必须思考:如果 AI 的主导逻辑是持续学习与反思,那硬件设备应该怎么重新设计? 这就是和 Jony 合作非常有价值的地方。

Ashlee:你们已经有设备原型了吗?

Mark:我不能说有没有,也许有,也许没有。

Ashlee:我想到的是:苹果时代的核心是“硬件品味”,这是 Steve Jobs 极度执着的东西。而你们似乎都没有真正做过硬件产品。Sam 的审美看得出来不错,但还没到“乔布斯式品味”的程度。硬件是极其依赖品味的,你们怎么确定自己能做出好产品?

Mark:坦白说,我们不需要自己拥有那种品味,那是 Jony 的价值,他就是我们关于“品味”的判别器。而且很有趣的是,我们发现设计流程与 AI 研究流程之间有深刻的相似性:大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅:他们根据我们即将发布的能力去思考外形,我们根据他们的外形需求去思考能力。

Ashlee:我有时会担心:一群数学与模型天才是不是适合造“下一代电脑”。但听你这么说,似乎你们形成了一个合理的搭配。

Mark:确实,打造 AI 能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题:“ChatGPT 最喜欢的数字应该是什么?”这种问题能检验模型的“人格品味”一致性。 

最后的问题

Ashlee:ChatGPT 建议我问你:如果五年后回看,现在有哪些“还很脆弱”的想法,你直觉认为可能是大突破的核心?

Mark:确实有几个,我非常期待把它们规模化。主要集中在预训练,一些在 RL,还有一些是如何把所有组件整合在一起的整体性想法。 

Ashlee:你觉得现在外界对 OpenAI 最大的误解是什么?

Mark:最重要的一点:OpenAI 从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是 AGI,其他所有产品都会自然从研究突破中流出。

我们关心三件事:自动化 AI 研究本身、自动化科学发现、自动化经济性工作。今年最大的更新,其实是第二条:科学研究的自动化开始真实发生了。

Ashlee:你几岁了?还有社交生活吗?

Mark:34,快 35。老实说,没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点,那就必须抓住它。Barret 离开去创业之后,我在办公室睡了一个月。那段时间我非常强烈地感到:我必须保护研究,这是我最在乎的东西。

Ashlee:DeepSeek 事件之后,你们怎么看开源模型?

Mark:那是第一次让我深刻意识到:必须坚定走自己的研究路线。DeepSeek 当时引发巨大舆论,大家都在问:“OpenAI 落后了吗?要怎么回应?” 但我们做得最正确的一件事,就是继续执行自己的研究规划。DeepSeek 的工作非常强,但主要是对我们 O 系列理念的复刻。关键是,我们必须继续创新。

Ashlee:你认为 500 人是一个最优规模吗?随着公司扩大,这个数字会增长,还是说为了同时推进若干重大想法,500 人已经是最合适的规模?

Mark:坦率说,我认为甚至可以更少。尤其在我们开始引入 AI 研究员或 AI 实习生之后,我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度,我做过一个实验:完全冻结研究部门的新增人头。如果团队想招人,就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀,并保持极高的能力标准。

Ashlee:我记得之前在一次会议上,你和 Jakub 的观点比较一致:你们认为大家过度关注“谁在项目里获得署名”这个问题。AI 起源于学术界,在学术环境中署名极其重要。但那次会议里,你似乎在强调:大家可能对这个问题有点太执着了。是这样吗?是不是因为现在 OpenAI 已进入新的阶段,在公司环境下,这件事不再那么重要?

Mark:我认为过度关注“功劳归属”是件坏事。但另一方面,我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度,但 Jakub 和我最终决定 OpenAI 必须保留署名。反对意见常常是:“你们把顶尖人才的名字摆在台面上,其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到,我们应该持续培养 AI 领域的明星研究者,也应该让真正做出贡献的人建立起自己的声望。

Ashlee:但你似乎又同时认为,研究员个人不应该过分执着于署名了?

Mark:现场确实有人表达过那种观点,但其实 Jakub 和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳,哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说:OpenAI 可能是整个行业里,最愿意给研究者公开署名的公司,没有之一。

Ashlee:你 2018 年加入时,OpenAI 还是一个研究导向、非营利的组织,创始人希望它成为 Google 的平衡力量,并以“确保 AGI 安全到来”为目标。而你来自华尔街高频交易,只是被 AI 的进展吸引过来。说实话,你并不“必须”对 AGI 的哲学问题深怀使命感。那你究竟为什么要做这件事?

Mark:我同时管理 OpenAI 的对齐团队。坦白说,未来一两年最重大的难题,就是对齐问题。在这个研究方向上,OpenAI 在过去一年做出的成果可能是整个领域里最好的。

原因之一是:在 RL 与算力增加后,我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险,因为模型最终给你的答案可能是“正确的”,但它得到答案的过程却完全偏离我们能接受的路径。

随着模型替我们执行的任务越来越复杂,理解它的思维过程将变得极其关键。

Ashlee:这和机械可解释性有关,也就是试图理解模型内部机制的问题。核心问题是:我们的理解能力能否跟得上模型复杂性的提升?还是会最终被模型甩得太远?

Mark:我们在发布 O1 时做了一个关键决策:我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”,它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预,我们仍然能“看到”模型真实的思维轨迹,并将其作为研究对齐的重要工具。

几个月前,我们与 DeepMind、Anthropic 合作发表了一篇论文,探讨未来如何通过这种方式理解模型。我确实担心未来某一天,模型给出非常有说服力的答案,但我们无法确认它是否真正与人类的价值一致。

因此有很多值得探索的方向,例如:能否设计一种博弈或环境,让模型在互相监督、共同演化的过程中,唯一稳定的均衡,就是“诚实”?我认为这里还有大量非常重要的研究要做。

 

参考链接:https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s

本文编译自 IGN US 相关内容,原作者 Max Scoville、翻译 Zoe、编辑 Kamui Ye,少数派经 IGN 中国授权转载,仅对文章格式略作调整。阅读原文 >


新年快乐,或者说是新年的前夕,又或者是…… 你阅读这些文字的任何时刻。对我而言,现在是 2025 年的末尾,还有什么比这更合适的时机来展望一下 2026 年即将推出的游戏呢?下面我们就来盘点一下 2026 年最值得期待的新游发售。

在我们正式盘点之前,先提醒一下,本文所列的并不包含全部 2026 年即将推出的游戏,因为还有不少游戏甚至尚未官宣。而且还有一件老调重弹的事情,那就是发售日期可能会有变动,毕竟就在一年前,我写了篇类似的盘点文,告诉大家《侠盗猎车手》新作将成为 2025 年最热门的游戏……如果它能在 2025 年按时发售的话那确实如此,可惜事与愿违。

所以说,我们每月发表的新游发售盘点都难以确保绝对的板上钉钉,更别提这种 11 个月以后才发售的游戏了,况且有些游戏甚至没有具体的发售日期,那变数就更大了。

一月

1 月 15 日,《集合啦!动物森友会》将焕然一新,届时将迎来更多需要偿还的房贷,因为这款备受玩家喜爱的还贷、种田以及家装模拟器即将登陆 NS2 平台。

如果你是那 5000 万在初代 Switch 上购买过《动物森友会》的玩家之一,那你听到仅需 5 美元即可升级为 NS2 版本这一消息时想必会很开心。

与此同时,如果你仍想留在初代 Switch 上玩,也可以通过 3.0 版本更新来获取大量新功能,其中包括酒店翻新、来自其它任天堂作品的游戏内物品,以及乐高推出的《动物森友会》系列套装。

虽然在「一月游戏推荐清单」中,你找不到「JRPG」这个品类,但每年这个时候,该类型游戏的粉丝们总是格外忙碌。美版《英雄传说:界之轨迹》也将在 15 号推出,这是《英雄传说》系列的第十七部作品,也是《界轨》系列的第十三部作品,是 2022 年《英雄传说 黎之轨迹 Ⅱ》的直接续作。该游戏将登陆所有 Switch、PlayStation 以及 PC 平台。

《最终幻想 7 重制版 Intergrade》会在 22 号登陆 NS2、Xbox Series 以及 PC 端 Xbox 平台,其中包含基础游戏、移植到 PS5 时获得的所有视效和优化改进以及以尤菲为主角的完整支线故事,此次新版本还将新增一种简单模式,能让队伍属性最大化,所有攻击造成 9999 点伤害,让你得以轻松通关。

《真·三国无双 起源》虽然算不上一款 JRPG,但与 JRPG 也算有些相似之处,该作也将于 22 号登陆 NS2,同时推出的还有「梦幻四英杰」扩展包,该扩展包也将登陆游戏已发售的其它平台。

26 号《HIGHGUARD》上线,这是一款全新的 PVP 竞技游戏,出自曾参与开发《泰坦陨落》和《Apex 英雄》的 Respawn 前员工。尽管能看到一些相似之处,但这款游戏显然走向了不同的发展道路,没有了大量蹬墙跑的战士和尼尔·布洛姆坎普风格的机甲,取而代之的是更浓烈的奇幻色彩。所以如果你一直梦想着能骑熊作战,那就尽情享受吧。该作可以在 PC、PS5 和 Xbox Series 平台上免费游玩。

此外,《2XKO》在 1 月 21 日将登陆 PS5 和 Xbox Series 平台,这是一款由拳头游戏推出的 2V2 格斗游戏,游戏角色均来自《英雄联盟》,自去年 10 月以来已在 PC 平台上开启了抢先体验。

最后,1 月 30 号还有一款万代南梦宫的《噬血代码 2》,该作是万代在 2019 年推出的吸血鬼题材动作 RPG《噬血代码》的续作,将登陆 PS5、Xbox Series 和 PC 平台。

二月

2 月 5 日,《勇者斗恶龙 7 Reimagined》将在 PS5、Xbox Series、两代 NS 以及 PC 平台发售。该作原版于 2001 年在美国面向 PS1 发布,15 年后又登陆 3DS 平台,如今迎来了全面的现代重制。JRPG 通常以冗长著称,而这款游戏更是出了名的量大管饱,别惊讶,光是主线任务就可能让你投入上百个小时。

《仁王 3》将在 6 号发售,这是 Team Ninja 旗下硬核类魂游戏系列的第三部作品,也是该系列的首部真正意义上的续作,因为《仁王 2》的故事其实发生在第一部之前(不过这事儿可能对游戏的核心卖点,即紧张刺激的战斗体验毫无影响)。该游戏将在 PS5 和 PC 平台推出。

2 月 11 日,由须田刚一领导的草蜢工作室(曾为我们带来《杀手 7》和《英雄不再》等经典作品)打造的最新力作《罗密欧是个绝命侠》将登陆 PS5、Xbox Series 和 PC 平台。这款动作游戏看起来延续了他们一贯以来的风格,脑洞大开,荒诞且浮夸。

我在职业生涯中曾有幸采访过许多有趣的人,而须田刚一是我最喜欢的人之一。多年前我们曾对他进行过一次采访,当时我们连珠炮似的向他抛出了一大堆奇葩问题,但他都能应对自如。总之,很高兴看到他依然在忙活着开发这类奇特又酷炫的游戏。

2 月 12 日,《人中之龙 极3 / 人中之龙3外传 Dark Ties》将登陆除 Xbox One 以外的所有平台。《人中之龙 3》最初于 2009 年登陆 PS3 平台,尽管 2019 年的重制版合集中包含了这款游戏,但其在画面和玩法上并未有重大改进。而《人中之龙 极3》则是一次全面的现代重制,因此其画面和玩法都会非常出色。《Dark Ties》则是一个全新的支线故事。

2 月 10 日,Switch 平台将推出《马力欧网球 狂热》,这乍一听像是一款有趣的休闲体育游戏,可实际上却是一种非常严重的疾病,如果不立即就医恐怕有生命危险。如果你在玩这款游戏时出现了「疯狂发热」的症状,请立即咨询马力欧医生。

2 月 13 日,我们将迎来《高能人生 2》,这是 2022 年那款优秀的第一人称银河恶魔城游戏《高能人生》的续作。纵观从一代游戏、一代 DLC《High on Knife》到如今这部续作,我必须称赞一下 Squanch Games 团队,他们只用了 Retro 工作室开发《密特罗德 究极 4》一半的时间就推出了两部半神似《密特罗德 究极》的游戏。此外,《高能人生 2》是你在当代主机上正规购入 1991 年经典 Wisdom Tree 平台跳跃游戏《圣经冒险》的唯一途径。

2 月 13 日有另一款值得关注的游戏,那就是《Reanimal》,一款来自 Tarsier Studios 的双人合作恐怖游戏,该工作室是《小小梦魇》的原开发商。这款游戏的试玩版现在可以在 Steam、PS5 和 Xbox Series 平台上体验,最终版本也将在情人节前夕登陆上述平台。

2 月 20 日,《伊苏 X 诺曼荣光》这款以北欧民间传说为背景的日式动作 RPG 最新作品将正式发售。它实际上是 2023 年发售的《伊苏 X 北境历险》的增强重制版,新增了大量技能、Boss 战和关卡,能看出开发者对其信心满满。该游戏将登陆 PS5、PC 和 NS2 平台。

2 月 24 日,《明日潮汐》将在 PS5、Xbox Series 和 PC 平台发售,游戏背景设定在一个危机四伏的后末日海洋世界,塑化危机无处不在,其它玩家在游戏中所做的选择会影响你游戏里的剧情发展。

2 月 27 日,《生化危机 安魂曲》(如果你非要数的话,它就是系列第九部正统续作)将在 Xbox Series、PS5、PC 和 NS2 平台发售。虽然我比较晚才入坑《生化危机》系列,但很喜欢《生化危机 7》,大爱《生化危机 8》,同时也喜欢那些重制游戏,不过目前这部作品我看着感觉一般,但鉴于该团队在这一系列中的出色表现,我还是愿意给个机会的。

如果你是 NS2 用户,且也想体验一下《生化危机 7》和《生化危机 8》的话,那么这两款游戏也将于 2 月 27 日登陆 NS2,可以留意一下。这两作此前在 NS 上曾推出过云端串流版本,但这是首次实现了在任天堂主机上本地游玩。

三月

3 月 5 日,《宝可梦 Pokopia》将登陆 NS2 平台,这款游戏有点像《动物森友会》,只不过玩家扮演的是一只乔装成人类的百变怪,总让人感觉哪里怪怪的。

3 月 12 日,《约翰·卡朋特的毒液突击队》将登陆 PC、Xbox Series 和 PS5,这是一款后末世合作第一人称射击游戏,由《僵尸世界大战》团队开发,并得到了这位传奇恐怖电影导演兼脾气暴躁硬核玩家的真传。对于那些希望《求生之路》系列从未被 …… 遗忘的玩家来说,这款游戏应该会让他们眼前一亮。

同一天,PC 平台将迎来《索拉斯塔 2》,这是 2021 年大获好评的战术 CRPG 的续作,对于那些玩腻了《博德之门 3》,又想在《神界》新作发售之前消磨时间的玩家而言,这款游戏应该会很对胃口。

同样在 3 月 12 日,《零 ~红蝶~ 重制版》将登陆所有新世代主机和 PC 平台,该作是 2003 年生存恐怖游戏的现代重制,玩法有点像《宝可梦随乐拍》,只不过主角要面对的是可怕的鬼魂而不是可爱的小动物。

如果你更喜欢能和骇人动物交朋友的游戏,13 号还有一款《怪物猎人 物语 3:命运双龙》会登陆上述平台,卡普空让这款热门怪物狩猎系列游戏转向了更偏传统的回合制 JRPG 玩法。

如果你更喜欢快节奏的实时战斗以及广阔开放世界的大型 RPG,那么可以留意 19 号的《红色沙漠》,该作是《黑色沙漠 Online》的单人版,将登陆 Xbox Series、PS5 和 PC 平台。

如果你只想玩点老式的打击罪犯卡通小游戏,《神探杰克鼠》或许不错,它看起来就像一款颇具《茶杯头》风格的复古射击游戏,将登陆全平台。

《Screamer》将于 3 月 26 日登陆 PS5、Xbox Series 和 PS4 平台。我之前就听说过这款游戏,一直好奇它为何迟迟未出,毕竟游戏玩法看起来已经相当不错了。直到他们在 TGA 上发布了一段预告片我才知晓了原因:这不仅仅只是一款赛车游戏,还是一部赛博朋克动漫,那些过场动画肯定花了很长的制作时间。所以,如果你一直希望能看到一部结合了《红线》和《头文字 D》的作品,而且还能参与里头的比赛,那么这款游戏就是你的菜!

四月

4 月 16 日,又一款受文学作品启发的游戏《克苏鲁:宇宙深渊》即将上线,这是一款第一人称惊悚游戏,充满了 H.P.洛夫克拉夫特作品中那些难以名状的宇宙恐怖元素,听起来应该会是一次令人愉快的冒险。该游戏将在 Xbox Series、PS5 和 PC 平台推出。

4 月 24 日,卡普空将推出全新科幻作品《识质存在》,这是一款第三人称射击游戏,还融入了一些实时黑客解谜小游戏,看起来挺不错。

同样值得一提的还有 4 月 30 日发售的《沙罗周期》,由《死亡回归》团队开发,是一款轻度 Rogue 玩法的第三人称弹幕射击游戏,由专业演员拉胡尔·寇利主演,故事背景设定在一个科幻世界,灵感源自罗伯特·W·钱伯斯写的洛夫克拉夫特式经典作品《黄衣之王》。

五月

5 月 8 日,《真人快打 2》将在影院上映,这是两部看起来非常有趣的格斗游戏改编电影中的第一部。我对第一部游戏印象深刻的一点在于,他们没有启用整个角色阵容,而是为第二部留了一些大牌角色,尤其是乔尼·凯奇,他似乎将是续作的核心人物,由一直以来的人气演员卡尔·厄本饰演。非常期待看到他的劈叉踢裆。

《007 初露锋芒》将于 5 月 27 日发售,这是一款高速追逐和各种动作场面应有尽有的游戏。尽管我努力让自己不要太过兴奋,但还是很难忍住,毕竟这可是《杀手:血钱》团队的作品,而《杀手:血钱》基本上是迄今为止最棒的詹姆斯·邦德代餐,只不过这款新作的主角真成了伊恩·弗莱明笔下的那位传奇特工。言归正传,本作将登陆所有新世代主机和 PC 平台。

《乐高蝙蝠侠:黑暗骑士的遗产》是我们近期能玩到的最接近《阿卡姆》系列的游戏,虽然它可能不像 TT Games 之前的乐高系列作品那样拥有庞大的可玩角色阵容,但看起来它在战斗方面做得更加紧凑。这款游戏将于 5 月 29 日登陆所有新世代主机和 PC 平台。

九月

Illfonic 工作室曾以《黑色星期五》、《外太空杀人小丑》和《铁血战士》等电影为基础创作了多款非对称多人恐怖游戏,如今他们将用同样的手法重现约翰·卡朋特的经典鼻祖级恐怖片《月光光心慌慌》,并且这次他们还打算加入一个单人模式。这款游戏将于 9 月 8 日登陆 Xbox Series、PS5 和 PC 平台。

《影之刃零》将于 9 月 12 日登陆 PC 和 PS5 平台,它看起来像是一款类魂或砍杀动作游戏,虽然是带有大量砍杀元素的动作 RPG,但它显然想要走出独属于自己的风格,介于二者之间。不管它到底该归于什么类型,这款游戏的关注度是毋庸置疑的。

十月

虽然接下来要说的这个并非游戏,但绝对值得一提,那就是《街头霸王》的最新电影。这部电影一看就知道它绝对精彩,自打第一批演员阵容公布以来,我就一直非常看好它。该片导演是樱井北尾,他最广为人知的作品就是与艾瑞克·安德烈合作的《艾瑞克‧安德烈秀》以及电影《恶搞之路》,考虑到《恶搞之路》里有超级多奇葩的受伤方式以及车辆报废,我觉得这部电影一定会大获成功的。该片将于 10 月 16 日上映,首映之夜我会去捧场的。

十一月

当然,2026 年,或者说整个 21 世纪 20 年代,甚至可能是有史以来最受瞩目的游戏(假设它真能按时出来的话),那当属《侠盗猎车手 6》了,该作将于 11 月 19 日登陆 Xbox Series 和 PS5 平台(基本上所有其它正在开发的游戏都避开了这个日期)。我们已经等待这款游戏太久太久了,以至于我怀疑自己有生之年恐怕真的玩不到。但总有一天我能玩到它的,而且我希望这一天就在今年!

2026 年未定日期作品

到目前为止,我们已经介绍完了所有当前已确定发售日期的游戏,但仍有很多游戏只是含糊地定在了「2026 年发售」,下文要盘点的就是这些游戏:

《太空堡垒卡拉狄加:破碎的希望》预计将于 2026 年第一季度的某个时间点推出,届时玩家可以在 PC 上与赛昂人展开策略对决。

据称,《星空》将于 2026 年登陆 PS5 平台,尽管贝塞斯达在游戏发售之后推出过几波更新,但我感觉玩家对这款游戏依然不是特别满意。但是谁说得准呢?也许待 PS5 版本推出之时,它会迎来更多的调整和新内容。

《超级食肉男孩 3D》为 Team Meat 广受喜爱的独立平台跳跃游戏扩展了全新的维度,该游戏将登陆 PS5、Xbox Series 和 PC 平台。

《Zero Parades: For Dead Spies》是《极乐迪斯科》开发商推出的最新一款风格独特且极具深度的 CRPG。它显然是《极乐迪斯科》的精神续作,但与前辈的侦探题材不同,《Zero Parades》选择聚焦于间谍的世界,或者更确切地说,是那种令人精神紧绷、充满尔虞我诈的间谍活动,而非好莱坞式的性感谍战大片。该游戏将登陆 PC 和 PS5 平台。

如果你想玩到一款发生在手稿之内的游戏,但又不想读太多书,那可以考虑一下《时之书:无尽终章》,这是一款探索驱动的动作冒险横版游戏,或者更准确地说,是翻页游戏。该作也将登陆 PS5 和 PC 平台。

《面面俱盗(Thick as Thieves)》是一款由 Warren Spector 打造的 PvPvE 潜行游戏,他曾是《杀出重围》的主创。这款游戏将于 2026 年登陆 PS5、Xbox Series 和 PC 平台。

如果你因为十多年没有《潜龙谍影》新游戏可玩而感到失落,或许可以关注一下《巫堂:双重之心》,这款游戏看起来融合了潜行、动作、战略军事元素以及夸张的科幻元素,同样将在 PS5、Xbox Series 和 PC 平台推出。

如果你对续作更感兴趣,别担心,多得很:想体验权力之旅可以去《海岛大亨 7》里扮演专制独裁者;想感受极致的无力感可以试试《致命躯壳 2》,你会在这游戏里被揍得灵魂出窍。这两款游戏都将登陆各大主机和 PC 平台。此外,你还可以在 NS2 和 PC 上畅玩《挺进地牢 2》,体验极致的弹幕射击地下城冒险。

《鬼武者 剑之道》标志着 PS2 时代的卡普空超自然武士系列正式回归,该游戏将登陆 Xbox Series、PS5 和 PC 平台。

如果你想穿越时空与前男友们一决高下,那么绝对不要错过《Scott Pilgrim EX》,这是大家期待已久的续作,根据布莱恩·李·奥马利深受喜爱的加拿大漫画改编而成,基本登陆全平台。

说到加拿大人,漫威最受欢迎的加拿大佬金刚狼终于要在秋季登陆 PS5 了,Insomniac 工作室这款备受期待的《金刚狼》游戏显然不会回避 M 级评级,但希望它能像金刚狼本人一样,既有血性又不失智慧。

此外还有两款漫威游戏也在开发中,预计会在 2026 年的某个时候推出。一款是 Skydance 的《漫威 1943:九头蛇崛起》,预计登陆 PS5、Xbox Series 和 PC 平台,讲述美国队长和黑豹的祖父(也是黑豹)在二战时期的故事。另一款是即将登陆 PS5 和 PC 平台的《漫威斗魂》,该作是由 Arc System Works 开发的一款格斗游戏,看起来很可能是《漫威 VS 卡普空》的正统精神续作(只不过没有卡普空)。

《皇牌空战 8 希孚之翼》是这一长寿飞行模拟游戏系列的最新力作,它想通过一些发生在飞机之外的场景来吸引我的关注,这些场景逼真得令人称奇,以至于我都忘了自己其实并不喜欢驾驶飞机的那部分。别误会,我觉得喷气式飞机是人类有史以来最酷的发明,这款游戏的卖相也很不错,但电子游戏里的空战狗斗就是横竖勾不起我的兴趣。我能不能只玩在航母上和朋友们一起吃汉堡、喝啤酒的那些环节?不管怎样,这款游戏将在 PS5、Xbox Series 和 PC 平台推出。

Remedy 工作室所打造的大卫·林奇式交互宇宙在《控制 Resonant》中得到了进一步扩展,该作是 2019 年 IGN 年度游戏《控制》的续作,还与《心灵杀手 2》和《FBC:Firebreak》有所关联。即便你没搞清楚其中的来龙去脉,应该还是能收获一段不错的体验。

我曾一度好奇为什么没人想做第一人称的类魂游戏,直到《Decrepit》的预告片给我来了当头一棒:因为这真的是太吓人了。赶紧把这玩意儿端下去吧!吓死人了!什么鬼东西!我不想玩!目前这款游戏仅登陆 PC 平台,所以如果你是主机玩家,那暂时还不会受到它的惊吓。看到那只蜘蛛了吗?滚一边去!

虽然《Ontos》看起来没有那么吓人,但它出自一家知名恐怖游戏工作室之手,该工作室曾制作过《失忆症》和《活体脑细胞》。这款游戏的背景设定在月球上的一家酒店,那里发生了许多离奇的事情,对于一家开在月球上的酒店而言也是意料之中了。

如果你想玩一款设定在太空里的温馨可爱双人合作冒险游戏,那么即将登陆 NS2 的《Oribitals》绝对值得你一试。虽然市面上已经有不少动漫画风的游戏,但这款游戏特别像日本泡沫经济时期的 OVA,不仅有着独特的美学风格,还带有一种 VHS 录影带特有的颗粒感和音质效果。虽然我的这番话可能显得有些矫揉造作,但是对于一个曾经痴迷于在 Manga Video 上看那些配音糟糕的日漫的「老二次元」来说,我非常赞赏他们这种对细节的关注。

今年即将推出的另一款合作冒险游戏是《Out of Words》,这是一款完全采用定格动画手法制作的游戏,里头有纯手工制作的玩偶。我有个理论,Geoff Keighley 超级喜欢玩偶,如果你的游戏里有玩偶,那么他就有更大的概率会在自己的节目中重点介绍。《Out of Words》是今年夏日游戏节上两款以玩偶为主角的游戏之一(另一款是《Felt That: Boxing》),而且它还在猪小姐登台表演的间隙再度出现在了 TGA 上。这款游戏将登陆新世代主机和 PC 平台。

《星球大战:银河赛车手》将于 2026 年登陆 PS5、Xbox Series 和 PC 平台,我表示非常期待。大约十年前,当他们宣布 EA 获得《星球大战》的授权时,我就寻思:「要不让《火爆狂飙》和《极品飞车》的团队来做一款飞梭赛车游戏吧?」虽然这一寻思十年过去了,但我们也快圆梦了,而且结果比想象中还要理想:一家由前 Criterion 工作室成员创立的工作室正在制作这样一款游戏,而且 EA 与此毫无关系!此外,这并非单纯的竞速游戏,里头还有许多其它类型的飞行摩托和道具,这让我梦回 2000 年那款被严重低估的赛车游戏《星球大战:毁灭》。

如果你不喜欢愚蠢的玩笑,那可真是个坏消息,因为《Stupid Never Dies》。这是一款即将登陆 PC 和 PS5 平台的地牢探索动作游戏,颇有《电锯甜心》的风格,不过它实际上是由小林裕幸创立的新工作室开发的,这位曾参与过《鬼泣》、《生化危机》和《龙之信条》等游戏的制作。

《坦克狂途》是一款驾驶酷炫坦克四处射击,同时探索并寻找新东西来把你的坦克改造得更加酷炫的游戏,这倒是让我想起了现代版的《超惑星战记》。你们还记得这游戏吗?不记得?反正它大概就是《坦克狂途》这个样子,只不过更老一些。这款游戏将登陆 PS5 和 PC 平台。

待定游戏

很多游戏都只是在发售日期那一栏模糊地写一个「待定」,也就是说它们可能在任何时间发售。虽然 2026 年似乎是大多数游戏的稳妥选择,但有些游戏可能会推得更晚,有些则可能永远都出不来。

如果你曾期望有人能做一款「星球大战版《幽浮》…… 那确实被你盼到了!《星球大战 零号连队》是由前 Firaxis 工作室的开发者们创立的工作室开发的,看起来是一款回合制战术游戏,会带来不错的体验。该作将登陆 Xbox、PS5 和 PC 平台。

《余烬重生之都》是一款开放世界大型多人在线战术射击游戏,看起来几乎应有尽有,预计会在某个时间点登陆 PC 平台。不过从这款游戏的实机演示来看,如果它要一直推到 2027 年才推出,我也不会感到惊讶的。

《堕落之主 2》是 2023 年类魂游戏《堕落之主》的续作,而《堕落之主》本身则是对一款同名游戏的重启之作,所以严格来说这是《堕落之主》系列的第三部作品,但谁还在意这些细节呢?这款游戏将在除任天堂外的新世代主机和 PC 平台推出。

我们目前只看到了《公路英雄》的一段预告片,片中一个男人开着他的 18 轮大卡车径直冲向了龙卷风,但这似乎就足以让玩家们兴奋不已了。这款游戏来自 Saber 工作室,他们曾推出过《MudRunner》、《SnowRunner》以及最近的《Road Craft》,作为一个非常休闲的卡车游戏爱好者,我很想知道他们对长途货运模拟游戏会有怎样的独特诠释。这款游戏将在 PC、Xbox Series 和 PS5 平台推出。

《战锤 40K:战争黎明 4》是这个深受玩家喜爱的即时战略游戏系列近十年来的首部新作,虽然它并非由制作前三部作品的 Relic 工作室开发,但其开发团队也曾打造过另一款广受好评的即时战略游戏《钢铁收割》。该作将登陆 PC 平台。

《朋友收集》系列可能不像《动物森友会》那样家喻户晓,但 2014 年推出的这款以 Mii 为核心的社交游戏是 3DS 平台上销量排行第十一位的游戏,所以任天堂花了这么长时间才推出续作着实令人感到意外。《朋友收集 梦想生活》将在 Switch 平台推出。

有人把《上古卷轴 6》列入了即将发售的游戏名单,虽然这款游戏或许会在有生之年问世,但它倘若真在 2026 年推出,我一定会惊掉下巴的。不过,如果你期待一款来自 Xbox 游戏工作室的大型奇幻 RPG,那么赌一下《神鬼寓言》在秋季发售似乎赢面会更大一些。这款游戏由曾经打造《极限竞速:地平线》的 Playground Games 工作室开发,我很期待看看他们会如何处理那些魔法元素。

说到《极限竞速:地平线》,第六部预计会在 2026 年推出,尽管有传言称它可能会在上半年发布,但目前官方只确认了这一次的背景设定在日本。《神鬼寓言》和《极限竞速:地平线》都将登陆 Xbox Series 和 PC 平台,如果按照 Xbox 近期的发售策略来看,PS5 版可能也会在晚些时候推出。

2026 年是《战争机器》系列诞生 20 周年,为了纪念这一时刻,我们有望迎来全新作品《战争机器:事变日》。这是一部前传作品,设定在第一部游戏的 14 年前,将讲述马可斯·菲尼克斯在事变日期间的经历,也就是在系列其它游戏中你要一直射杀和用链锯肢解的那些大怪物首次从地底里涌现而出的日子。这款游戏必然会登陆 Xbox 和 PC 平台,将来哪天或许还会登陆 PS5 平台。

另一个迎来重大周年纪念日的著名系列是《古墓丽影》,它即将 30 周岁。为表庆祝,我们即将迎来《古墓丽影:亚特兰蒂斯遗迹》,这是对初代《古墓丽影》的全面重制,采用虚幻 5 引擎打造。这游戏看起来确实美轮美奂,但我更好奇它的玩法是否与原作相似。该作将登陆 Xbox Series、PS5 和 PC 平台。

如果你一直希望《瘟疫传说》系列能出一部时代遥远的前传,把背景从中世纪欧洲换到古希腊时期,那么你圆梦了!因为《共鸣:瘟疫传说传承》正是这么一款游戏,它将登陆 Xbox Series、PS5 和 PC 平台。

《冒险家艾略特的千年物语》是《勇气默示录》和《歧路旅人》团队的最新力作,希望你不用真得等上一千年才能玩到。本作将登陆所有新世代主机和 PC 平台。

游戏卡顿通常而言是件坏事,但有时候这却是一种特色,而非缺陷。比如《漫漫长夜 2:BLACKFROST》和《Frostrail》这两款生存游戏,它们都设定在寒冷荒凉的环境中,不过至少在《Frostrail》里你还能驾驶火车。这两款游戏都将登陆 PC 平台。此外还有《Ikuma: The Frozen Compass》,讲述一段以北极为背景的成长故事,看起来寒冷但又不那么荒凉,它也会登陆 PC、Xbox Series 和 PS5 平台。

如果你想尝试在融化的冰层(也就是水)中生存,那么《深海迷航 2》很快就会在 PC 和 Xbox 平台上开启抢先体验,不过这个「很快」指的是在接下来一年中的某个时间。

如果你更喜欢在海面上冒险,那么《遗忘之海》这款色彩艳丽的海洋世界 RPG 可以满足你,该作预计将在某个时候登陆 PC 和 PS5 平台。如果你喜欢搭火车而非航海,可以看看《电车炫客》,它看着有点像《Jet Grind Radio》,只不过你操控的是一节列车。完全没毛病!这款游戏也将登陆 PC、Xbox Series 和 PS5 平台。

《The Duskbloods》即将在某个时间推出,这是 FromSoftware 为 NS2 量身打造的 PvE 多人游戏,我知道,当看到这款游戏和《血源诅咒》如此相似,最后却发现它并非一款动作 RPG 时,失望的肯定不止我一个。不过,尽管这款游戏看起来神神秘秘的,但我的认知告诉我,要相信宫崎英高和他的团队,他们知道自己在做什么。

如果你曾希望《火线迈阿密》里头那些是正儿八经的兽人,而非戴着动物面具的人,那么《九山:狼之城》绝对能满足你的愿望,因为它正符合我刚刚的描述。这款游戏将登陆 PC、Switch、Xbox Series 以及两代 PlayStation 平台。

《波斯王子:时之沙 重制版》已经开发了很长时间,但据传它会在今年的某个时间推出。希望它能够不负众望吧。

另一款我们已经听闻许久的育碧重制游戏是《刺客信条 4:黑旗》,虽然官方尚未正式公布,但如果真要推出,多半也会登陆本世代主机和 PC 平台。

《不朽遗志》是来自《幽灵行者》工作室的另一款第一人称动作类魂游戏,这似乎是一个相当新颖的想法,希望它不会像《Decrepit》那样到处爬满蜘蛛。这款游戏将登陆 Xbox Series、PS5 和 PC 平台。

原定于 2025 年秋季发售的《黑相集:指令 8020》是 Supermassive 工作室的最新电影式互动冒险游戏,将登陆 Xbox Series、PS5 和 PC 平台。

《沙丘:觉醒》在 PC 平台上已经运营了一段时间,不久的未来也会推出 Xbox Series 和 PS5 版本。

最后来说个压轴的,2026 年是《宝可梦》系列推出 30 周年。除了《宝可梦 Pokopia》,我们还将迎来一款策略游戏《Pokemon Champions》。我有预感这不是今年唯二的宝可梦游戏,但目前我们也只知道这么多。

好了,盘点完毕!以上就是我们目前已知的所有 2026 年的重磅游戏。其中某些游戏可能压根儿就不会出现,但肯定还有很多我没提到的游戏会横空出世。

    两年前,我在投资板块分享了一篇投资相关的文章:《我的投资学习路径 roadmap 》链接

    当时分享的原因是因为建了一个 V 站投资群,群友们需要一篇这样的投资入门指引。目前,这个群已经两年多,最高 500 人,经历过两次封群后目前有 300 人,每天很活跃,欢迎志同道合的朋友加入。

    昨天我在一片 V 站的文章评论中分享了这篇文章,然后新增了好多收藏,也有一些人加我微信想看更新版。

    目前,第一版的文章共收获近四千次点击、66 人收藏、3 人感谢,说明确实帮助了一些人。所以,我决定再更新一版。

    这两年发生了很多时,A 股完成了从熊市到牛市的转换。我自己也学习了很多,

    • 开发了投资工具网站(当时还在 V 站分享 web 前端学习路径)
    • 开发了量化回测平台
    • 开发了自动化交易工具
    • 每年包括投资观察在内的笔记字数达到 50 万字
    • 在股市获得不错的投资收益
    • 接受了三次媒体关于投资的采访
    • 带着一群人在股市赚到钱(家族地位和社会地位提升,身边人更尊重我了)

    很难在每一天都感觉到自己的进步,但每过一段时间回头看之前的自己,总觉得当时是菜鸟。


    • 版本信息:
    • 作者: 刘不思 (程序员/CFA/FRM/健身教练)
    • 微信:bigporker
    • 2026-01-04: V0.2


    0. 收益

    两年前的那篇文章中列了当时的投资收益,今天更新下(同一个 App 截图,国金证券,版面略有差异可能是 App 改版)。

    两年前

    截止昨天

    1. 我的投资思路

    • 偏好低风险投资, 以本金安全为优先目标。我宁可少赚,也不想亏,亏钱让我非常难受。
    • 喜欢套利,因为套利的风险较低、收益相对确定。
    • 未虑胜先虑败,尝试问自己这笔投资的最大亏损是多少。

    2. 一些建议

    • 保持谦逊
      • 不要把股票市场当做提款机,中国股市 7 亏 2 平 1 赚
    • 保持理性
      • 投资是一件平和的事情,当我的股票让我担心,我就降低仓位,降到我不再担心
      • 闲钱投资,如果我用原本交房租的钱去投资,那我很难保持理性
      • 远离情绪化的投资者,不要被传染
      • 每一笔投资前,考虑胜率和赔率,考虑何时退出
    • 保持耐心
      • 大部分时候都是垃圾时间,不是好的买入时机
    • 保持阅读和思考
      • 投资很简单,5 毛钱买价值 1 块钱的股票,等涨到 1 块钱时卖出即可;投资也很难,如何找到这样的股票?保持阅读和思考,投资是知识变现
      • 重数据、重逻辑、轻结论
    • 保持对市场的关注
      • 2007 年,大部分的股票都不具有投资价值,价格被炒得太高
      • 2008 年,大部分的股票都具有投资价值,市场恐慌性的卖出,价格很低
      • 保持对市场的关注,这也是我记录投资观察的原因
    • 合理的收益目标
      • 巴菲特的长期年化收益率是 20%
      • 长期来看,GDP 的增速是所有投资者的平均收益率
      • 购买年化收益率超过 8% 的产品,需要做好收不回本金的准备
    • 周期
      • 市场是一个钟摆,从一个高点经过低点摆动到另一个高点,接着再反向,如此循环
    • 区分宏观和微观
      • 宏观上正确的结论在微观上未必正确,再好的学校也有差生、再差的学校也有好生
      • 宏观上经济变差时,收入会降低。但具体到微观的个体时,总有人收入在增加
      • 宏观上 A 股不是一个好市场,但具体到微观时,总有一些能赚钱的投资机会
    • 逆向投资
      • 投资是逆人性的
      • 别人贪婪时恐惧,别人恐惧时贪婪
    • 应对比预测更重要
      • 知道市场钟摆所在的位置,制定不同位置的应对方案
    • 投资是为了什么?
      • 为了赚钱:看似废话,但很多人的投资更像是娱乐消费,而不是赚钱
      • 为了更好的生活:当持仓让我坐立不安,我就降低仓位
    • 注重正向反馈
      • 任何一项长期的事情刚开始时,正向反馈非常重要,这是坚持下来的动力
      • 不亏钱,是投资最好的正向反馈
      • 所以,我建议新手先从低风险套利开始投资之旅

    3. 一些认知

    这一部分总结自网友"打新交朋友"的分享

    • 投资并不是一个可以教的学科,更多是引导
      • 通过引导,新人知道该学习什么、该干什么、该往哪个方向努力
      • 每个人的认知差异很大,性格差异也很大,投资一定是个性化的
    • 投资,看似门槛极低,实则门槛极高
      • 门槛低:谁都能开户炒股买基金,无数人因为门槛极低进来
      • 门槛高:能赚钱的只有少数人,能长期赚钱的更是凤毛麟角
      • 投资需要较强的学习能力,这与行业背景、学历关系不大(但宏观来讲,学历高的人学习能力更强)
    • 投资的特点
      • 并非一分耕耘一分收获,并非努力就一定有结果,有时候越努力越糟糕
      • 结果好不代表方法对,可能只是运气,方法错误的好结果只能让你在长期输掉更多
      • 结果差不代表方法错,但差的结果可能让你放弃了正确的方法
    • 投资生态是一个充满不确定性的复杂体系,我们要做的是在其中找到胜率和赔率的共振
    • 投资的第一性原理:确定性
      • 杨继东 喜马拉雅 《杨继东的投资之道》:确定性的三大来源:价值、周期、规则
      • 霍华德马克思《投资最重要的事》《周期》:投资领域为数不多肯定正确的思想,迷茫时值得依赖的思想
      • 《不亏》《寻找鱼多的池塘》
    • 资金该如何分配
      • 资产配置:《不落俗套的成功》《机构投资者的创新之路》《投资要义》(微光破晓刘诚)
      • 资产分两种
        • 债性资产(固收类):怕通胀
        • 股性资产(权益类):怕通缩
        • 简单说,就是存银行理财还是买股票的问题
    • 投资只有两种风险
      • 本金损失的风险:买股票,亏损
      • 机会损失的风险:买理财,不会亏损,但会错过股市大涨
      • 投资是两者之间平衡的游戏

    4. 知识储备

    普通投资者很难像专业投资者那样,花费数年完整时间从本科硕士打基础、再从事行业研究员积攒经验。但投资所需的知识又必不可少的,如何解决这个矛盾?

    我的建议是采用软件行业的 MVP 方法,即最小可行产品

    • 首先,快速的浏览学习投资所需的各方面知识,进入市场,把投资这件事推进起来
    • 然后,边干边学,哪里欠缺补哪里

    投资所需的知识

    • 启蒙知识:投资思维
    • 专业知识:经济、金融、财务
    • 行业知识

    4.1 启蒙知识

    • 回答关于投资的基本问题
      • Why:为什么需要投资
      • What:投资能带来什么
      • How:如何学习投资
    • 推荐书籍
      • 《穷爸爸富爸爸》
      • 《小狗钱钱》
      • 二选一即可

    4.2 经济

    • 了解财政政策、货币政策与股票市场的关系,能看懂财经新闻
      • 央行下调利率为什么对 A 股是正面影响
      • 美联储加息为什么对 A 股是负面影响
      • 人民币升值贬值的进出口的影响
    • 推荐书籍
      • 《微观经济学》、《宏观经济学》
        • 很多作者写过,大学商学院的基础课程
      • 《经济学的思维方式》
        • 如果觉得上面两本偏枯燥,试试这本。很厚的上下两册,但通俗易懂,阅读体验舒适

    4.3 金融

    • 基本概念
      • 货币的时间价值
      • 收益率的计算
      • 一价定律
      • 无套利定价理论
    • 推荐书籍
      • 《金融市场基础知识》
        • 中国证券业协会编著,证券从业资格考试的指定教材。介绍中国金融市场和典型标的,挑重点看即可
      • 《投资学》
        • 博迪著,全球很多高校的教材,对整个金融市场及相关工具有框架性的认识

    4.4 财务

    • 目标是能看懂上市公司财报
      • 基本的财务术语,例如资产、负债、收入、利润、折旧摊销、应收账款
      • 三大财务报表
    • 推荐书籍
      • 《一本书读懂财报》肖星
      • 《初级会计实务》

    4.5 行业知识

    • 例如:投资游戏行业的股票,需要了解国家的版号政策、各游戏公司的现有产品的运营数据、在研产品的进展
    • 例如:投资生猪养殖行业的股票,需要了解各家公司的养殖模式、存栏量、能繁母猪的数量、每头利润等指标
    • 学习资料
      • 行业研究报告、行业新闻
      • 软件:慧博投资分析(研究报告)

    5. 书单

    • 投资是认知变现,读书是提升认知的最简单的方式

    好书很多,这里列一部分。其实,确实没有遇到一本非常适合投资新人的书,学习曲线低、既有理论又可快速操作实践的新人教程确实没找到。

    我想自己写一本,但进展很慢,如果你看到好的,欢迎推荐给我。

    5.1 术

    • 可转债
      • 《可转债投资黄金宝典》新手入门
      • 《攻守》对可转债规则的细节讲解非常透彻,适合有可转债知识储备
    • 《低风险投资之路》徐大为
      • 内容有些陈旧,比如分级基金已经退出市场,但思路不变
    • 《低风险套利实战》明总
      • 最佩服的是明总的研究劲头,不是每次研究都能发现机会,但明总依然不遗余力的深入研究
    • 《解读基金》季凯帆:我读过的关于基金的最好的一本

    5.2 道

    • 《聪明的投资者》注疏版:格雷厄姆,最后一版写于 1974 年,基本思想经久不衰
    • 《安全边际》塞斯·卡拉曼,比肩《聪明的投资者》
    • 《巴菲特致股东的信:股份公司教程》
    • 《施洛斯访谈资料集》
      • 淘宝有售。这是我看过遍数最多的投资书,基本都是访谈或者演讲稿
      • 我觉得施洛斯的投资方法更适合散户,这本书比肩《巴菲特致股东的信》
    • 《投资中最重要的事》
      • 霍华德·马克斯,这个人很厉害,橡树资本的老板,定期会写金融市场的长文评论
    • 《穷查理宝典》
      • 关于查理芒格的智慧
    • 《思考,快与慢》
      • 关于投资心理
    • 塔勒布关于不确定性风险的系列阐述
      • 《非对称风险》
      • 《黑天鹅》
      • 《随机漫步的傻瓜》
    • 《乌合之众》古斯塔夫勒
      • 让你能够理解投资市场里很多群体非理性的现象,理解人类世界的疯狂的合理性,你虽注定盲从,但还留有一点清醒
    • 《非凡的成功》大卫·史文森
      • 主要讲资产配置、投资组合
    • 《约翰·邓普顿爵士的金砖》
      • 列举了十七条投资原则,这些原则不仅适用于投资,也适用生活
      • 更像是一位充满智慧的老者给年轻人的忠告
    • 《上帝掷骰子》
      • 这是本量子物理科普入门读物,投资世界像极了量子世界,这世界可能以概率存在
      • 懂了这个道理,至少不会出现有的人苦苦研究技术指标,想要找到圣杯这样不切实际的错误方向,也会很容易辨别那些炒股软件的营销以及很多网络教炒股方法是拙劣手段

    6. 工具

    6.1 信息来源

    • 上交所、深交所官网
    • 论坛
      • 雪球:内容与客户最广,因此质量层次不齐
      • 集思录:低风险投资论坛
    • 个人、机构的公众号
    • 各种数据网站
      • 有个人的,有机构的
      • 因为是程序员,所以我自己开发了一个数据网站 InvestBench ,采集、分析、展示我关注的投资数据

    6.2 软件

    • Choice 数据(推荐)
      • 东方财富的官方软件
      • 手机版免费,东财证券账户资金达到 30w 送电脑版的权限
    • 同花顺
      • 免费
    • iFind
      • 付费,可以查看各种宏观、商品的数据


    如果坚持把这篇又长废话又多的文章看完,并且认可其中大部分的观点,那么欢迎你加入我们的投资群( VX:bigporker )。

    • 交流投资思路为主
    • 无营销无广告不荐股
    • 重数据重逻辑轻结论

    性能提升60%,英特尔Ultra3这次带来了巨大提升

    0%
    icon展开列表
    性能提升60%,英特尔Ultra3这次带来了巨大提升
    今天
    img
    继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
    今天
    img
    Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
    今天
    img
    端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
    今天
    img
    仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
    今天
    img
    AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
    今天
    img
    用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
    今天
    img
    京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
    今天
    img
    合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
    今天
    img
    500万次围观,1X把「世界模型」真正用在了机器人NEO身上
    今天
    img
    跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
    今天
    img
    百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
    今天
    img
    相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
    01月13日
    img
    视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
    01月13日
    img
    无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
    01月13日
    img
    不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
    01月13日
    img
    OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
    01月13日
    img
    华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
    01月13日
    img
    大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
    01月13日
    img
    刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
    01月13日
    img

    性能提升60%,英特尔Ultra3这次带来了巨大提升

    上周,英特尔在 CES 2026 上正式发布了代号为 Panther Lake 的 Core Ultra Series 3 处理器,成为了本次展会的绝对主角。它终于让 PC 芯片摆脱了多年挤牙膏的困境,在 CPU、GPU 和 NPU 架构上均带来了显著的「代际」升级。

    这是首款基于英特尔自家 18A 工艺(等效 1.8 纳米级别)大规模量产的消费级芯片,桌面端和移动端版本同期推出。对英特尔来说,新制程与新芯片具有重大意义,标志着该公司重新引领芯片性能与方向的开始。

    CES 之后,英特尔对下一代酷睿 Ultra 平台作了完整的技术概述。

    在新一代 Panther Lake 产品上,能效核 Darkmont 与性能核 Cougar Cove,GPU(升级版 Xe3)都是新架构,引入了第五代 NPU 用于 AI 加速,缓存、图像处理单元都是新的,芯片整体采用了基于 chiplet 的封装,使用 Foveros-S 堆叠技术。

    具体来说,每颗 Panther Lake 主要由三种小芯片组成:基于 Intel 18A 的计算芯片、基于 Intel 3 或台积电 N3E 工艺的图形芯片,以及基于台积电 N6E 的平台控制器芯片。每个配置都采用了 Foveros-S 封装,安装在同一个基板上,CPU、GPU、I/O 芯片会被集成到一个紧凑的 SoC 布局中。

    英特尔表示,Panther Lake 会具备 Lunar Lake 的能效与 Arrow Lake 的性能,CPU 最多拥有 16 个核心,性能相比上代提升 60%(比之前宣称的 50% 又有提升),低功率情况下,单核性能较上一代提升 40%。

    在 CPU 上,Panther Lake 集成了三种类型的核心,Cougar Cove P 核心在 Lion Cove 的基础上进行了改进,增加了 TLB 的容量,配备了更精确的多级分支预测器。每个 P 核心包含 3MB 的 L2 缓存和 256K 的 L1 缓存。Darkmont E 是上一代 Skymont 的升级版,支持 9 路解码,更大的乱序执行窗口和 26 个调度端口。

    Panther Lake 还新增了一个四核低功耗集群,它基于 Darkmont 架构,直接位于计算单元上,用于处理后台或轻量级负载。

    英特尔表示,重新设计的内存子系统支持 DDR5-7200 与 LPDDR5X-9600,相比前几代产品带宽和容量更高,计算单元可在核心集群上共享 18MB 的 L3 缓存,并连接到 8MB 的内存端缓存,从而减少 DRAM 流量和延迟。

    GPU 方面,新一代芯片搭载了全新的 Xe3 架构核显,拥有最多 12 个 Xe 核心,官方宣称游戏性能相比上一代(Lunar Lake)提升高达 77%,同功耗水平性能提升 50%,其性能甚至超越了部分独立显卡(如部分 RTX 4050 移动版)。当然,这一代核显的性能相较 AMD 的同档产品也有巨大的优势。

    可见在魔兽世界、群星等游戏上,以后我们基本可以用集显玩了。我们甚至可以展望 Ultra 3 发布会,会有搭载集显的全能笔记本出现。

    12 核心的 Xe3 版本使用台积电 N3E 工艺打造,提升了 L1、L2 缓存容量,改进了各向异性过滤和模板渲染速率,并配备了增强型光线追踪单元和动态光线管理功能。

    Panther Lake 还首次搭载了 XeSS 3 多帧生成技术,可以通过生成多个插帧的方法实现更加流畅的游戏体验。英特尔计划在其图形软件中增加帧生成覆盖控制功能,从而让用户可以强制指定特定的帧生成模式。

    在 AI 计算方面,Panther Lake 采用了更加均衡的 XPU 设计,可实现更高水平的 AI 计算加速,总平台算力超过了 180TOPS。其中 NPU 算力提升至 50 TOPS,支持 FP8、INT8 等量化格式,MAC 吞吐量翻倍,功耗降低 40% 以上。

    利用新的线程管理器,Panther Lake 能够适应不断变化的工作负载,在游戏时提升约 10% 的帧率。通过优化 Windows 电源模式,新的芯片在相同的功耗限制下可以把性能提升大约 20%。

    Panther Lake CPU 预计将提供八核心 + 两个十六核心的版本,命名为英特尔酷睿 Ultra 处理器第三代(3xx)。另外在连接方面,这一代芯片支持最多 20 条 PCIe 通道,集成雷电 4;无线连接方面则支持 Wi-Fi 7 Revison 2 和蓝牙 6.0Core。

    除了个人电脑领域之外,Panther Lake 的应用范围还扩展到了包括机器人在内的边缘应用领域。英特尔提供了 AI 软件套件与参考板卡,能够帮助复杂 AI 应用的客户快速上手,利用新一代 AI 芯片实现控制和 AI 感知,并快速开发机器人。

    英特尔表示,得益于 18A 工艺,Panther Lake 芯片的能效比进一步优化,官方宣称部分机型续航可达 27 小时。再加上性能的提升,新一代芯片在轻薄笔记本和游戏本上都会带来更好的体验。

    预计搭载 Panther Lake 的笔记本电脑在今年 1 月就会大批量上市。

    英特尔还预告了 30W 功率掌机版本的 Panther Lake 的信息,不过更多信息有待公布。

    随着 Ultra 第三代产品的推出,AI PC 距离实用化更近了一步。

    • Design Data Intensive Application 2nd

    高屋建瓴,系统地介绍了当前主流技术及其背后的原理,点到为止。阅读后,能获得对技术全景的宏观了解,而对具体某项技术也能知其大概。类似的书籍还有<<凤凰架构>>。

    • Kubernetes in Action 2nd

    图文并茂, 浅显易懂, 当初就是靠这本书入门了 K8S, 但是里面有很多内容都过时了. 第一版本是 2017 年写的, 我一直在期待更新版本, 作者跳票了好多次了, 从 2020 年开始就在更新, 但出版日期一再延后, 希望这次不会跳票.


    助理安全研究员(漏洞挖掘与利用)(北京)

    薪资:17-19k,15薪,具体可进一步沟通

    投递方式:campus@360.cn



    工作职责

    1、深入研究软件、设备、系统、网络协议等某领域或多领域的安全漏洞,利用逆向工程、模糊测试、静态/动态代码分析等技术,主动发现并验证新的安全漏洞;

    2、探索应用大语言模型(LLM)技术于Web与二进制领域的复杂漏洞挖掘,结合专业知识,设计构建相关自动化工具/流程;

    3、研究前沿攻防技术,跟踪国内外安全动态与漏洞披露信息,复现漏洞,研究攻击手法和防御技术,持续提升公司的安全研究能力;

    4、参与相关项目或课题,推动漏洞研究能力的价值转化。

    任职资格

    1、计算机科学、信息安全或相关领域本科及以上学历;

    2、对Web和二进制安全漏洞有一定的认知,具备一定的逆向分析能力和研究能力,熟练使用常见工具,如:IDA、WinDbg、GDB等;

    3、熟练掌握C/C++/Python等至少一种语言,熟悉X86或ARM汇编指令,有扎实的编程基础;

    4、对漏洞挖掘与利用感兴趣,有热情和自我驱动力,有一定的抗压能力和较强的团队协作精神。

    以上职位满足以下至少一项条件者优先录用:

    1、参加过天府杯、Pwn2Own等赛事,并成功攻破目标,作为CTF主力选手取得过优秀的成绩。

    2、在有影响力的业界会议(学术/工业)上发表论文;

    3、有独立挖掘漏洞的经验,获得过主流厂商的CVE编号;

    4、通过使用/定制/自研工具发现有效漏洞;



    安全研究员(Windows方向)(北京)

    薪资:17-19k,15薪,具体可进一步沟通

    投递方式:campus@360.cn



    工作职责

    1持续跟踪并深入分析最新的Windows平台漏洞,研究其根本原理、高级利用技术及有效的缓解措施。

    2研究和复现野外流行的攻击手法、APT攻击中使用的先进技术,特别是针对杀毒软件、EDR等安全产品的绕过技术(如白利用、无文件攻击、内存驻留、EDR盲点等)。

    3基于研究成果,设计和开发创新的威胁检测模型和主动防御方案,并将其工程化,落地到实际的安全产品中,提升产品的核心检测与防护能力。

    任职资格

    1计算机科学、信息安全、网络工程或相关专业本科及以上学历。

    2精通C/C++编程,熟悉Python等脚本语言,具备扎实的Windows平台开发能力(如Win32 API, Native API)。

    3熟练掌握x86/x64汇编语言,能够熟练使用IDA Pro, WinDbg, x64dbg等工具进行静态分析和动态调试。

    4深入理解Windows操作系统内核机制,包括内存管理、进程/线程调度、对象管理、文件系统、驱动模型等。

    5对主流的漏洞利用技术(如ROP, JOP, 堆利用等)及相应的防御和绕过技术(如ASLR, DEP, CFG bypass)有深入的理解。

    6对安全研究抱有浓厚兴趣和热情,具备强烈的自我驱动力、好奇心和优秀的学习能力,能够独立解决复杂技术问题。
    加分项(满足以下一项或多项者优先):

    7有独立发现并分析过漏洞(有CVE编号者优先)的经验。

    8有Windows内核驱动开发或内核安全攻防经验者优先。

    9有反病毒、反外挂、EDR、HIPS等安全产品核心研发经验者优先。

    10在知名安全会议或在安全社区、个人博客上发表过高质量技术文章者优先。

    11在CTF竞赛中取得过优异成绩者优先。

    初衷:
    不想把私密图片上传到第三方服务器,但又需要压缩图片。

    实现:

    • 使用 Canvas API 在浏览器本地处理图片
    • 支持质量调整和格式转换( JPEG/PNG/WebP )
    • React 19 + Vite 构建,部署在 ESA Pages
    • 整个应用只有 70 KB (gzipped)

    链接:

    想请教 V 友:

    1. UI/UX 有什么可以改进的地方?
    2. 功能上还缺什么?(我在考虑加批量压缩)
    3. 有没有遇到 bug ?

    欢迎拍砖 🙏

    稳定的 Claude Code 中转站上线了

    https://hongmacc.com

    我们不搞积分、不搞倍率,真 MAX20 号池

    我们是 Claude Code 的重度用户,起初一直购买官方账号。但高昂的费用、跑路的平台,频繁的封号实在让人头大。为了对抗风控,我们尝试了各种办法,结果账号还是活不长久……
    后来我们转向中转平台,买过很多家的会员,本想省钱省事,结果却事与愿违:
    频繁报错,一天挂 3 次,次次不一样的理由,把用户当猴耍

    模型降级、后台偷偷加倍率、一天下来啥也没干直接耗完四五十刀…
    不仅没省下钱,还浪费了大量时间。名为“中转”实为“骗局”!!

    终于,我们忍无可忍,决定自己下场做中转。
    经过几个月的试运行,现在已经可以非常稳定地给大家提服务了。
    希望大家都能 opus 自由

    为庆祝新站上线,我们决定给大家送福利了:

    福利一:注册,留言就送$10;

    在评论区留下你在 hongmacc 账户的“身份 ID”;
    (控制台-账户设置-复制身份 ID )

    另外,还可在平台内以 9.9 元购买$30 体验额度卡一次

    福利二:评论区抽奖送月卡

    奖品:每天抽取价值¥288 的月卡一张(连续抽两周)

    结束时间:2026 年 01 月 15 日 - 2026 年 01 月 28 日

    抽奖规则:回复本主题即可。活动结束后,将使用 v2 网友开发的 “V2ex 等概率抽奖程序”,从回复楼层中随机抽取。(会做去重复处理,刷楼无效)

    小伙伴们可以留言吐槽下你们被无良中转站坑的经历

    注意:禁止写出其他家中转站名称,我们只是分享经历,不要言语攻击,尊重平台规则!!!

    Cloudflare 通过实施基础设施即代码和自动化策略执行,消除了数百个生产账户中的手动配置错误,每天处理大约 30 个合并请求,并在部署前而不是事件发生后捕捉安全违规。

     

    公司的 Customer Zero 团队面临一个关键问题:单一配置错误可能在几秒钟内传播到 Cloudflare 的全球边缘,可能会导致员工被锁定或生产服务瘫痪。在这种规模下,对数百个账户进行手动仪表板管理为人为错误创造了太多机会。

     

    该解决方案的核心是将所有基础设施配置视为代码,进行强制性的同行评审和自动化安全检查。现在,每个生产变更都要经过一个验证管道,该管道在部署前执行大约 50 个安全策略。团队仍然使用仪表板进行分析和可观测性,但关键的生产变更需要提交与用户、工单和自动化合规性检查相关联的代码。

     

    根据 Cloudflare 团队的 Chase Catelli、Ryan Pesek 和 Derek Pitts 的说法,这种左移方法将安全验证转移到开发的早期阶段,在补救成本最低时捕捉问题。该模型防止事件发生,而不是对事件作出响应,同时通过让团队相信他们的变更是合规的,从而实际上提高了工程速度。

     

    实施以TerraformCloudflare Terraform Provider为中心,集成到一个自定义的持续集成和部署管道中,该管道在Atlantis上运行并与GitLab集成。所有生产账户配置都存储在一个集中的单体存储库中,各个团队作为指定的代码所有者拥有和部署他们的特定部分。

    Cloudflare 的基础设施即代码数据流图

     

    一个名为 tfstate-butler 的自定义 Go 程序充当 Terraform 的 HTTP 后端,充当安全状态文件代理。该设计通过确保每个状态文件的唯一加密密钥来优先考虑安全性,从而限制了任何妥协的潜在爆炸半径。

     

    策略执行使用Open Policy Agent框架和Rego语言来验证安全要求。策略在每个合并请求上自动运行,并以两种模式运行:允许部署并带有评论的警告,或者完全阻止变更的拒绝。异常处理需要基于 Jira 的正式批准,然后是一个拉取请求来记录偏差。

     

    迁移揭示了扩展基础设施扩展即代码(Infrastructure as Code)的关键教训。最初,由于团队之间的 Terraform 熟练程度不同,进入门槛很高,阻碍了最初的采用。cf-terraforming 命令行实用程序,它自动从 Cloudflare API 生成 Terraform 代码,通过消除手动资源导入,显著加速了上手速度。

     

    当团队在事件期间进行紧急仪表板变更时,配置漂移就会出现,从而使 Terraform 状态与部署配置不同步。Cloudflare 实施了自动漂移检测,该检测连续比较状态文件与部署配置,并在检测到差异时自动创建具有服务级别协议的补救工单。

     

    Cloudflare Terraform Provider 落后于 API 能力,因为 Cloudflare 的快速产品创新速度超过了 Terraform 的支持。v5 提供者版本通过从 OpenAPI 规范自动生成代码,解决了这个问题,保持了产品 API 和基础设施代码能力之间的持续对齐。

     

    左移模型展示了组织如何在保持严格的安全治理的同时扩展基础设施即代码。通过将验证从反应性审计转移到主动自动化检查,Cloudflare 既提高了安全性,又提高了工程速度。

     

    许多公司正在采用左移方法。谷歌云指出,在生产中定位安全问题可能导致重大的财务处罚,例如高达全球收入 4%的 GDPR 罚款。通过自动化 CI/CD 安全检查进行早期检测可以大大降低补救成本,减少对架构更改的需求。OpsMx指出了实施障碍、自动化差距、复杂工具和组织孤岛等挑战,同时强调使用 NIST 和 OWASP 等框架的自动化策略执行可以帮助团队识别和优先考虑风险,而不会给开发人员带来负担。根据Splunk的研究,73%的公司认为缺乏自动化是他们在左移实践中的主要挑战,但 AI 驱动的工具正在通过智能自动化迅速改进安全测试,采用率在短短一年内从 64%体升到 78%。

     

    左移运动已经超越了简单地将安全检查提前。组织现在正在追求通过自动化扫描(SASTSCADAST、秘密管理)、策略即代码执行和 AI 驱动的漏洞优先级排序进行持续的安全验证,在现有的工作流程中为开发人员提供即时、可操作的反馈。

     

    原文链接:

    https://www.infoq.com/news/2026/01/cloudflare-security-shift-left/

    乌克兰计算机应急响应小组(CERT-UA)披露了2025年10月至12月期间针对其国防部队、使用名为PLUGGYAPE恶意软件的新网络攻击细节。

    该活动被中等置信度归因于一个被追踪为Void Blizzard(又名Laundry Bear或UAC-0190)的俄罗斯黑客组织。据信该威胁行为者至少自2024年4月以来一直活跃。

    这些压缩包包含一个用PyInstaller创建的可执行文件,最终导致PLUGGYAPE的部署。CERT-UA表示,该后门程序的连续迭代增加了混淆和反分析检查,以防止其在虚拟环境中执行。

    PLUGGYAPE使用Python编写,通过WebSocket或消息队列遥测传输(MQTT)与远程服务器建立通信,使操作者能够在受感染主机上执行任意代码。对MQTT协议通信的支持于2025年12月添加。

    此外,命令与控制(C2)地址是从外部粘贴服务(如rentry[.]co和pastebin[.]com)获取的,这些地址以base64编码形式存储,而不是直接硬编码在恶意软件本身中。这使攻击者能够保持操作安全性和弹性,允许他们在原始基础设施被检测并拆除的情况下实时更新C2服务器。

    CERT-UA表示:“与网络攻击目标的初始互动越来越多地使用乌克兰移动运营商的合法账户和电话号码,使用乌克兰语进行音频和视频通信,攻击者可能展示对个人、组织及其运营的详细且相关的了解。”

    “在移动设备和个人电脑上广泛使用的即时通讯工具,实际上正成为传递网络威胁软件工具的最常见渠道。”

    近几个月来,该网络安全机构还透露,一个被追踪为UAC-0239的威胁集群从UKR[.]net和Gmail地址发送钓鱼邮件,其中包含指向VHD文件的链接(或直接作为附件),这为名为FILEMESS的基于Go语言的窃取程序铺平了道路,该程序收集匹配特定扩展名的文件并将其外泄至Telegram。

    同时投放的还有一个名为OrcaC2的开源C2框架,可实现系统操纵、文件传输、键盘记录和远程命令执行。据称该活动针对乌克兰国防部队和地方政府。

    乌克兰的教育机构和政府当局也遭受了另一场由UAC-0241策划的鱼叉式网络钓鱼活动,该活动利用包含Windows快捷方式(LNK)文件的ZIP压缩包,打开该文件会触发使用“mshta.exe”执行HTML应用程序(HTA)。

    觉得这篇文章有趣吗?请关注我们的Google News、Twitter和LinkedIn,阅读我们发布的更多独家内容。

    个人背景,
    之前一直在大厂做项目,对于官网或者网站,停留在读书的时候 Dreamweaver 上了。
    (从做产品的角度,我也是推动过一些项目落地的,,^_^)
    最近琢磨说如果不用 WordPress 是不是可以给我弟的厂子整个官网,说干就干,
    结果真的就在 gemini 的帮助下搓出来了。视觉还不错。

    也没用什么复杂的框架,就为了快和省钱,直接手写 HTML/CSS ,部署在了 GitHub Pages 上,域名也是刚绑定的。(实名感谢 github-好用,再次感谢 gemini ,虽然我觉得我在 gemini 上还没真的玩出花来)

    这是我的小站: https://wooohu.com 我弟是专门设计时尚女鞋的设计师。
    (目前比较简陋,主要是图片展示)

    想请教各位大佬几个问题:

    1. 在国内访问速度怎么样?图片加载会不会很慢?(我自己看好像还行)
    2. SEO 方面,除了 Search Console ,针对这种静态站还有什么优化的路子吗?
    3. 设计上有没有什么明显的硬伤?
    4. 如果从做官网的角度,还有什么更好用的方式搭建。
      第一次在这个节点发帖,纯粹是分享一下传统行业拥抱技术的乐趣,希望能得到大家的指点!

    感谢!

    微软今日发布补丁,修复了其各类Windows操作系统及支持软件中至少113个安全漏洞。其中8个漏洞被微软评为最严重的"高危"级别,该公司警告称攻击者已在利用其中一个今日修复的漏洞。

    本月微软零日漏洞——CVE-2026-20805——源于桌面窗口管理器(DWM)的缺陷,该组件是Windows系统中管理用户屏幕窗口的核心模块。Immersive网络威胁研究高级总监Kev Breen指出,尽管该漏洞仅获得5.5分的CVSS中等评分,微软已确认其在野利用情况,表明威胁攻击者正利用此漏洞针对各类组织。

    Breen表示此类漏洞常被用于破坏地址空间布局随机化(ASLR),这项核心操作系统安全控制机制旨在防范缓冲区溢出及其他内存操纵攻击。

    Ivanti产品管理副总裁Chris Goettl注意到CVE-2026-20805影响所有当前受支持及扩展安全更新支持的Windows版本。他指出若因该漏洞被标记为"重要"级别且CVSS评分相对较低而低估其严重性,将是个错误判断。

    "基于风险的优先级评估方法要求将此漏洞视为比供应商评级或CVSS评分更高的严重级别,"他补充道。

    本月修复的高危漏洞中包含两个Microsoft Office远程代码执行漏洞(CVE-2026-20952和CVE-2026-20953),仅需在预览窗格中查看恶意构造的消息即可触发。

    我们在2025年10月补丁星期二发布的《"终结10"专题报告》中曾指出,微软在发现黑客利用调制解调器驱动程序漏洞入侵系统后,已从所有版本中移除该驱动。Rapid7的Adam Barnett透露,微软今日又因类似原因从Windows移除另外两款调制解调器驱动:微软已掌握功能完整的漏洞利用代码,该代码针对极其相似的调制解调器驱动中的权限提升漏洞(编号CVE-2023-31096)。

    "这并非笔误,该漏洞最初由MITRE在两年前披露,原始研究者还发布了可信的公开分析报告,"Barnett说明,"今日的Windows补丁移除了agrsm64.sys和agrsm.sys文件。这三款调制解调器驱动均出自同一家现已停止运营的第三方厂商,并已预置在Windows系统中数十年。对多数用户而言这些驱动移除不会引起注意,但在某些工业控制系统等特定场景中,可能仍存在活跃的调制解调器。"

    Barnett提出两个遗留问题:在完全打补丁的Windows设备上究竟还存在多少传统调制解调器驱动?在微软切断攻击者"依赖[有线]生存"的途径——即利用整类陈旧设备驱动进行攻击——之前,这些驱动还会暴露出多少SYSTEM权限提升漏洞?

    "尽管微软未宣称掌握CVE-2023-31096的利用证据,但2023年的相关分析报告与2025年移除其他Agere调制解调器驱动的举措,已为在此期间寻找Windows漏洞利用途径的攻击者释放了两个强烈信号,"Barnett强调,"需要说明的是,即使未连接调制解调器硬件,仅驱动文件的存在就足以让设备处于脆弱状态。"

    Immersive、Ivanti和Rapid7均重点关注CVE-2026-21265,这是影响Windows安全启动功能的高危安全特性绕过漏洞。该安全功能旨在防范rootkit和bootkit等威胁,其依赖的一组证书将于2026年6月和10月到期。这些2011年颁发的证书失效后,未安装2023年新证书的Windows设备将无法继续接收安全启动安全更新。

    Barnett特别提醒,在更新引导加载程序和BIOS时,必须针对特定操作系统与BIOS组合做好充分准备,错误的修复步骤可能导致系统无法启动。

    "在信息安全领域十五年确实非常漫长,但自震网病毒时代以来一直为安全启动生态系统签名的微软根证书正面临失效倒计时,"Barnett指出,"微软早在2023年就发布了替换证书,同时推出CVE-2023-24932补丁,涵盖相关Windows更新以及后续修复BlackLotus bootkit利用的安全启动绕过漏洞的步骤。"

    Goettl提到Mozilla已发布Firefox和Firefox ESR更新,共修复34个漏洞,其中两个(CVE-2026-0891和CVE-2026-0892)疑似遭利用。两者均在Firefox 147(MFSA2026-01)中修复,CVE-2026-0891还在Firefox ESR 140.7(MFSA2026-03)中得以解决。

    "除1月6日Chrome更新已修复的高危Chrome WebView漏洞(CVE-2026-0628)外,预计本周还将发布Google Chrome和Microsoft Edge更新,"Goettl补充道。

    Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

    0%
    icon展开列表
    Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
    今天
    img
    端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
    今天
    img
    仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
    今天
    img
    AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
    今天
    img
    用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
    今天
    img
    京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
    今天
    img
    合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
    今天
    img
    500万次围观,1X把「世界模型」真正用在了机器人NEO身上
    今天
    img
    跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
    今天
    img
    百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
    今天
    img
    相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
    01月13日
    img
    视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
    01月13日
    img
    无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
    01月13日
    img
    不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
    01月13日
    img
    OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
    01月13日
    img
    华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
    01月13日
    img
    大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
    01月13日
    img
    刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
    01月13日
    img
    一个模型统一4D世界生成与重建,港科大One4D框架来了
    01月13日
    img
    端到端智驾的算力困局,九章智算云这样破局
    01月12日
    img

    Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

    站在 2026 年的开端回望,LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年,Transformer 架构以绝对的统治力横扫了人工智能领域,但随着算力成本的博弈和对推理效率的极致追求,挑战者们从未停止过脚步。

    知名 AI 研究员 Sebastian Raschka 的最新洞察中,他不仅回应了关于「Transformer 是否会被取代」的年度终极之问,更敏锐地捕捉到了近期业界的一个重要转向:从单纯追求模型参数的「大力出奇迹」,转向了混合架构与效率微调的精细化战争。

    同时,文章还探讨了一个极具潜力的变量:扩散语言模型。这类模型在 Google 等巨头的布局下会有怎样的表现?它们在「工具调用」上的天然缺陷是否会成为阿喀琉斯之踵?而在高质量数据日益枯竭的今天,扩散模型又是否能凭借「超级数据学习者」的特性,成为打破数据墙的关键?

    以下内容编译自 Sebastian Raschka 的最新博文,并结合文中提及的前沿论文及往期深度分析进行了系统性拓展,以便读者获取更完整的上下文视角。

    图片
    • 博客地址:https://x.com/rasbt/status/2010376305720594810

    最近几周,我经常被问到的一个问题是:在 2026 年,我们是否会看到自回归 Transformer 架构(即标准的 LLM)的替代方案。

    就目前而言,我坚信 Transformer 在未来(至少一到几年内)仍将保持其在 SOTA 性能方面的地位。它是当前 AI 生态系统的基石,拥有最成熟的工具链和优化方案。

    但是,情况确实会发生一些微调。这并不是说架构会一成不变,而是这种变化更多体现在「效率」和「混合」上,而非彻底的推倒重来。

    效率战争:混合架构与线性注意力的崛起

    临近去年年底,我们看到业界更加关注混合架构以及如何提高其效率。当然,这并不是什么新想法,但近期来自顶尖实验室的发布表明,目前的侧重点已明显向此倾斜。

    我们回顾一下 DeepSeek V3 以及随后的 R1,它们展示了混合专家模型(MoE)和多头潜在注意力(MLA)的强大之处。DeepSeek V3 通过 MLA 显著减少了推理时的 KV Cache 占用,而 MoE 架构则允许模型在拥有 6710 亿参数的同时,每次推理仅激活 370 亿参数。这种在保持模型巨大容量的同时极致压缩推理成本的设计思路,正是 2025 年末到 2026 年的主旋律。

    但这还不是全部。除了 MoE,我们看到了更激进的效率尝试,例如 Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力机制的 DeepSeek V3.2。(如果您对更多细节感兴趣,我在之前的《Big LLM Architecture Comparison》一文中对此进行了报道。)图片

          带有这类效率调整的 Transformer 架构示意图。

    • 相关链接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

    为什么大家都在卷「线性注意力」或「稀疏注意力」?

    标准的 Transformer 注意力机制(Scaled Dot-Product Attention)具有 O(N^2) 的复杂度,这意味着随着上下文长度的增加,计算成本呈二次方爆炸式增长。

    • Qwen3-NextKimi Linear 采用了一种混合策略:它们并非完全抛弃标准注意力,而是将高效的线性层(如 Gated DeltaNet)与全注意力层以一定比例(如 3:1)混合。这种设计试图在捕捉长距离依赖(全注意力的强项)和推理速度(线性层的强项)之间找到最佳平衡点。

    • DeepSeek V3.2 则引入了稀疏注意力,通过只计算最重要的 Token 之间的相互作用,进一步降低了计算开销。

    这些「微调」表明,2026 年的竞争不再仅仅是看谁的模型更聪明,而是看谁能在更长的上下文、更低的延迟下提供同等的智能。

    扩散语言模型:速度与代价的博弈

    话说回来,除了 Transformer 的变体,扩散语言模型怎么样?

    扩散语言模型之所以具有吸引力,是因为它们能够以相对快速且低廉的成本生成 Token。与自回归模型(AR)那种「一个字接一个字」的串行生成不同,扩散模型采用的是并行生成

    想象一下,自回归模型像是一个人在打字,必须打完上一个字才能打下一个;而扩散模型更像是在冲洗一张照片,整段文字从模糊的噪声中同时显现,经过数次「去噪」迭代后变得清晰。

    我前阵子在《Beyond Standard LLMs》一文中对此多写了一些。简而言之,我认为 2026 年我们会看到更多相关内容,Google 可能会推出 Gemini Diffusion 作为其更便宜的 Flash 模型的替代品。Google 已经在其技术博客中暗示了这一点,强调其生成速度「明显快于我们目前最快的模型」。

    • 相关链接:https://magazine.sebastianraschka.com/p/beyond-standard-llms

    然而,虽然扩散语言模型的优势在于它们可以并行生成 Token,但这同时也是一个巨大的缺点。因为由于并行生成的特性,它们无法在响应链中原生地整合工具调用

    在自回归模型中,模型可以生成「调用计算器」的指令,暂停,等待结果,然后再继续生成。而在扩散模型中,整个响应是同时生成的,很难在中间插入一个外部工具的交互步骤。这使得它们在作为智能体使用时面临巨大挑战。

    图片

          文本扩散过程示例。

    此外,虽然众所周知文本扩散推理效率更高,但最近的研究也表明,如果你为了提升质量而增加去噪步数以匹配自回归模型的性能,那么最终的计算预算其实是相差无几的。

    数据枯竭时代的「超级学习者」

    那么,我想表达什么呢?既然扩散模型有这些缺陷,为什么我还认为它值得关注?

    我原本计划讨论一月份发布的近期一系列有趣的研究,但我还是想简要重点介绍一篇我在「待读论文」清单上的、2025 年 11 月的有趣论文,它强调了扩散语言模型的一个有趣优势:《Diffusion Language Models are Super Data Learners》。

    • 论文地址:https://arxiv.org/abs/2511.03276

    图片

    来自论文《Diffusion Language Models are Super Data Learners》的带注释图表。

    这篇论文提出了一个在 2026 年至关重要的观点:当高质量数据变得稀缺时,扩散模型可能是更好的学习者。

    众所周知,互联网上的高质量文本数据正在接近枯竭。对于自回归(AR)模型来说,通常我们只让模型把数据「看」一遍(1 Epoch)。如果让 AR 模型反复在同一份数据上训练,它们很容易过拟合,即死记硬背训练数据,导致在未见过的新任务上表现下降。

    然而,上述论文表明,当进行多 Epoch 训练时,文本扩散模型的表现可能优于标准的自回归(AR)大语言模型。

    根据论文的研究结果,在严格控制的预训练设置下,当唯一数据量有限时,通过增加训练轮数,扩散语言模型的表现持续超越了自回归模型。

    这一现象被称为「Crossover(交叉点)」:

    • 当数据量充足时,AR 模型学得更快。

    • 但当数据受限时,DLM 是最终的赢家。例如,一个 10 亿参数的 DLM 模型,仅仅通过反复训练 10 亿个 Token(这在今天看是非常小的数据量),在 HellaSwag 和 MMLU 基准测试上分别达到了 >56% 和 >33% 的准确率,且没有使用任何特殊技巧。

    为什么会这样? 论文归结为三个因素:

    • 任意顺序建模:AR 模型被迫只能从左到右学习,而扩散模型可以学习文本中任意位置之间的依赖关系。

    • 超高密度计算:通过迭代的双向去噪,DLM 在训练时实际上对每个样本进行了更深度的压榨。

    • 内置的蒙特卡洛增强:扩散过程本身就是一种数据增强。同一个句子,每次加噪的方式都不一样,相当于把一条数据变成了无数条变体。

    更有趣的是,论文发现,对于 DLM 来说,验证集损失的上升并不意味着下游能力的下降。即便模型在验证集上看起来「过拟合」了,它在实际任务(如代码生成、推理)上的表现仍在提升。

    由于成本原因,过去没有人会在多个 Epoch 上训练大语言模型。但在数据枯竭的今天,如果我们不得不进行多 Epoch 训练,扩散模型似乎提供了一条新出路。

    这确实是有趣的结果!


    Ollama Template Injection 漏洞分析

    前言

    看到 ollama 的一个漏洞很有意思,模版注入,之前都不知道 ollama 还有这个漏洞



    最后看到还给了赏金,看到了漏洞报告也比较有意思,于是来分析分析

    一、漏洞描述

    Ollama 在 v0.9.5 及更早版本中,/api/generate/api/chat 端点存在服务端模板注入漏洞。当用户发送请求时,如果提供了 template 参数,系统直接将其传递给 template.Parse() 函数,使用 Go 的 text/template 引擎进行解析和执行,未进行任何安全验证。



    二、环境搭建

    我的环境

    软件版本: Ollama v0.9.5 (漏洞版本)

    Go 版本: go1.25.3 darwin/arm64

    测试模型: qwen2.5:0.5b

    因为需要 go 编译,ollama 是 go 编写的

    部署步骤

    验证



    搭建成功



    三、漏洞分析/代码分析

    漏洞触发链路

    老规矩,先看链路,先懂整体流程后,然后再去分析代码,就会方便很多了

    代码分析

    写在代码注释里面了,重点用🔴 标注了,这样更清晰

    模板解析函数

    文件位置: template/template.go:126-141

    请求处理入口

    文件位置: server/routes.go:229-238

    可访问的数据结构

    文件位置: template/template.go:165-177

    这些决定了我们可以访问哪些内容,不过比较敏感的一般是对话历史,现在直接把完整的 key 丢给 LLM 是很正常的

    模板执行函数

    文件位置: template/template.go:225-310



    四、漏洞复现

    验证服务运行

    请求





    查看可用模型

    请求





    之前我拿这个测试过,所以文件会有点多

    就使用千问模型

    访问 Prompt 变量

    我们可以先测试模型注入

    请求







    输入的 prompt 变量回显说明 {{.Prompt}} 被成功解析, SECRET_DATA_12345 被注入到模型响应。



    系统提示词

    请求





    访问对话历史

    请求



    对话历史那里多,我如何获取关键信息,go 的模版能干的事情,我们一样干,比如要求返回的字符串

    把字符串交给正则匹配解析,或者 key 神的 hae 插件

    五、漏洞修复

    还没有看到官方发布针对此漏洞的修复版本

    其实感觉还是未授权的问题,导致任意用户都可以获取到别人的对话历史了

    参考资料

    OWASP Server-Side Template Injection

    Go text/template 文档

    Ollama GitHub Repository

    CWE-94: Code Injection

    Go Template Injection Security Research

    报告

    免责声明: 本报告仅用于安全研究和教育目的。请勿将此信息用于未经授权的测试。

    仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的

    0%
    icon展开列表
    仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
    今天
    img
    AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
    今天
    img
    用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
    今天
    img
    京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
    今天
    img
    合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
    今天
    img
    500万次围观,1X把「世界模型」真正用在了机器人NEO身上
    今天
    img
    跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
    今天
    img
    百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
    今天
    img
    相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
    01月13日
    img
    视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
    01月13日
    img
    无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
    01月13日
    img
    不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
    01月13日
    img
    OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
    01月13日
    img
    华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
    01月13日
    img
    大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
    01月13日
    img
    刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
    01月13日
    img
    一个模型统一4D世界生成与重建,港科大One4D框架来了
    01月13日
    img
    端到端智驾的算力困局,九章智算云这样破局
    01月12日
    img
    真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
    01月12日
    img
    引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
    01月12日
    img

    仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的

    最近,Anthropic发布了全新的智能体工具 Cowork,号称能让普通用户像开发者使用 Claude Code 一样,轻松搞定非技术性任务。

    图片

    更令人咋舌的是,Cowork 的诞生仅仅用了一周半

    图片

    Cowork 是 Claude Code 的简化版本,专为普通用户设计。目前作为研究预览版,仅向 macOS 桌面端的 Claude Max 订阅者开放。用户只需授权访问特定文件夹,便能通过自然语言指令,让 AI 自主读取、编辑或创建文件。它不仅能制定计划、并行执行任务,还会实时更新进度,并邀请用户参与指导。

    根据官方介绍,Cowork 的能力包括但不限于:自动整理下载文件夹、从截图生成电子表格、基于散乱笔记起草报告,甚至支持连接 Google Calendar 等现有工具,直接生成文档或演示文稿。

    据 Claude Code 创建者 Boris Cherny 所说,Cowork 的全部代码都是由 Claude Code 写的

    这简直就是 Claude Code 最好的广告,当其他 AI 公司还在靠收购构建生态的是时候,Anthropic 已经开始让 AI 自己生 AI 了。

    图片

    有不少用户分享了实测反馈,其中热度最高的帖子之一来自 X 用户 vibhu。

    他表示自己安装 Cowork 后,仅用 2 小时就完成了原本需要 2 个月的工作,包括生成职位描述、营销策略文档、合作伙伴邮件、网站文案等。随后,他「惊慌」地发现日程、待办和收件箱都空了,不知道工作该怎么继续,甚至在为下午的经理一对一会议发愁。

    图片

    不过评论区很多人质疑其真实性,认为这可能是夸张的营销或搞笑帖。

    图片
    图片

    但在创业圈,这种冲击却是实打实的。

    有人感叹,这将使许多 YC 创业项目原地蒸发。毕竟在 AI 圈,真正的硬通货是地基和模型,而不是那些依附在巨头身上的「套壳挂件」。

    图片

    甚至已经有「受害者」出现:用户 Guohao Li 表示,由于 Claude Cowork 的横空出世,他们的类似产品失去了竞争力,于是选择开源。

    图片

    大家纷纷调侃「开源才是王道」,HuggingFace 联合创始人 Thomas Wolf 也现身评论区表达支持。

    图片

    该项目快速获得 3K GitHub Star。

    图片

    社区也不乏调侃之声,看看这个「当前创业公司结构」:现在的科技创业似乎只需要一个聪明大脑,外加一张能付得起 AI 公司账单的信用卡就够了。

    图片

    当下,日常工作下的助理智能体正在层出不穷,结合电脑手机系统的智能体也越来越强大。豆包手机的出现已经重塑了普通人对日常工作任务智能化的想象。

    但就像网友使用过 Cowork 说的:「我正在努力想办法解释,为什么我既比以往任何时候都更有效率,又完全没用。」

    普通人对智能体完全代理工作任务,似乎还没有做好预期和准备。

    相比于其他公司的巨额并购投资,Anthropic 借助 AI 能力,在短时间内,以低成本的方式打造用户端智能体的策略,是否更有价值?

    参考链接:

    https://x.com/TheAhmadOsman/status/2010917868586647693

    https://x.com/craigzLiszt/status/2010842587624505445

    https://x.com/guohao_li/status/2010899322825744745

    用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测

    0%
    icon展开列表
    用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
    今天
    img
    京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
    今天
    img
    合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
    今天
    img
    500万次围观,1X把「世界模型」真正用在了机器人NEO身上
    今天
    img
    跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
    今天
    img
    百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
    今天
    img
    相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
    01月13日
    img
    视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
    01月13日
    img
    无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
    01月13日
    img
    不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
    01月13日
    img
    OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
    01月13日
    img
    华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
    01月13日
    img
    大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
    01月13日
    img
    刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
    01月13日
    img
    一个模型统一4D世界生成与重建,港科大One4D框架来了
    01月13日
    img
    端到端智驾的算力困局,九章智算云这样破局
    01月12日
    img
    真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
    01月12日
    img
    引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
    01月12日
    img
    清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
    01月12日
    img
    2026年,大模型训练的下半场属于「强化学习云」
    01月12日
    img

    用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测

    图片

    编辑丨&

    空间蛋白质组学,它代表着蛋白质表达的高分辨率定位,对于生物学与疾病的研究至关重要。而相关空间蛋白质组学的翻译可不算简单,成本、复杂性和可扩展性,现有方法仍不足以填上这些方面的缺漏。

    于此,美国斯坦福大学(Stanford University School)等研究团队介绍了 H&E 到蛋白质表达(HEX),这是一个 AI 模型,旨在从标准组织病理切片中计算生成空间蛋白质组学谱。

    此外,该团队还开发了一种多模态数据集成方法,结合了上述原始的 H&E 图像与 AI 衍生的虚拟空间蛋白质组学,比传统临床病理学和分子生物标志物,提高了 22% 的预后准确性,并提高了 24% 至 39% 的免疫治疗反应预测。

    相关研究内容以「AI-enabled virtual spatial proteomics from histopathology for interpretable biomarker discovery in lung cancer」为题,于 2026 年 1 月 5 日发布在《Nature Medicine》。

    图片

    论文链接:https://www.nature.com/articles/s41591-025-04060-4

    图像特征到空间蛋白表达

    HEX 通过利用最先进的病理学基础模型进行训练,基于 H&E 图像同时预测 40 个蛋白质生物标志物的表达,可以从标准组织病理学生成虚拟空间蛋白质组学谱。

    团队通过两个独立数据集与包含 57plex CODEX 的泛癌数据集,对 HEX 模型的准确性与普遍性进行了评估验证。

    图片

    图 1:HEX 的开发、验证及临床应用。

    在结构设计上,HEX 以病理图像的局部区域为输入,输出对应区域内多种蛋白的空间表达强度。模型并非简单地进行整体回归,而是保留空间分辨率,使预测结果能够以“图谱”的形式呈现。这一点对于后续的生物学解释尤为关键。

    图片

    图 2:HEX 在蛋白质生物标志物预测中的性能评估。

    • 交叉性能验证:

    实验团队在 Stanford-WSI 数据集进行了五重交叉验证,通过 40 个生物标志物,HEX 实现了 H&E 图像中蛋白质表达的准确预测。与次优模型条件 GAN(CGAN)相比,HEX 显著提升了 26% 的皮尔逊系数、44%的斯皮尔曼系数、15% 的 SSIM 和 80% 的 MSE。

    • 独立验证:

    接下来,团队使用完整的 Stanford-WSI 数据集,评估了两个独立微阵列(TMA)的表现。依旧是与次优模型 CGAN 相比,HEX 几乎将所有系数翻了个番。这些结果共同凸显了 HEX 在独立数据集上的普遍性和稳健性。

    值得注意的是,HEX 并未只关注肿瘤细胞本身。模型同样能够在肿瘤微环境中,对免疫相关蛋白的空间分布作出合理预测,为后续的免疫状态分析提供了基础。

    多模态共关注整合

    H&E 提供了详细的细胞组学,虚拟 CODX 图谱提供了关于空间分辨蛋白表达的补充信息。为了整合这些不同但协同效应的数据类型,研究团队开发了多模态共关注整合(MICA),这是一种深度学习框架,可以明确建模跨模态交互和空间关系。

    在实验验证的分析中,团队将小细胞肺炎区分为早期与晚期,并检验 HEX 预测得到的虚拟空间蛋白图谱在这两类人群中的表现差异。

    在早期肺癌样本中,HEX 预测的空间蛋白表达呈现出更为局部化和结构化的模式。部分与肿瘤发生早期相关的蛋白,其预测信号主要集中于肿瘤边缘区域或特定细胞群体周围。

    在晚期肺癌样本中,HEX 预测的蛋白空间模式表现出明显不同的特征。多种蛋白的高表达区域在空间上更加弥散,与组织结构的对应关系也更为复杂。这反映了晚期肿瘤在细胞组成和微环境层面的高度异质性。

    图片

    图 3:MICA 提升免疫治疗反应预测能力,并识别晚期非小细胞肺癌中的空间蛋白质组特征。

    对于早期肺癌患者,这些空间蛋白特征更多与长期预后相关,提示模型捕捉到的信号可能与肿瘤早期生物学行为及潜在进展风险有关。而在晚期患者中,预测信号则更多与治疗反应,尤其是免疫相关治疗结局相关联。

    组织学+虚拟空间蛋白质组学

    HEX 是一种高精度的预测方式,已扩展至 34 种组织类型和新的蛋白质标记,展示了相较于其他基于 H&E 图像预测蛋白质表达的方法的显著性能提升。相比临床风险因素,HEX 将预后预测的准确性提高了 20% 以上。

    HEX 模型实现了更准确的靶向蛋白表达预测,虽然说,目前仍存有依赖抗体行免疫荧光成像等问题,但大都可以期待新型的细胞技术合作解决。该模型为标准组织病理学中的空间生物学研究提供了低成本且可扩展的方法,这使得原本受限于成本和通量的空间分子分析,首次有可能在更大规模的临床数据中展开。