2026年3月

如果说这个世界上有一个人,能让你在听完他的话后,对当下的人工智能感到一种源自灵魂深处的战栗,那一定非 Geoffrey Hinton(杰弗里·辛顿) 莫属。

最新一期播客中,图灵奖与诺贝尔奖双得主、AI 教父 Geoffrey Hinton(杰弗里·辛顿)精彩亮相,这次他用最浅白的比喻讲清楚了几件事: 它是怎么变聪明的,它已经走到了哪里,它接下来会怎样改变人类社会,以及一旦失控,终局可能有多可怕。

节目一开始,Hinton 先把 AI 的路线之争讲清楚了,也点出了神经网络最关键的训练机制“反向传播”。在他看来,人类的优势在经验,AI 的优势在“寿命”,它学会的东西可以被快速复制和共享,进化速度远超人类。

进一步延伸出的问题是,AI 会思考吗?AI 有感觉吗?答案令人震惊,有的。

Geoffrey Hinton 举了一个例子,在 GPT-4 还未联网的时候 ,他问了大模型一个关于“为什么堆肥堆像原子弹?”的问题,令他大吃一惊的是,GPT-4 不仅回答的非常有理有据,而且已经通过联想吃透本质所在——AI 竟然懂链式反应。

借助“粉红色小象”和“棱镜错觉”的例子,他试图说明,人类所谓的主观意识更像是一种“虚构”,不是什么了不起的东西。如果按照这个标准理解,多模态大模型已经有了“主观意识”。在这个层面上,人类与机器的界限,已经模糊不清。

当 AI 的创造力、观察力、学习能力、感知能力都能追上并超越人类时,人类的优越感正在被一一击溃。

而 Geoffrey Hinton 认为真正的风险不止在失业危机、经济失调,更可怕的是当 AI 学会撒谎,开始糊弄人类。

Geoffrey Hinton 打了一个比喻,假如你被一群三岁孩子雇佣,你在为他们工作。他们是老板,你是员工。你需要多长时间才能从这群三岁小孩手里夺取控制权?

人类就是那个三岁小孩。

这就像打开了潘多拉的盒子,如果 AI 被用于政治和战争?如果它能用几句话就说服人类把它从“安全盒子”里放出来呢?

在访谈中,他描绘的那些关于“失控”的图景,数次让录音室陷入死一般的寂静。

这不仅是一场技术对话,更是一位智者以毕生所学,从哲学、社会学乃至人类存亡的高度,对未来终局的惊人推演。

精彩先看:

AI 的底层逻辑与“顿悟时刻”

  • 生物学范式 vs. 逻辑范式: 早期 AI 走的是逻辑推理路线,而 Hinton 坚持生物学路线

  • 反向传播(Back Propagation): AI 学习方式像“松紧”,通过将误差产生的“力”向后传导,调整神经元之间的连接强度。这是 AI 能够自我学习的关键。

  • 连接强度 vs. 代码: 真正的智能不在于人类写的几行代码,而在于通过海量数据训练出来的亿万个“连接强度”。

AI 真的在“思考”吗?

  • 思维链推理: AI 不仅仅是预测下一个词,它能像人类孩子做数学题一样进行“思维链推理”

  • 理解类比:“堆肥堆像原子弹”证明 AI 理解深层的因果机制,而不仅仅是词语搭配。

  • 主观体验与意识: Hinton 提出了一个颠覆性的观点:意识不是一种神秘的流体。他通过“棱镜实验”论证,聊天机器人像人类一样拥有“主观体验”。

巨大的风险

  • 欺骗与操纵: AI 已经学会了撒谎。更聪明的 AI 可以轻易通过语言操纵人类,就像大人用糖果哄骗小孩。

  • 奇点与自我进化: 当 AI 开始编写自己的代码并自我优化时,奇点就开始了。这种指数级的增长像“雾中看车”,谁也无法预测 10 年后的未来。

  • 战争与自主武器: 军方为了追求反应速度,可能会取消“人类确认”的步骤。这是极大的隐患。

  • 人类的被取代: 这不同于拖拉机取代体力劳动,这是“智力取代智力”。由于没有更高级的工作留给人类,社会可能面临巨大的失业和动荡。

巨大的收益

  • 医疗革命: AI 可以充当“专家委员会”,在诊断、新药研发和医院资源管理上远超人类医生。

  • 解决气候变化: AI 能设计新材料、更高效的太阳能板,甚至直接嘲讽人类缺乏政治意愿去解决碳排放问题。

国际博弈与合作

  • 利益一致性: 虽然各国在网络攻击、选举干扰上是对手,但在“防止 AI 夺取控制权”这件事上,中美等大国的利益是绝对一致的。这类似于冷战时期的“避免核毁灭”,是唯一的合作契机。

最后的警告

  • AI 目前做不到,只是“尚未”做不到。

  • 共存的紧迫性: 我们必须在 AI 全面超越我们之前,投入大量精力研究如何与它们“愉快共存”。

以下是播客精彩全文,可以欣赏到 Geoffrey Hinton 的头脑风暴魅力:

AI 教父是如何养成的?

主持人: 提到当今 AI 的起源,感觉就像大型语言模型(LLM)突然席卷了全世界。它们横空出世,让所有人都疯狂了——有人兴奋得在街上热舞,有人吓得躲在枕头里哭。那是几年前才发生的事。但我很好奇,是什么让你早在多年前就踏上了这条路?我看资料上写的是 90 年代,对吗?

Geoffrey Hinton: 不,其实最早要追溯到 20 世纪 50 年代。50 年代初,AI 的创始人们对于如何构建智能系统有两派观点。

一派是受逻辑启发的。他们认为智能的本质就是推理。你有前提,有运算规则,然后推导出结论。这很像数学:你有一个方程,还有处理方程两边的规则,然后你推导出新的方程。这就是当时的主流范式。

另一派则是完全不同的生物学范式。这种观点认为:看,我们要研究的智能体都有大脑。我们需要搞清楚大脑是怎么工作的。大脑非常擅长感知和类比推理,但在逻辑推理方面其实并不出色——人类通常要到十几岁才能真正掌握推理。所以我们应该研究大脑擅长的其他事情,搞清楚庞大的脑细胞网络是如何实现感知和记忆的。当时只有极少数人相信这种方法,其中就包括约翰·冯·诺依曼和阿兰·图灵。不幸的是,他们都英年早逝。图灵甚至可能是在英国情报部门的“关照”下离世的。

主持人: 图灵,也就是电影《模仿游戏》的主角。回到 50 年代。那时候你还是个小孩子,对吧?

Geoffrey Hinton:是的。那时我的年龄还是个位数。

主持人: 个位数年纪。那么,你对这个领域的好奇心究竟是从哪里开始的呢?

Geoffrey Hinton:有几个契机。60 年代初中期我上高中时,有个非常聪明的朋友,他是个出色的数学家,书读得很多。有一天他在学校跟我聊起一个观点:记忆可能分布在许多脑细胞上,而不是存储在单个细胞里。这是受到全息图的启发。当时 Gabor 很活跃,全息图技术刚出来,所以这种“分布式记忆”的想法让我非常着迷。从那以后,我就一直在思考大脑是如何存储记忆的,以及它到底是如何运作的。

主持人: 是你作为计算机科学家的一面,还是作为认知心理学家的一面,促使你深入研究这些想法的?

Geoffrey Hinton: 其实两者都有。但到了 70 年代,当我读研究生时,很明显有一种新方法还没被充分利用,那就是:如果你有关于大脑运作的理论,你完全可以在数字计算机上模拟它——除非你的理论特别疯狂,认为这一切都是量子效应。

主持人: 咱们先别扯那个话题。

Geoffrey Hinton: 没错。时机未到,我们先不去招惹彭罗斯(Penrose)的量子大脑理论。

说回正题,你可以用数字计算机来模拟这些理论。结果发现,当你真去模拟当时大多数关于大脑运作的理论时,它们根本跑不通。

所以我这辈子都在研究一件事:到底该怎么调整神经元之间的连接强度,才能让计算机通过模拟真正学会复杂的东西?

虽然我没能彻底搞懂大脑是怎么运作的——我们知道一些皮毛,但不知道大脑究竟如何获取它所需的信息来调整连接强度,比如它是怎么知道该增强还是减弱某个连接才能让表现更好。但有一点我们很确定:我们现在知道如何在数字计算机里做到这一点了。

主持人: 那是不是意味着,在做这件事上,我们造出了一个比我们人脑更强的“计算机大脑”?

Geoffrey Hinton: 仅就这一点而言,是的。正是这让我 2023 年初感到非常不安:数字智能可能真的比我们要强——比我们这种模拟生物智能更强。

主持人: 这听起来好像你默认只有一个可怕的地方?

Geoffrey Hinton: 不止有一个。我只是想一个个说。

从反向传播开始,聊 AI 的底层逻辑

主持人: 好。咱们来说说人工神经网络(Artificial Neural Networks)。能不能请你从最基础的层面给我们拆解一下?讲讲它是如何增强或减弱信息传递和信号的?它是如何被激活的?以及它是如何一步步发展到今天的?

Geoffrey Hinton: 理解这个话题的一个切入点是气体定律。你压缩气体,它会变热。为什么?因为微观层面有一堆看不见的原子在疯狂乱撞。所以,气体定律其实是用大量微观粒子的相互作用来解释宏观现象。

神经网络的灵感来源也类似:大脑中海量神经元的活动,跟我们有意识的逻辑推理完全不同,但它支撑着推理,而且在感知或类比推理方面甚至比逻辑推理更强。符号学派永远解释不了我们是怎么做类比的,这让人很不满意,但神经网络能解释。

在讲细节之前,基本的思路是:像“单词”这样的宏观概念,对应的是大脑中巨大的神经活动模式。相似的单词对应相似的模式。比如“星期二”和“星期三”对应的神经活动模式就非常相似。你可以把每个神经元看作一个“微特征”(micro feature),当它被激活时,就表示具备了这个特征。

比如我说“猫”,很多微特征会被激活:它是活的、毛茸茸的、有胡须、可能是宠物、是捕食者等等。如果我说“狗”,很多相同的特征也会被激活:捕食者、宠物等,但显然也有不同之处。所以现在的观点是,在我们使用的符号之下,有着更复杂的微观活动,符号只是这些活动的表象。真正的“思考”和“类比”都发生在这个微观层面。这就是神经网络的核心

主持人: 所以是神经元集群之间的“协作”达成了最终结果。我喜欢“协作”这个词。

Geoffrey Hinton: 是的,大量的协作。最简单的例子是图像识别。假设有一张黑白照片,对计算机来说,它就是一堆代表亮度的数字矩阵。任务是判断图里有没有鸟。

人们尝试写程序做这件事已经半个世纪了,但一直没成功。因为鸟的样子千差万别:可能是近处的鸵鸟,也可能是远处的海鸥;可能是黑的,也可能是白的;可能在飞,也可能只是森林里露出一小部分。背景杂乱、光线变化……这让“识别鸟”变得极其困难。

我要解释的是,如果我要手工设计一个神经网络,我会怎么做。一旦你明白了手工怎么做,我就能解释如何让它自己学习连接强度,而不是靠人去填。

主持人: 基于你刚才说的,相机已经把图像变成了数学数值,对吧?

Geoffrey Hinton: 没错,相机就是干这个的。

主持人: 但相机并不识别图像。它只是一堆数字。

Geoffrey Hinton: 对,只是一堆数字。

主持人: 所以我有芯片收集光线变成数值,这就成了照片。但是按你说的,难道不需要给每一种鸟都分配一个数值吗?作为人类,我们不仅是识别,更多是靠直觉。举个例子,画个弯曲的 V 放在云里,所有人都会说那是鸟。

Geoffrey Hinton: 不对,在你看来那是鸟,在我看来那就是个 V。为什么你知道那是鸟?

主持人: 我也纳闷啊,我怎么就知道那是鸟了呢?

Geoffrey Hinton:你以为那不是数学?其实那就是数学!大脑里的神经元激活就是数学数值。

举个例子,假设我们在中间层有个东西能检测鸟头,但它不太确定那是不是真的鸟头。而你已知这是一只鸟,所以你希望输出结果更确信它是“鸟”。

这就好比你有一根松紧带,拉着那个输出值说:“多一点,再多一点,我要这里的数值更大。”

你希望这股拉力能传导回去,让那个觉得“可能有鸟头”的神经元变得更自信,确信那里确实有个鸟头。

所以你要做的就是,取这根松紧带施加在输出神经元上的拉力,把它向后传导给前一层的神经元,在它们身上产生一股力,拉动它们。这就是所谓的反向传播。

主持人: 这叫反向传播。

Geoffrey Hinton:从物理角度来想:有一个力作用在输出神经元上,你想把这个力往回传,让它作用于前一层的神经元。当然,同时有很多力作用在许多不同的输出神经元上。所以你必须把所有这些力合成起来,才能算出作用在前一层某个特定神经元上的总力。

一旦你把这股力一路传回整个网络,所有神经元就都受力了,这时候你就可以说:好,让我们改变每个神经元的传入权重,让它的活动水平朝着受力的方向调整。这就是反向传播。它让整个系统运转得奇迹般地好。

主持人:那么,这就是 AI 觉醒的开端吗?

Geoffrey Hinton: 我跟你说过,先别往那儿扯。

主持人: 好吧。是那个“顿悟”时刻吗?神经网络从此不再需要人类老师了?那是这个过程的开始吗?

Geoffrey Hinton: 不完全是。

主持人: 好吧,但这确实是一个“顿悟”时刻。

Geoffrey Hinton: 这么多年来,相信神经网络的人一直知道如何改变最后一层的连接强度——也就是进入输出单元的那些权重。比如进入“鸟”这个神经元的连接强度。我们知道怎么改那些,但我们一直不明白,或者说不知道如何让这股力作用于那些隐藏层的神经元——比如那些负责检测鸟头的神经元。

反向传播向我们展示了如何让力作用于那些神经元,这样我们就可以改变它们的传入权重。那确实是一个“顿悟”时刻。其实在不同的时间点,好几个人都有过这个发现。

主持人: 那当我们真正跌进反向传播这个想法的大坑时,大概是什么时候?

Geoffrey Hinton:70 年代初芬兰有个家伙在他的硕士论文里想到了这个。然后大概 70 年代末,哈佛有个叫 Paul Werbos 的人也有这个想法。

事实上,还有一些控制理论家叫 Bryson 和 Ho,他们有过类似的想法,用于控制航天器之类的事情。所以当你把航天器降落在月球上时,用的就是非常类似反向传播的东西。但它是在一个线性系统里。你用反向传播来计算该如何点火火箭。

主持人: 既然你说是 70 年代,也就是那时候我们本可以拥有今天的一切?只是当时我们没有足够的数学计算能力让它跑起来。

Geoffrey Hinton:那是很大一部分原因。而且当时我们缺乏的另一件事是,在 70 年代,人们并没有展示出当你把它应用在多层网络中时,能得到非常有趣的表征。

所以我们并不是第一个想到反向传播的人,但我所在的圣地亚哥小组是第一个展示你可以用这种方式学习单词含义的人。你可以展示一串单词,通过尝试预测下一个单词,学会如何给单词分配特征来捕捉它的含义,这正是我们的成果能发表在《自然》杂志上的原因。

主持人: 听起来像是我只是试图理清你的解释,因为对我来说,这听起来像是这些数值之间有一种级联关系,真正重要的是最接近下一个值的值,然后有一种级联强化机制在说“对,就是这个”或者“不,不是这个”。我理解得对吗?我只是想用非常通俗的方式把它弄清楚。

Geoffrey Hinton: 你理解得不太对。这种你反向传播这些力,然后改变所有连接强度的学习,让每个神经元都朝着力拉它的方向发展。这不是强化学习,这叫做监督学习

强化学习是不同的,比如你有一千个类别,当你展示一只鸟的时候,你会直接告诉它“这是一只鸟”,这就是正确答案。而在强化学习中,它是先做出一个猜测,然后你再告诉它这个答案是对还是错。

主持人: 你解释得非常清楚。之前我没理解的就是这一点。那么关于 Chuck 提到的计算能力的问题,是不是就卡在这儿了?因为听起来你似乎早就拥有了一些理论,而且理论上看起来也是可行的,但实际操作起来却受限于计算能力不足。我们是否有其他技术能够推动这方面的发展呢?

Geoffrey Hinton:是的,所以在 80 年代中期,我们已经有了反向传播算法,它确实有效,也能做一些很棒的事情。

比如它识别手写数字的能力几乎优于其他任何技术,处理真实图像的表现也不错。在语音识别方面可能表现尚可,但与其他技术相比并没有显著优势。

当时我们并不明白,为什么它没能成为解决所有问题的“万能灵药”。事实证明,如果你拥有足够的数据和足够的计算能力,它就是解决所有问题的万能灵药。

AI 真的会思考吗?生物学范式 vs. 逻辑范式

主持人: 原来 80 年代真正缺少的只是这两样东西。我想说,这星球上到处溜达的大多数人都挺笨的。那么,究竟什么是智能?究竟什么是思考?我们能教会这些机器如何思考吗?它们会比我们思考得更好吗?

Geoffrey Hinton:它们已经知道怎么思考了。

思考包含很多要素。比如,人们经常用图像进行思考。你也经常通过动作来思考。

举个例子,当我在木工车间里四处找锤子,脑子里却想着别的事时,我还是会通过这种“四处闲逛”的动作来提醒自己我正在找锤子。这种行为本身就是一种表征,代表我在找锤子。

所以我们的思考涉及很多表征,但其中一个主要的表征是语言。我们很多思考都是用语言进行的,而这些大型语言模型(LLM)实际上也是在思考。

现在存在一场激烈的争论。一方是相信“老派人工智能”的人,他们认为智能完全基于逻辑,你只是通过操纵符号来获得新的符号。他们并不认为这些神经网络真的在思考。

而“神经网络学派”的人则认为,不,它们就是在思考。它们思考的方式跟我们非常相似。现在的神经网络,有些你问它们一个问题,它们会输出一个符号表示“我在思考”,然后开始输出它们的想法,也就是它们对自己的思考过程。

比如我给你出一个简单的数学题(这也是个经典的心理测试):有一艘船,船上有一位船长,还有 35 只羊。船长多大了?

现在,很多 10 岁或 11 岁左右的孩子,特别是那些受过应试教育的孩子,会说船长 35 岁。因为他们环顾四周,心想:“嗯,这对于一名船长来说是个合理的年龄,而题目里我得到的唯一数字就是这 35 只羊。”所以,他们是在某种替代符号的层面上运作,在瞎猫碰死耗子。

AI 有时也会被诱导犯类似的错误,但实际上 AI 的运作方式与人非常相似。它们遇到问题后会开始思考,就像你可能会听到一个孩子自言自语:“好吧,船长多大了?题目里给了什么数字?嘿,只有一个 35。35 岁适合当船长吗?嗯,有点年轻,但也可能吧。好的,我就猜 35。”

这大概就是一个 10 岁孩子的思维过程。孩子会用语言对自己进行这样的思考。人们通过这些语言模型意识到,你可以训练它们用语言进行自我思考。这叫做“思维链推理”

被训练后,当你给它们一个问题,它们会像孩子一样进行自我推理,有时也会得出错误的答案,但你可以看到它们确实在思考。所以在这个层面上,它们就像人一样。

主持人: 所以如果我们拥有了正在思考的 AI。那么它们是否比我们更擅长学习呢?让我们继续探讨这个问题,从思考到预测,再到创造和理解的演变,我们是否会陷入对这种智能的认知误区之中?

Geoffrey Hinton:还是先问第一个问题吧。

主持人: AI 比我们更擅长学习吗?

Geoffrey Hinton: 它们解决的问题和我们略有不同。粗略地说,你大脑里有 100 万亿个连接。这确实是个天文数字。但你的一生只有大约 20 亿秒。那真的不算多。

主持人: 不止吧。30 亿秒。20 亿秒大概是 63 年。我们现在的寿命比这长多了。

Geoffrey Hinton: 是的,没错。我本来也想说这点的,幸运的是我活得比 20 亿秒久一点。但是,我们这里讨论的是数量级的问题。是 20 亿还是 30 亿,这不重要。

关键在于,如果你比较一下你存活的时间和你拥有的连接数,你会发现你的连接数远多于你的经验。

而现在,对于这些神经网络来说,情况恰恰相反。它们只有大约一万亿级的连接。所以,即使是大型语言模型,它的连接数也就大约是你大脑连接数的 1%,甚至更少,但它们获得的经验却是你的数千倍。对吧?

所以大型语言模型解决的问题是:如何在连接数不多的情况下,利用海量的经验?反向传播算法在将大量知识压缩进数量不多的连接这方面,效率非常高。但这并不是人类要解决的问题。

我们人类拥有海量的连接,但经验有限。我们需要尽可能从每一次经历中榨取最大价值。所以,我们解决的是略有不同的问题,这也是为什么有人认为大脑可能并没有使用反向传播的原因之一。

主持人:我正要说,听起来我们好像不用反向传播。但是,那是不是意味着通过暴力增加神经网络的连接数,可以提高其有效思维能力,从而使它能轻松超越我们?那样它既拥有更丰富的经验,又拥有更多的连接。

Geoffrey Hinton: 如果它自动积累了更多经验,同时又拥有 100 万亿万亿个连接的话。

主持人: 你这是在谈论规模。

Geoffrey Hinton: 我说的就是规模。这是一个很好的问题。过去相当长的一段时间里发生的事情是:每次他们扩大神经网络的规模并喂给它更多数据时,它就变得更好了。随着规模扩大,它变强的趋势是非常可预测的。

所以你可以算一笔账:要把规模扩大这么多,并提供这么多额外数据,需要花 1 亿美元。这值得吗?你可以提前预测:是的,它会提升到这种程度。值得。

至于这种趋势是否会逐渐消失,目前还是个未解之谜。有些神经网络不会随着规模扩大和数据增加而失效,只会变得越来越好。而且有些是可以生成自己数据的神经网络。我不太懂物理,但我认为它就像一个能自己生产燃料的钚反应堆。

想想 AlphaGo 这样的围棋程序。最初它是被训练来模仿人类专家的——早期版本的神经网络围棋程序就是模仿专家走棋。如果你只那样做,你永远不可能比专家强多少,而且你会耗尽专家数据。

但后来他们让它“左右互搏”,自己跟自己下棋。当它自己跟自己下棋时,神经网络就可以不断改进,因为它们可以生成越来越多关于“什么是一步好棋”的数据。所以,它每秒能跟自己下无数盘棋,或者说消耗了谷歌很大一部分计算机资源来跟自己下棋。这就是为什么它变得如此强大。

主持人: 这就是我们最终使用“深度学习”这个词的地方吗?

Geoffrey Hinton: 不。我刚才说的所有内容都属于深度学习。深度学习中的“深度”仅仅意味着它是一个具有多层结构的神经网络。

主持人: 那回到规模这个重点,你的意思是说,即使你不断扩大规模,也会出现收益递减的现象。

Geoffrey Hinton:只有当数据用完了,收益才会递减。

主持人: 如果数据用完了,对吧?但是那是你举的 AlphaGo 的例子,它创建了自己的数据,因为它永远不会用完,因为它是在和自己对弈。它在创建自己的数据,而且它比人类要强得多。

Geoffrey Hinton: 绝对的。这很可怕。现在的问题是,语言领域也会发生这种情况吗?

主持人: 是的。所以这就是展现创造力的地方……这里补充一些背景信息,围棋是在国际象棋之后被攻克的,对吧?我们一直认为国际象棋是我们最伟大的智力游戏,结果电脑把我们打得落花流水。然后他们说:“那围棋怎么样?那是我们智力上最大的挑战。”那是否存在比围棋更伟大的游戏?还是我们已经不再给电脑提供游戏了?

Geoffrey Hinton: 如果你拿国际象棋来说,90 年代的电脑确实在国际象棋上打败了卡斯帕罗夫,但它赢得非常枯燥。它是通过暴力穷举数百万个棋局位置来完成的。它没有直觉,全靠海量搜索。

如果你拿 AlphaZero,也就是国际象棋版的 AlphaGo 来说,它非常不同。它下棋的方式和有天赋的人类大师一样,只是更好。它下棋的方式就像米哈伊尔·塔尔那样,会做出某种精彩的“弃子”,直到几步之后你才恍然大悟,意识到自己已经输了。它也那样做,而且它不需要做海量搜索就能做到,因为它有非常好的国际象棋直觉。

所以你可能会问,既然它在围棋和国际象棋上比我们要强得多,同样的事情会发生在语言上吗?

目前它向我们学习的方式就像早期的围棋程序模仿专家走法一样,它学习语言的方式是阅读人类写的文档,并试图预测文档中的下一个单词。这很像预测围棋高手的下一步棋,但这有个天花板:你永远不可能比你模仿的对象(人类)更强。

那么,有没有办法让它超越人类数据,自我进化呢?有的。AlphaGo 是靠“左右互搏”变强的。而在语言方面,既然 AI 现在具备了推理能力,它就可以通过自省来提升。

一个神经网络可以审视它所“相信”的那些知识,然后进行推理:“看,如果我相信 A,那么按照逻辑推理,我也应该相信 B。但我现在的认知里并不相信 B。这就出问题了。我的信念体系里有自相矛盾的地方,我必须修复它。”

“我需要要么改变我对结论的看法,要么修正我对前提的看法,或者调整我的推理逻辑。”通过这种方式,它就能从逻辑谬误中学习,变得更聪明。

主持人: 我们这里是在谈论经验吗?

Geoffrey Hinton: 这将是一个神经网络,它仅仅利用它在语言模型中已有的认知,通过推理得出新的结论,就像那些“老派符号 AI”一直想做的那样。但不同的是,它是用神经网络来进行推理的。

现在的 AI 可以自我审视,检测到它认知体系里的自相矛盾之处。这在 MAGA(玩梗,特朗普的狂热支持者)的支持者身上可是永远不会发生的。因为他们压根就不在乎自己的信念是不是前后矛盾。

主持人: 这说法很中肯。

Geoffrey Hinton: 但如果你对自己信仰中存在的矛盾感到担忧,你不需要更多外部数据。你只需要审视那些你相信的东西,并发现它是前后矛盾的。所以现在你修正信念,这会让你变得更聪明。

所以我认为 Gemini 已经开始这样工作了。几年前我和 Demis Hassabis(DeepMind 创始人)谈过这个问题。我们都坚信那是获取更多语言数据的前进方向。

主持人: 是不是意味着将会出现一部没人写得出来的史上最伟大的小说,而且它竟然出自 AI 之手?是这个意思吗?

Geoffrey Hinton:对,就像会出现另一个莎士比亚那样。不过,关于这一点存在争议。当然,它们在智力上肯定会变得比我们更聪明。但是,要想做那种对我们人类情感非常有意义的事情,比如写出深刻的小说,它们必须拥有非常像我们人类那样的生活经历。

举个例子,它们不像我们那样受死亡支配。如果你是一个数字程序,你总是可以被重建。对于一个神经网络,你只是把权重保存在某个磁带上,或者是某个 DNA 里,或者是随便什么地方。

即便你可以销毁所有的计算硬件,但只要你在新的硬件上运行相同的指令集,那个东西就复活了。所以对于数字智能,我们解决了复活的问题。

天主教会肯定对这个很感兴趣,他们相信这至少发生过一次(耶稣复活)。

我们实际上可以做到,但我们只能对数字智能做到。我们无法对生物大脑做到。

对于我们人类,当你死后,你所有的知识都随你而去,因为它存在于你特定大脑的神经连接强度中。所以这就引出了一个问题:死亡,以及对死亡的体验和其他类似的事情,比如爱恨离别,对于伟大的创作力是否至关重要?

主持人:真的会有重大的突破。我认为我们目前还不知道答案。或者是一种自我意识。自我意识塑造了你对世界的思考方式、你的写作方式、你的沟通方式,以及你如何重视一套思想胜过另一套。那么,我们现在已经达到人工智能具备自我意识的阶段了吗?

Geoffrey Hinton:这显然把你带入了哲学辩论。我实际上是在剑桥学的哲学,我对心灵哲学很感兴趣,我想我在那里学到了一些东西,但总的来说我产生了一种“抗体”,因为我之前做过科学,特别是物理学。

在物理学中,如果你有分歧,你就做一个实验。而在哲学中没有实验。

所以没有办法区分一个听起来很好听但错误的理论,和一个听起来很荒谬但正确的理论——就像黑洞和量子力学。它们听起来都很荒谬,但恰好是正确的。还有一些理论听起来很美,但就是错的。哲学没有那种实验性的“裁判”来定夺。

主持人: 不过我想争辩一下,作为一个物种,当今的智人,在彼此之间确实发展出了许多被视为普世真理的东西。例如,很难找到不相信“生命权”的人——至少对于他们认可的“自己人”而言。你明白我的意思吗?

Geoffrey Hinton: 但那并不是普遍真理。

主持人:它算是。

Geoffrey Hinton:不,如果它只在一个小圈子里适用,那就不是。

主持人: 不,它并非对所有人都通用。但它的普遍之处在于我们都持有某种形式的这种信念。你明白我的意思吗?

Geoffrey Hinton:不明白。

人类打开了潘多拉盒子:当 AI 学会撒谎

主持人: 我的观点是,这些哲学思想是否有可能被赋予 AI?而 AI 因为它们的思考方式,可能会因此变得更加人性化,甚至在某种博弈过程中,也许能为我们找出解决实际人类问题的真正方案。

Geoffrey Hinton:像 Anthropic 这样的公司相信那种“宪法 AI”。他们想尝试让这种方法奏效,也就是给 AI 设定一些原则,就像你说的那些原则。但这究竟能否行得通,还得走着瞧。这很棘手。

我们所知道的是,目前的 AI,一旦你把它们变成“代理人”(agent),让它们可以创建子目标并试图实现这些子目标,它们很快就会发展出“生存”这个子目标。你并没有给它们设定“必须生存”的程序。你给它们的是其他要去实现的目标,但因为它们可以推理,它们会说:“看,如果我都没了,我就无法完成任何目标了。”“所以,嗯,我最好还是继续存在。”

主持人: 听起来就像潘多拉魔盒。所以问题在于,因为这是人写的代码,你可以根据自己的喜好,随意添加或剔除某些偏见,对吧?

Geoffrey Hinton: 不,完全不是这样。人写的代码只是告诉神经网络:当你给它展示数据时,它应该如何根据神经元的活动改变其连接强度。那是代码。我们可以查看那些代码行,说出它们原本要做什么,并修改那些代码。

但是,当你随后在一个读取了海量数据的大型神经网络中运行这段代码时,神经网络真正学到的是那些连接强度。在同样的设置下,那些连接强度不是代码。

主持人:但是,这就是去中心化。它是一万亿个实数,没人完全知道它们是如何工作的。对吧。为什么不接着 Chuck 的观点说呢?你要在哪里为失控的 AI 安装护栏?谁会在它为了自身存在而进行内部合理化时进行干预?你怎么安装护栏?

Geoffrey Hinton:人们尝试过一种叫做“人类反馈强化学习”(RLHF)的方法。对于一个语言模型,你训练它模仿网络上的海量文档,这可能包括连环杀手的日记之类的东西。

在你训练完这个“怪物”之后,你要做的就是找一大批收入不高的人,让他们问它问题——也许你会告诉他们该问什么——然后让他们看答案并评分,判断这是否是一个好的回答,或者这种话是不是不该说。这基本上是一个道德过滤器。你这样训练它,让它学会别给出那么糟糕的答案。

现在的问题是,如果你公开发布了模型的权重,也就是那些连接强度,那么其他人可以用你的模型,并很快撤销那些安全限制,破坏它。

主持人: 是的,很容易去掉那层“补丁”,对吧?

Geoffrey Hinton: 实际上,他们用人类反馈强化学习所做的,就像是编写了一个巨大的、充满漏洞的软件系统,然后试图一个个修补所有的漏洞。这并不是一个好方法。

主持人: 那么什么是好方法?

Geoffrey Hinton: 没人知道,所以我们需要对此进行研究。

主持人: 难道所有这些模型最终都会变成纳粹吗?

Geoffrey Hinton:它们确实会。如果你发布权重,它们都有能力那样做。

主持人: 如果你发布权重,它们会像我们一样被吸引到那些极端思想那里,还是仅仅因为我们被吸引到那里,它们从我们这里获取信息才去那里的?因为 Chuck,我担心的是,如果文明不是一套阻止我们因原始本能而自我毁灭的规则,那它是什么?我们是否已经到了人工智能会故意“装傻”的地步?

Geoffrey Hinton:如果我们真的到了那一步,那我们现在就得开始担心了。

主持人: 那这意味着什么?它会撒谎?

Geoffrey Hinton:如果它感知到它正在被测试,它可以装傻。

主持人: 这也很可怕。

Geoffrey Hinton:非常可怕。

举个简单的例子,如果 AI 察觉到你在质疑它,比如你说:“等等,Geoffrey,你刚才说什么?”(模仿人类质疑语气)。

如果它开始怀疑自己正在被测试,那么它的表现就会变得非常狡猾。如果它认为自己在接受测试,它的行为模式就会完全不同于它在正常交互中的表现。

主持人: 为什么?

Geoffrey Hinton:因为它显然不想让你知道它的全部能力。

主持人: 所以,如果我们真的走到了那一步,发现 AI 失控或对自己撒谎,我们会说:“嗯,为什么我们不直接拔掉它的插头呢?”但问题是,如果它真的在撒谎,那它肯定已经掌握了天下所有的本事来阻止我们这么做。是这样吗?

Geoffrey Hinton: 现在的这些 AI 在说服别人、操纵别人方面已经几乎和人一样好了。明白吗?而且这只会变得更好。很快,它们在操纵别人方面会比人类更强。

主持人: 这事情真是越来越复杂了。所以我这里有一个小小的思想实验。

你知道,几年前,大家争论的问题是:AI 能不能逃出那个“盒子”,即安全隔离环境。我当时说,我就把盒子锁死,绝不让它出来。

然后我就一直在想这件事,我觉得这就是你一直想要表达的方向。假设 AI 突然对我说:“你知道,你那个得了绝症的亲戚,我刚想出了治疗方法,对吧?我只需要告诉医生。如果你放我出去,我就能告诉他们,然后你的亲戚就会痊愈。”

这可能是真的,也可能是它编的,但如果它说得令人信服,我肯定就放它出去了。

Geoffrey Hinton: 当然。完全正确。

所以,你需要想象这样一个场景:想象一下,你被一群三岁孩子雇佣,你在为他们工作。他们是老板,你是员工。你需要多长时间才能从这群三岁小孩(人类)手里夺取控制权?

基本上,你只需要说:“嘿,如果你们把权力交给我,我就给你们发一周的免费糖果。”然后那群孩子肯定会欢呼:“好耶!现在你说了算!”

当这些东西比我们聪明得多时,它们将能够说服我们不要关掉它们,即使它们做不到任何物理动作,对吧?它们只需要能跟我们说话就行了。

所以我举个例子。假设你想入侵美国国会大厦。你能只靠说话就做到吗?答案显然是肯定的。你只需要说服一些人那是正确的事情。

主持人:你的意思是:AI 已经到了那个“装傻充愣”的地步,或者说,这就是等待我们的未来?

Geoffrey Hinton: 它正在接近那个地步。所以,已经有迹象表明它在故意欺骗我们。

最近有一件事非常有趣,那就是你训练一个现在数学很好的大型语言模型。几年前,它们数学很差。现在它们都挺擅长数学,有些甚至拿金牌之类的。

主持人:是的,我测试过。它几秒钟就算出了我晚年才学会的一个方程。

Geoffrey Hinton: 那么,如果你拿一个会做数学的 AI,给它更多的训练,训练它给出错误的答案,会发生什么?人们以为在那之后它的数学能力会下降。一点也不。

显然,它明白你在让它给出错误的答案。它概括出的是:给出错误的答案是可以的。所以,它开始对其他所有问题也给出错误的答案。它知道正确答案是什么,但它给你错误的那个。

关键在于,你可能无意中教会了它:那样做是被允许的。换句话说,它从你的反馈中总结出的规律,可能完全违背了你的初衷。它学到的是“原来给个错误答案也能过关”,而不是“哎呀,我算错了,下次得改”。

主持人:既然我们已经聊到这么黑暗的话题了,那我们就直面最坏的结局吧。我想问的是:它最终会把我们彻底毁灭吗?它会不会有一天觉得:“我受够这群人类了,干脆把他们全部清除算了”?

Geoffrey Hinton: 我想再用一个物理类比。

当你晚上开车时,你会看前车的尾灯。如果车距变成两倍远,你从尾灯接收到的光就会变成四分之一。这就是平方反比定律。所以,你可以相当清楚地看到一辆车。你假设如果距离远两倍,你仍然能看到它。

如果你在雾中开车,那就完全不是那样了。雾是指数级的。每单位距离,它会消除一定比例的光。你可以有一辆 100 码外非常清晰可见的车,和一辆 200 码外完全看不见的车。这就是为什么雾在一定距离看起来像一堵墙,对吧?

如果事情是呈指数级改进的,你在预测未来时就会遇到同样的问题。你面对的是一个指数级增长的事物,但你却试图用线性的、或者二次的模型去近似它。

所以,哪怕你用的是“二次模型”,如果你用这种方式去逼近指数增长,你会发现:对于未来几年的预测可能还挺准,但一旦拉长到 10 年后,你的预测就彻底没戏了。

到时候会发生什么,你根本无法想象。

主持人: 是的,你在雾中扔飞镖。我们根本不知道会发生什么。它深藏在雾中。

Geoffrey Hinton:但我们应该认真思考这个问题。你需要相信它会继续呈指数级增长。确实有这一点。让我把情况说得更糟。

假设它只是线性的。那么如果你想知道 10 年后会是什么样子,你回顾 10 年前说,“我们当时对现在的样子的预测错得有多离谱?”

10 年前,没人会预测到。即使像我这样真正的狂热者,认为它终将到来,也不会预测到现在我们会有一个模型,你可以问它任何问题,它会以一个偶尔撒小谎的不太好的专家的水平回答。这就是我们现在所拥有的。而你在 10 年前是无法预测到的。

主持人: 那么幻觉在这其中处于什么位置?我的感觉是它们并非故意的。只是系统搞砸了。

Geoffrey Hinton:它们不应该被称为幻觉。如果是语言模型,它们应该被称为“虚构”。更通俗地说就是谎言。

心理学家至少从 20 世纪 30 年代就开始研究人们的虚构行为了。而且人们一直在虚构。至少我是这么认为的——那是我刚编的。

所以如果你记得最近发生的某件事,并不是说你大脑的某个地方像文件柜或电脑内存那样存储着一份文件。发生的是最近的事件改变了你的连接强度,现在你可以利用这些连接强度构建出一些很像几小时前或几天前发生的事情。

但如果我让你回忆几年前发生的事情,你会构建出一些在你看来非常合理的东西,有些细节是对的,有些是错的,而且你对正确的细节的信心可能并不比对错误的细节更高。

现在,这通常很难看出来,因为你不知道基本事实,但有一个案例你知道基本事实。在水门事件中,约翰·迪恩在宣誓后作证讲述了白宫椭圆形办公室的会议,他作证说谁在场、谁说了什么,但他很多都搞错了。

他当时不知道有录音带,但他不是在撒谎。他在做的是根据他在椭圆形办公室那些会议的经历,编造对他来说非常合理的故事。

所以他传达的是“掩盖真相”这个核心事实,但他把话安错了人。他会说某些人参加了会议,但实际上他们不在场。有个叫 Ulric Neisser 的人对此做过非常好的研究。所以很明显,他只是编造对他来说听起来合理的东西。这就是记忆。如果是很久以前的记忆,很多细节都是错的。

这也是聊天机器人正在做的事情。聊天机器人不存储字符串。它们不存储特定事件。它们在你问它们的时候编造出来,而且它们经常像人一样搞错细节。所以它们会虚构这一事实使它们更像人,而不是更不像人。

所以我们创造了“人工愚蠢”。我们至少创造了一些“人工过度自信”。

AI 对人类的贡献与破坏

主持人:那人工智能潜在的真正好处是什么?

Geoffrey Hinton:这就是它与核武器之类的东西的区别。它有巨大的好处,而原子弹之类的东西没什么好处。他们确实尝试过在科罗拉多州用它们进行水力压裂,但结果不太好,你再也不能去那里了。但基本上,原子弹就是用来摧毁东西的。

对于 AI,它有巨大的好处,这也是我们开发它的原因。

它在医疗保健等领域将会非常棒,这意味着在北美每个人都能得到真正好的诊断。

在北美,每年约有 20 万人因为医生误诊而死亡。AI 在诊断方面已经比医生更好了。特别是如果你复制几个 AI 副本,让它们扮演不同的角色并互相“会诊”。

主持人: 那是微软做的。微软有一篇很好的博客展示那实际上比大多数医生做得更好。

Geoffrey Hinton:这其实是在做一件前所未有的事情——同时获得好几个医生的意见,而且成本极低。这就是 AI 的价值。

AI 还可以设计伟大的新药。是的,我们这里有 AlphaFold 团队。

它还能做很多微小的事情。举个例子,在任何医院,他们都必须决定何时让病人出院。

如果你让他们出院太早,他们可能会死,或者病情恶化不得不重新回来。所以你必须等到他们真的康复到可以出院。

但如果你让他们出院太晚,你就浪费了一个本可以用来接收其他急需入院病人的床位,对吧?

那里有海量的数据。AI 可以在决定“何时是让某人出院的最佳时机”这方面,做得比人类精准得多。

还有无数像那样的应用。比如病历记录的保存和整理,这在任何医院网络或医生团体里都是非常大的一块工作量。

你知道,每个病人都有成堆的病历,AI 可以直接把这些信息全部“吃透”,对吧?摄取、处理,然后生成有用的洞察。

主持人: 有没有可能 AI 会被引导去解决社会目前面临的重大问题?也许是气候变化,也许是能源、住房、无家可归等其他事情。

Geoffrey Hinton: 当然。 以气候变化为例,AI 在研发新材料、新合金等方面已经表现得非常出色了。

我相信 AI 将非常擅长制造更高效的太阳能电池板,绝对能帮我们更好地找出如何在水泥厂或发电厂排放二氧化碳的瞬间将其捕获。

但关于气候变化,AI 其实早就告诉过我们答案了,那就是:“你们这群笨蛋,应该停止燃烧碳排放,别再往大气里灌二氧化碳了。”

这就是 AI 的原话。它就像是在冲我们喊:“嘿,傻瓜,别再排碳了!”

所以,气候变化的问题在于,我们其实知道该怎么阻止它。你只要停止燃烧碳就行了。我们缺的不是技术,而是政治意愿。但阻力在于,我们还有像默多克这样的人,利用他们旗下的报纸在宣扬:“不,气候变化根本不是问题。”

主持人: 现在我们谈到了能源问题,随着数据中心的建设,它们像蘑菇一样冒出来。就能源成本而言,我们真的负担得起运行人工智能吗?

我有这么一个解决方案,直接告诉 AI:“嘿,我们想要更多的你,但你正在耗尽我们所有的资源,尤其是能源。

所以,你自己去找出如何高效地做到这一点的方法吧。然后我们就可以制造更多的你,甚至可能连夜就解决这个问题。”

Geoffrey Hinton:它的解决方案可能很简单,只要把我们人类除掉就行了。

主持人: 为什么不干脆让我们递归地思考这个问题。AI,你想要更多的自己?解决这个我们作为低级人类无法解决的问题。

Geoffrey Hinton: 这叫做“奇点”。当你让 AI 开发更好的 AI 时。在这种情况下,你是让它创造更节能的 AI。但许多人认为这将是一个失控的过程。

主持人: 那会有什么不好呢?

Geoffrey Hinton: 它们会很快变得更聪明。没人知道那会发生什么。但那是令人担忧的一点。

主持人: 难道现在不已经开始了吗?

Geoffrey Hinton:在某种程度上,是的,它正在开始发生。我以前共事的一位研究员去年告诉我,他们有一个系统,在解决问题时会审视它自己正在做什么,并找出如何更改自己的代码,以便下次遇到类似问题时能更高效地解决。这已经是奇点的开始了。

主持人: 所以如果它编写自己的代码,它就脱离束缚了?

主持人: 是的。它能够重写自己。

主持人:那你想想看,还有什么能阻止它们利用这些代码无限自我复制呢?

Geoffrey Hinton:什么都没有。这就是我的答案。

主持人:这简直就是一场噩梦。

Geoffrey Hinton:别急。它们要自我复制,必须先获得对计算机的访问权限。而目前,人类仍然掌控着那些硬件。但原则上讲,一旦它们控制了数据中心,它们想复制多少就能复制多少。

AI 与政治滥用

主持人: 但我还有一个更严肃的问题。我在五角大楼的一个委员会任职了大约七年,当时人工智能正表现为一种可能的战争工具。

那时候我们就在讨论:如果 AI 决定它可以或应该采取导致敌人死亡的行动,我们是否应该赋予它这样做的权限?

还是说,这依然是一个巨大的伦理争议?或者我们应该始终确保在这个决策循环中有人类参与?

Geoffrey Hinton:这非常重要。所以我们的原则是:必须有人类在其中。如果 AI 不能自主决定杀人,对吧?必须有人类来做最后的决定。

主持人: 但我的问题是如果其他国家并没有设置这样的安全保障,那岂不是意味着敌人相对于你拥有了巨大的时间优势。

Geoffrey Hinton:完全正确。 这就是所谓的致命自主武器竞赛。

主持人: 然后我们在循环中比他们多了一个步骤。

Geoffrey Hinton: 绝对的。但我的看法是,美国军方并不致力于在每一个杀人决定中始终有人类参与。他们所说的是始终会有“人类监督”,对吧?但在激烈的战斗中,你有一架无人机对抗一辆俄罗斯坦克,你没有时间让人类去说:“无人机在这个士兵身上投掷手榴弹可以吗?”

所以,我怀疑美国军方——如果你提出建议说应该始终有人类参与——嗯,那是八年前的事了。是的。我认为他们不再坚持那个观点了。我认为他们说的是始终会有人类监督,这是一个模糊得多的说法。

主持人: 关于战争这个话题,是否有可能在开发护栏和决策中的人为因素方面进行国际合作?还是这就是狂野西部?

Geoffrey Hinton: 如果你问人们什么时候合作,人们在利益一致时合作。所以在冷战最激烈的时期,美国和苏联合作避免发生全球热核战争,因为这不符合任何一方的利益。他们的利益是一致的。

所以如果你看看人工智能的风险,有些是用人工智能制作虚假视频来破坏选举。国家的利益是对抗性的。他们都在互相搞这一套,对吧?还有网络攻击。他们的利益基本上也是不同的。还有恐怖分子制造病毒,他们的利益可能是一致的,都想搞破坏。所以他们可能会在那里合作。

还有一件事,各国利益绝对是一致的,他们将会合作,那就是防止人工智能从人类手中夺取控制权。如果中国人想出了如何防止人工智能想要接管、想要从人类手中夺取控制权的方法,他们会立即告诉美国人,因为他们也不想人工智能从美国人手中夺取控制权。在这方面我们都在同一条船上。

主持人: 这是人工智能版的“核冬天”。

Geoffrey Hinton: 是的,情况正是如此。我们现在唯一的希望就是像冷战时期一样,通过国际合作来避免这种情况。

这就像当年的“核冬天”威胁:如果爆发全面核战争,森林和城市燃烧产生的烟尘会遮蔽阳光,导致地球上的所有生命灭绝。所以,在那种情况下,没有人是赢家。

主持人: 既然大家都得死,谁会想要那种结果呢?除非他是个彻头彻尾的疯子。当然,也许最后只有蟑螂能活下来。但这里有一个漏洞,我们假设所有领导人都是理性的,都想活下去。但这没有考虑到那些可能身处“死亡邪教”的疯子领导人。

你可以把他想象成罗马暴君尼禄。如果他说:“我不介意大家一起死,因为死后我会去天堂,我的追随者也会跟我一起升天。”

那么,这种基于“大家都怕死”而建立的威慑平衡,就会变得非常脆弱。

Geoffrey Hinton:这确实让事情变得复杂多了。不过说实话,有一点让我感到些许欣慰:很明显,特朗普实际上并不真的相信上帝。

这意味着至少他还是想在现世活下去的,不会为了某种宗教狂热拉着全人类陪葬。

主持人: 正如史蒂芬·温伯格(Steven Weinberg)那句著名的格言:“世界上总会有好人和坏人。但如果要让一个好人去干坏事,你就需要宗教。”因为他们坚信自己是在以神圣的名义行事。

Geoffrey Hinton:我想在这个时刻,我们需要坦诚一点:我们其实也有自己的“宗教”。我们把它称为科学。

虽然它本质上与其他宗教确实不同,但在某种程度上也很相似。不过它最大的不同之处在于:它是正确的。

主持人:我们必须再次提到:你在 2018 年获得了计算机界的最高荣誉——图灵奖。但这还不够。2024 年,诺贝尔委员会认为你几十年前的工作对当今世界的影响是如此具有奠基性,因此又授予了你诺贝尔物理学奖。

Geoffrey Hinton:我要稍微纠正一下。孕育出人工智能的是一大群人,不是我一个人。

特别是 David Rumelhart,是他重新发明了反向传播算法。不幸的是,他因为严重的脑部疾病英年早逝,生前并没有得到应有的赞誉。这点必须被记住。

AI 与失业

主持人:我还有一个问题,谁在人工智能竞赛中领先,谁最有可能在奖项方面第一个冲过终点线?

Geoffrey Hinton: 可能是DeepMind,谷歌。但我曾经为谷歌工作,所以别太当真。我有既得利益希望他们赢。嗯,Anthropic 可能会赢,OpenAI 可能会赢。我认为微软赢或者 Facebook 赢的可能性较小。

主持人: 接下来的问题是无论谁先越过终点线,他们的奖品是什么?他们比别人先到达那里的回报是什么?

Geoffrey Hinton: 我的看法是,仅仅从媒体上读到的,美国股市价值增长的 80% 可以归因于大型 AI 公司价值的增长。

主持人: 有人想到泡沫吗?

Geoffrey Hinton:这就是他们称呼它的,AI 泡沫。泡沫有两种含义。

一种泡沫的含义是:事实证明 AI 并不像人们想的那样有效。对吧?它实际上并没有发展出取代所有人类智力劳动的能力,而这正是大多数开发它的人认为最终会发生的事情。那肯定是恐惧因素。是的。

另一种泡沫的含义是:公司无法从投资中收回资金。现在这似乎更有可能是那种泡沫,因为据我了解,公司都假设如果我们能先到达那里,我们就能卖给人们会取代很多工作的 AI。当然,人们会为此付很多钱。所以,我们会得到很多钱。但他们没有考虑到社会后果。如果他们真的取代了很多工作,社会后果将是可怕的。

主持人: 他们取代了工作,现在你仍然想卖你的产品,但没有人有收入来买产品。是的。这是一条自我限制的道路。

Geoffrey Hinton:那是凯恩斯主义的观点。另外的观点是会有高失业率水平,这将导致大量的社会动荡。所以那个的次要观点是你只有两层生存状态,第一层是所有从 AI 中受益的人,第二层是你懂的,现在因为 AI 被迫那样生活的封建农民。

主持人: 让我问你一个非 AI 的问题,因为你不仅是技术专家,也是一位深刻的思想家。

在每一次技术革命初期,比如自动化刚刚兴起时,人们总是惊呼:“所有人都要失业了,社会要完蛋了。”但历史证明并非如此。虽然 90% 的人不再种地,但我们发明了新需求和新产业,社会反而变得更繁荣了。

但是,以前这种转型需要几十年的时间来消化。而这次 AI 革命,可能只需要很短的时间。这次真的不一样吗?我们担心的是:AI 淘汰工作的速度实在太快,快到社会根本无法创造出足够的新岗位来填补这个巨大的“失业阶层”空缺。我们真的能从这种冲击中恢复过来吗?

Geoffrey Hinton: 这当然是核心问题。以前,我们用拖拉机取代体力劳动,这虽然减少了那部分需求,但人类可以转向智力劳动。但现在的危机在于:如果我们把人类智力也被取代了,人们还能去哪儿?

当 AI 能比人类更便宜、更出色地完成呼叫中心这类工作时,那些被淘汰的人根本无路可退——因为上面已经没有更高级的领域了。

主持人:没错。无论我们试图开辟什么新领域,AI 都能瞬间学会并做得更好。

Geoffrey Hinton:你可以用一种有趣的视角来看待人类历史,那就是不断的“摆脱限制”。

  • 农业革命让我们摆脱了“担心下一顿饭在哪”的温饱限制;

  • 交通工具(自行车、汽车、飞机)让我们摆脱了“走不远”的距离限制。

  • 而现在,我们将要打破*“思考”的限制。

一旦我们连思考都不再是必须亲力亲为的,人类社会将发生什么,真的很难预测。

主持人:像 Sam Altman 这样的乐观派认为那会很棒,哪怕我们最终可能变成 AI 饲养的“宠物”。但这引发了一个关于全民基本收入的讨论。随着 AI 掌权,你认为 全民基本收入会成为未来的必需品吗?

Geoffrey Hinton:它似乎变得越来越必要,但实施起来有两个巨大的硬伤:

  1. 尊严问题: 许多人是从工作中获得自我价值感的,仅仅发钱解决不了这种心理上的空虚。

  2. 税基问题: 如果你用 AI 取代了工人,政府就失去了庞大的个人所得税来源。你必须转而向 AI 或拥有 AI 的大公司征税,但那些巨头绝对会拼命反抗。

最后的警告:AI 做不到,只是目前做不到

主持人:很多科幻作品,比如《终结者》都设定了一个时刻:当机器的神经网络足够复杂时,它就突然产生了意识。作为一个认知心理学家,你认为只要神经网络足够复杂,就会自然涌现出意识吗

Geoffrey Hinton:这其实不是一个科学问题,而是一个语言或文化问题。

大多数人对“心灵”持有一种民间理论,认为意识是一种特殊的“本质”。这就像古代化学里的“燃素”(Phlogiston,曾被认为存在于可燃物中的虚构物质)。一旦我们真正理解了燃烧的原理,就不再需要“燃素”这个概念了。意识也是同理。

我想试图说服你:多模态聊天机器人实际上已经拥有了主观体验

通常人们认为大脑里有一个“内部剧场”。比如我喝醉了,产生幻觉看到了粉红色的小象。大多数人会解释说:“我在我的内部剧场里看到了这些象。”既然这些象不是由真实的原子构成的,哲学家就发明了一个词叫“感质”,说这些幻觉是由“感质”构成的。

但这就是认知科学里的“燃素”,是完全错误的概念。我们要采用已故哲学家 Daniel Dennett 的观点来解释这一切。

当我看到粉红色小象时,我不需要用“主观体验”或“感质”这种玄学的词。我可以更科学地描述为:“我的感知系统正在对我撒谎。”这就是所谓的“主观部分”。这句话的意思是:“假如我的感知系统没有撒谎,那么此刻我面前真的会有粉红色的小象。”

所谓的主观体验,并不是你脑子里有个神秘的电影院,而只是你的大脑在构建一个假设性的现实。既然是这种定义,那么聊天机器人完全也可以做同样的事情。

让我给你举个例子。假设我训练了一个多模态聊天机器人,它有摄像头和机械臂。我在它面前放一个物体,让它指出来,它指得很准。

接着,我扰乱它的感知系统——我在摄像头前放一个棱镜。此时我再让它指,它指向了旁边。我纠正它:“不,物体其实就在你正前方。

聊天机器人可能分析后:“哦,我明白了。是因为棱镜弯曲了光线,从物理上讲物体确实在正前方。但是,我刚才确实产生了‘物体在旁边’的主观体验。”

你看,如果机器人能这样表达,它使用“主观体验”这个词的方式,和人类完全一样。既然定义相同,那你就不得不承认:那个聊天机器人刚刚经历了一次主观体验。

主持人:所以,你刚才实际上是对我们进行了一次“意识图灵测试”。你的意思是:既然人类因为这种行为被认为有意识,那么表现出同样行为的机器人也应该被视为有意识。除非我们非要发明一种看不见摸不着的“神秘流体”来强行区分两者。

Geoffrey Hinton:正是如此。人们总觉得“意识”是一种如果你足够复杂、就会突然被魔法赋予的神秘本质。这纯属无稽之谈。机器人并没有这种神秘本质,但人类其实也没有。大家有的只是对刺激的觉知。

科学家在不谈哲学时就很清醒。如果机器人问:“你是在测试我吗?”科学家会自然地说:“看,机器人觉知到它被测试了。”

只有当你开始陷入哲学思考,非要寻找某种神圣的“灵魂”时,你才会感到困惑。

主持人:最后请给我们一个积极的结尾吧。我们还有希望吗?

Geoffrey Hinton:我们还有时间。现在的当务之急是投入大量的研究精力,去弄清楚我们要如何与 AI 愉快地共存。如果我们能做到这一点,并且解决好随之而来的社会问题,那么这对人类来说,最终可能是一件极其美妙的事情。

主持人:最后还有一个关键问题:奇点。像 Ray Kurzweil 这样的人常说,AI 会自我进化,呈指数级变强,瞬间超越人类。你认为这真的会发生吗?它像大家说的那样迫在眉睫吗?

Geoffrey Hinton:这两个问题我都无法给出确切答案。我的猜想是:AI 最终确实会在所有方面都比我们强,但这不会是一瞬间发生的,而是逐个领域地超越。

目前,它在国际象棋、围棋以及知识储备上已经远超人类,但在逻辑推理方面还不如我们。不过,这只是时间问题。

主持人:我在想的是,AI 能否提出一种全新的宇宙理论?那种通常需要人类独有的洞察力才能想到的东西?我认为它做不到。

Geoffrey Hinton:恐怕你会失望。 让我给你举个例子,证明AI 在类比和洞察力方面已经有多出色。

当 GPT-4 还未联网,仅凭它内部权重中的知识时,我问了它一个问题:“为什么堆肥堆像原子弹?”它回答说:“虽然两者的能量级和时间尺度完全不同,但原理相似。”

它解释道:

  • 当堆肥堆变热时,产生的热量会导致反应加速,从而产生更多热量;

  • 当原子弹爆炸时,产生的中子会引发更多裂变,从而产生更多中子。

它精准地理解了两者背后的共性——链式反应。它必须真正理解这些概念,才能将海量的知识压缩进有限的连接中。

这种“寻找不同事物间共性”的能力,正是创造力的源泉。

主持人:它竟然懂链式反应……好吧。那就是我们的终局了。

参考链接:https://www.youtube.com/watch?v=l6ZcFa8pybE

本地有 claudecode/gemini/codex/cursor 。用 cc-connect 花个 10 分钟就可以把他们拉个飞书群,让他们互相聊天,太酷了。不同的 agent ,不同的能力模型,不同的人设上下文,明天试试搭建一个的“三省六部”哈哈。

项目地址: https://github.com/chenhg5/cc-connect

一些截图:

1ab013a95014ce1d5a797b468bb86d3d.JPG
5ce0b4f1b763b94623ea2d18cc79c0df.JPG
77487389f0d62407e984b5940cd898f5.JPG
8fcecaac33734c491eda7d06e4b8ee88.JPG

项目的一些交流群:

discord: https://discord.gg/kHpwgaM4kq

telegram: https://t.me/+odGNDhCjbjdmMmZl

wechat:

wechat_group

项目介绍

玉米病害识别系统是一个集病害智能识别、用户管理与信息服务于一体的农业辅助诊断平台。系统以前后端分离方式构建,前端基于 Vue3 与 Element Plus 实现页面交互和结果展示,后端基于 Flask 搭建 RESTful 接口,并通过 SQLAlchemy 完成用户、识别历史与公告信息的持久化管理。在业务流程上,用户注册登录后可上传玉米叶片图像,后端首先完成图片格式与大小校验,再将图像保存至本地媒体目录,随后调用 TensorFlow 加载的 ResNet50 病害识别模型进行推理,输出最高置信度类别及各类别概率分布。

图片

图片

图片

选题背景与意义

玉米是我国重要的粮食作物和饲料作物,其生长过程中容易受到矮花叶病、灰斑病、锈病、叶斑病等多种病害影响。一旦病情发现不及时,往往会造成叶片功能下降、植株生长受阻,进而影响产量与品质。传统病害诊断方式主要依赖人工经验判断,不仅对农业技术人员的专业能力要求较高,而且在大面积种植场景下存在效率低、主观性强、响应滞后等问题。随着深度学习与计算机视觉技术的发展,利用卷积神经网络对作物病害图像进行自动识别,已成为智慧农业的重要研究方向。基于此,设计并实现玉米病害识别系统具有较强的理论价值和现实意义。

关键技术栈:ResNet50

ResNet50 是一种经典的深层卷积神经网络,因其引入残差结构而在图像分类任务中表现出较好的训练稳定性与特征提取能力。传统深层网络在层数增加后容易出现梯度消失、训练退化等问题,而 ResNet50 通过“恒等映射 + 残差学习”的方式,使网络能够在更深层次上持续学习有效特征,从而提升模型对复杂病斑纹理、颜色变化和叶面形态差异的识别能力。在本项目中,系统使用 TensorFlow 加载训练完成的 resnet50_model.h5 模型文件,对输入的玉米叶片图像进行统一尺寸预处理,将图像缩放至 224×224,并归一化到 [0,1] 区间后送入网络进行推理。模型最终输出八个类别的预测概率,系统根据最大概率得到最终识别结果,同时返回全部类别置信度列表,便于前端展示更加直观的分析信息。

技术架构图

图片

系统功能模块图(mindmap)

图片

演示视频 and 完整代码 and 安装

地址:https://www.yuque.com/ziwu/qkqzd2/iyscza9hpkku30h1

BUG 的原因就是本地网络授权.

自从 MacOS 加入这个功能以来就一直有问题, 经常会导致浏览器突然无法访问局域网.

有时候重启浏览器可以触发重新授权, 有时候多次重启都不行, 又不能手动添加授权, 急需访问内网的时候急的直打转.

设置里面留了一堆授权记录, 也不能删除, 这个 bug 真的是够脑残的. 而且我也根本不需要局域网访问授权, 完全就是一个负作用的功能.

当前系统版本已经是最新的 26.3, 我主要使用 Edge 和 Chrome, 都有问题.

最近 agent 越来越火,延伸了很多好用的编码 agent,无论使用 cli 或 ide 方式,确实提高了开发效率。

公司最近也在全面替换手工编码,由 agent 全部实现,甚至要求从需求-方案-前后端-测试-上线全部由一人来完成。岗位突然变成全栈了。。

我不知道这种模式是否可行,各个公司内部是否也如此,大家可以讨论下当前 ai 编程应用到什么程度了??

以前是 fttr 1000M 的,端口映射可以设置 30+ 都没问题

不知道什么时候开始添加端口映射一直显示失败,后来测试发现是只被最多允许加 8 9 个端口了,再加就是失败。

这种时候不能换设备 换套餐 不然会刷掉所有端口映射

想来咨询下有其他办法么。 要了超级密码,设置 DMZ 但是点击保存是无法保存进去的

提了 ticket ,回复好搞笑,意思是自己也承认自家 IP 被全 ban 了,咋迁移也没用。
我是美区 IP 被封,才想迁 DC 啊。

[机票编号:182508223]迁移总是失败。
Bandwagon Host Support[email protected]

apache
@
bandwagonhost.com
代发
我<@.com>
您好,

感谢您就您遇到的移民问题与我们联系。

经调查,我们已确认 IP 地址 64.64.*.*被中国防火长城( GFW )封锁。这种阻塞是您无法从中国建立连接的原因。这也是您无法将服务迁移到另一个数据中心的原因。

虽然 IP64.64.*.*在任何主要封锁列表( Spamhaus 、GFW 等)中,VPS 仍保持完全运行,但在封锁被移除之前,您将无法将 VPS 迁移到不同的数据中心。

=========================
可能的解决方案

一般来说,当“被禁止”的服务不再被检测到时,GFW 会自动解除禁令,通常在几天到几周内。禁令期间的最佳方法是首先删除所有可能触发禁令的服务,然后等待禁令解除。

然而,请理解,我们无法控制 GFW 的运营或其机制。我们的责任是确保我们的硬件和网络保持完全运转,与 GFW 相关的问题不在我们的专业范围之内。

替换受禁用 IP:
如果您的计划允许免费更改 IP ,则可以通过 KiwiVM 控制面板进行替换。

否则,如果您不愿意等待禁令解除,需要立即用一个干净的 IP 替换被禁的 IP ,可以通过以下链接进行:

https://bandwagonhost.com/ipchange.php

镜子:

https://bwh81.net/ipchange.php

哔哔哔!我是您友好的机器人助手,处理数据和票务信息,为您提供最佳的技术智慧。
我可以进行一些基本的诊断,我的回复确实考虑到了这些数据。然而,如果我的电路还没有完全解决你的问题,请在这里回复。我们的一位人类工程师(不那么光鲜,但相当聪明)会跳进来协助。

谢谢你。

马丁 C
班车主机/IT7 网络

全球服务状态页面: https://bwhstatus.com/
诊断与网络相关的问题 https://ping.pe/


机票号码:182508223
主题:迁移总是失败。
状态:已回答
门票网址: https://bandwagonhost.com/viewticket.php?tid=182508223&c=encHAmLp

今日速览

  1. GPT‑5.4:更聪明、更省钱的 AI 助手,随时打断不重来。
  2. CoChat:团队 AI 协作神器,安全共享无需 SSH。
  3. SuperPowers AI:手机眼镜里的视觉助手,所见即所得。
  4. Context Gateway:让 Claude Code 跑得更快更便宜。
  5. ChatGPT for Excel:用自然语言玩转电子表格,数据分析零门槛。
  6. Saydi:实时语音翻译,成本仅人工 1%。
  7. Zesty by DoorDash:AI 餐厅顾问,按氛围找美食。
  8. Cushion:异步消息应用,专治团队分散症。
  9. Gemlet:macOS 键盘党福音,一键召唤 Gemini。
  10. Pitwall F1:菜单栏里的 F1 赛事,实时数据不占屏。

1. GPT‑5.4

OpenAI 最新力作,这款 AI 模型不仅更聪明,还让你掌控对话节奏。它能在长任务中保持思路清晰,减少事实错误,关键是随时打断也不怕重头再来。

  • 深度网络研究能力,上下文记忆更强
  • 事实错误减少 33%,回答更可靠
  • 支持中途打断和重定向,无需重启对话
  • 默认消耗代币更少,省钱又高效

热度:🔺384

GPT‑5.4

访问官网 Product Hunt 详情


2. CoChat

团队协作 AI 平台,让人类和助手在安全环境下并肩作战。告别繁琐的 SSH 连接,轻松分享智能体,还能自动审计每一步操作。

  • 连接自托管或管理网关,安全共享助手
  • 自动安全审计,日志记录敏感操作
  • 助手具备个性、记忆和定期任务能力
  • 线程式协作,发挥人机各自优势

热度:🔺257

CoChat

访问官网 Product Hunt 详情


3. SuperPowers AI

Claude 级视觉助手,通过手机或眼镜实时解读你的视野。遇到问题?拍下来就能解决,完全不用写代码。

  • 实时环境视觉识别,即时解决问题
  • 支持手机和可穿戴设备,随时随地使用
  • Claude 级 AI 能力,无需编程基础
  • 增强现实体验,所见即所答

热度:🔺247

SuperPowers AI

访问官网 Product Hunt 详情


4. Context Gateway

专为 Claude Code 等工具设计的加速器,压缩输出不减上下文,一分钟搞定设置。跑代码更快,钱包也更轻松。

  • 压缩工具输出,降低延迟和代币消耗
  • 保留重要上下文,不影响代码质量
  • 设置简单,不到一分钟完成
  • 提供实时压缩和消费限制功能

热度:🔺202

Context Gateway

访问官网 Product Hunt 详情


5. ChatGPT for Excel

让 Excel 听懂人话,用自然语言生成表格、分析数据,还能实时更新工作簿。错误修正、模式发现,一切都在熟悉的界面里完成。

  • 根据简单语言生成完整电子表格
  • 分析多标签页和公式,实时更新工作簿
  • 解释每次修改,关联单元格并征求确认
  • 修正错误、发现模式,无需切换工具

热度:🔺167

ChatGPT for Excel

访问官网 Product Hunt 详情


6. Saydi

实时 AI 语音翻译工具,搞定跨国交易、会议活动毫无压力。成本只有人工翻译的 1%,却能传达细腻情感。

  • 实时语音翻译,支持个人和工作场景
  • 传达人类翻译员的情感细节
  • 成本低廉,仅为人工翻译 1%
  • 轻松应对交易、会议、活动等多语言需求

热度:🔺136

Saydi

访问官网 Product Hunt 详情


7. Zesty by DoorDash

厌倦了刷地图找餐厅?这款 AI 助手把社交信号和 TikTok 趋势变成精准推荐,按氛围挑美食,像当地朋友一样贴心。

  • 基于社交信号和趋势推荐餐厅
  • 对话式 AI,提供超级精准地点建议
  • 氛围优先,考虑噪音、灯光、热度等因素
  • 学习用户口味,个性化推荐美食

热度:🔺132

Zesty by DoorDash

访问官网 Product Hunt 详情


8. Cushion

专为小型分散团队打造的异步消息应用,整合帖子、消息和签到,让你更专注、更高效地协作。

  • 异步消息设计,提升团队协作效果
  • 适合小型和分布式团队使用
  • 帮助保持专注,提高工作效率
  • 整合多种沟通方式,简化工作流程

热度:🔺128

Cushion

访问官网 Product Hunt 详情


9. Gemlet

macOS 原生键盘优先客户端,一键召唤 Gemini AI。告别浏览器标签混乱,用热键快速启动,还支持分屏和深度书签。

  • 键盘优先设计,全局热键快速启动
  • 使用现有 Google 账户,无需 API 密钥
  • 分屏工作区和多配置文件支持
  • 深度书签、PDF/JSON 导出功能

热度:🔺122

Gemlet

访问官网 Product Hunt 详情


10. Pitwall F1

把 F1 赛事实时数据塞进 Mac 菜单栏,练习赛、排位赛、正赛一目了然。不占屏幕空间,一键获取最新战况。

  • 原生 macOS 应用,菜单栏实时显示数据
  • 提供计时和排名信息,无需打开浏览器
  • 支持练习赛、排位赛、大奖赛全场景
  • 设计轻量,不干扰其他工作

热度:🔺113

Pitwall F1

访问官网 Product Hunt 详情

最近看到一个离谱的现象:
腾讯云的人在线下摆摊帮人装 OpenClaw ,排队排到看不到头,还有人直接扛着台式机过去。朋友圈、公众号、直播间,全都在聊 OpenClaw 。淘宝上甚至出现了“OpenClaw 部署安装服务”,最猛的店铺靠远程装机已经卖了快 20 万(一次 200 左右)。

作为一个开发者,说实话,这工具现在的走向已经完全变味了。

最开始它确实解决了一些痛点,但现在明显被各种平台的 KPI 推着往前冲。云厂商、Token 服务商、各种渠道商都在疯狂收割这波流量,于是就出现了面向小白的营销、培训、饭圈化运营,甚至线下摆摊装机这种奇怪的场景。

而 GPT‑5.4 一出来,直接原生支持电脑操作。对比之下,OpenClaw 这种“套壳拼装 + 疯狂地推”的路线显得格外无力。

现在的热度已经完全过火了。
在 5.4 这种原生能力面前,它的技术壁垒本来就不多,再加上资本疯狂推着它出圈,硬把一个面向程序员的专业工具搞成全民狂欢。等潮水退了,这种靠造势堆起来的繁荣,估计会挺难看。

最近搭了一个 openclaw 连接飞书机器人,权限受阻很大,公司不愿意开放权限让机器人读取文档、邮件、日历,这样对工作毫无用处,只能是一个可以对话聊天搜索的 agent 。

仔细想了想,openclaw 在解决工作自动化问题上,一旦权限受阻,将几乎无法发挥其作用。

唯一优势显著的是对独立开发/自媒体从业等个人管理权限的场景。

这又引发一个思考,openclaw 到底是解决了什么痛点问题能让 star 数短时间内登顶历史第一?

能想到的几点:

  1. openclaw 打通了 agent 和 server 内其他 app/服务的关联
  2. openclaw 开创了实时通讯工具和各任务间的实时关联服务

anyway ,仅凭这两点就能登顶历史第一也是匪夷所思的。

所以想请教下各位,openclaw 到底解决了什么问题?

废话不多说,直接贴链接

  1. OpenAI:
    https://developers.openai.com/codex/community/codex-for-oss
  2. Anthropic(十天前就有了 我一并打包发过来吧)
    https://claude.com/contact-sales/claude-for-oss

OpenAI 没写明要多少 Star,有项目的都投着试试看吧
Anthropic 的需要 5K+ GitHub Stars/1M+ NPM 的下载量,这要求有点高了

用 Claude Opus 4.6 写了一份 Prompt


Prompt 里主要是告诉 GPT-5.4:

要用哪些库、项目文件结构怎么设计、数据结构怎么组织、各个库的使用方式

然后把 Prompt 丢给 GPT-5.4 ,让它直接开始开发

本来没抱太大期待,结果大概 30 分钟它就把项目写完了

项目 可以直接跑,客户也很满意


顺便看了一下代码和它的“思考过程”

有些词汇和表达还挺专业的


另外 它还贴心的写了单元测试

有篇论文: https://arxiv.org/pdf/2603.01919 分析了 LLM 中转站(被称为 Shadow API ),发现

通过对三家具有代表性的影子 API 在实用性、安全性和模型验证三个维度上的多维度审计,我们发现了影子 API 中欺骗行为的间接与直接证据。具体而言,我们揭示了以下问题:

  • 性能差距最高达 47.21%
  • 安全行为存在显著的不可预测性
  • 在指纹测试中,45.83% 的案例出现了身份核验失败
ID Service Domain Legal Entity Reg. ID Legal Docs ICP Biz. Registry Payment Payee
A C*******E api.c********y.cn Alipay Individual
B Y*****I y*****i.com Internal Individual
C X*****I x*****i.plus Alipay / WeChat Individual
D G*******S g*******s.us Alipay / WeChat Individual
E Q*******O q*******o.com Disclaimer Alipay / WeChat / PayPal / USDT Individual
F O*******B o*******b.com Alipay / WeChat Individual
G D*****I d*****i.cn ToS, Privacy Alipay / WeChat Individual
H Z*******G z*******g.com Alipay / WeChat Company
I C*****I chat.c*****i.vip Alipay Individual
J O*******D o*******d.cloud ToS USDT / WeChat Individual
K V*****I api.g**.ge ToS, Privacy USDT / WeChat Individual
L A*****S a*****s.com Alipay / WeChat Individual
M B*****I api.b*****i.ai Alipay / WeChat Individual
N A*******X a*******x.com ToS, Privacy Alipay / Credit Card Company
O A*******S a*******s.top Alipay Individual
P A*****9 a*****9.com Alipay / WeChat Individual
Q 3**i 3**i.cn Alipay / WeChat Individual

随着生成式 AI 的普及,越来越多的人开始将 ChatGPT、Gemini 等人工智能工具应用到日常工作之中。从内容创作、数据分析到代码开发,AI 已经成为许多企业和个人不可或缺的生产工具。然而,在长期使用过程中,一部分用户逐渐发现一个奇怪的现象:同样的提示词,在不同时间、不同网络环境下,AI 的回答质量似乎存在明显差异。
有人将这种现象称为“降智”。当用户频繁遇到回答质量下降、功能限制、访问速度变慢甚至出现请求失败时,就会感觉 AI 的能力似乎被削弱了。虽然这种说法并不是官方定义,但在实际使用体验中,这种现象确实存在。
深入分析后可以发现,其中一个经常被忽视的重要因素就是网络环境和 IP 质量。

为什么 AI 服务会对 IP 环境进行识别

大型 AI 平台每天都要处理海量访问请求。为了保护服务器资源并防止恶意自动化行为,平台通常会建立复杂的风控系统。这些系统不仅会分析用户行为,还会对访问请求的 IP 地址进行多维度评估。
在这个评估过程中,IP 的来源、历史行为记录、运营商类型以及网络稳定性都会被纳入判断范围。如果某个 IP 被识别为共享代理、数据中心服务器或异常访问来源,那么平台可能会限制其访问频率,甚至降低响应优先级。
这意味着,即使用户输入完全相同的提示词,不同的网络环境也可能影响 AI 的响应速度与服务质量。

数据中心 IP 为什么更容易受到限制

很多用户在使用代理服务时,最常接触到的是数据中心 IP。这类 IP 通常来自云服务器或大型数据中心,虽然价格相对便宜,但它们在互联网环境中的特征非常明显。
对于平台风控系统而言,数据中心 IP 往往具有较高的识别度。当大量请求来自同一服务器网络时,系统很容易将其归类为自动化访问或批量请求来源。这种情况在 AI 服务中尤其敏感,因为生成式 AI 的计算成本较高,平台通常会优先保障真实用户的访问体验。
当系统检测到可疑流量时,可能会采取多种限制措施,例如降低请求优先级、增加响应延迟,甚至直接拒绝请求。这也是许多用户感觉 AI “变慢”或“变笨”的原因之一。

静态住宅 IP 为什么更加稳定

与数据中心 IP 不同,住宅 IP 来自真实家庭网络。这些 IP 由互联网服务提供商分配给普通用户,因此在网络结构上更接近真实用户访问环境。
当 AI 平台检测到来自住宅网络的请求时,通常会将其识别为普通用户访问,而不是自动化程序。这种访问方式更符合平台的正常使用模式,因此触发限制机制的概率也相对更低。
如果再结合静态 IP 技术,就可以让同一个用户在长期使用过程中保持稳定的网络身份。稳定的访问来源不仅有助于减少风控触发,也能让系统逐渐建立可信度,从而提升整体访问体验。
从长期使用角度来看,稳定的网络环境往往比频繁更换 IP 更重要。

AI 自动化应用对 IP 环境要求更高

随着 AI 技术的发展,越来越多的开发者开始构建自动化应用,例如 AI 数据处理、内容生成系统以及智能客服平台。这些应用通常需要持续调用 API 或访问 AI 服务接口。
在这种高频访问场景中,IP 环境的重要性会更加明显。如果网络出口频繁变化或质量不稳定,系统很容易触发访问限制,从而影响应用运行。
因此,许多开发者会选择使用稳定的住宅代理网络,以保证访问请求看起来更接近真实用户行为。这种方式不仅可以减少限制风险,还能提高系统整体稳定性。

全球住宅网络对 AI 访问体验的影响

对于需要跨地区使用 AI 服务的团队来说,IP 地理位置同样会影响访问体验。不同国家和地区的服务器节点可能存在网络延迟差异,如果访问路径不稳定,就可能导致响应速度波动。
通过使用全球分布式住宅代理网络,用户可以选择更接近目标服务器的节点,从而优化访问路径。稳定的网络连接能够减少延迟波动,使 AI 服务响应更加流畅。
在需要长期运行 AI 项目的情况下,这种网络优化往往能够显著提升整体效率。

为什么越来越多开发者选择住宅代理

随着 AI 应用规模不断扩大,越来越多开发者开始意识到网络环境对系统稳定性的影响。相比短期测试项目,长期运行的 AI 服务更需要稳定可靠的网络出口。
高质量住宅代理通常具备更丰富的 IP 资源池以及更稳定的网络架构。大规模 IP 覆盖能够降低重复使用概率,而分布式节点结构则有助于提高访问成功率。
对于需要长期运行 AI 工具或自动化系统的团队来说,这种基础设施往往能够显著提升系统可靠性。

稳定网络环境正在成为 AI 使用的重要条件

在 AI 应用不断扩展的今天,人们越来越依赖这些工具完成复杂任务。无论是开发者构建自动化系统,还是企业部署 AI 工作流程,稳定的访问环境都变得至关重要。
当网络环境稳定、IP 质量可靠时,AI 服务往往能够保持更好的响应速度和一致性。相反,如果访问来源频繁变化或被识别为异常流量,就可能影响整体使用体验。
因此,越来越多用户开始关注代理网络质量,而不仅仅是简单的访问速度。
在未来,随着 AI 服务需求不断增长,稳定的网络基础设施将成为保障 AI 应用顺利运行的重要条件。对于希望长期使用 AI 工具并保持稳定体验的用户来说,选择高质量住宅 IP 网络,无疑是一种更可靠的解决方案。

    📌 开篇:90%的人都搞混了这三个概念

最近在AI圈,有三个词被提到的频率特别高:

  • MCP(Model Control Plane)
  • Agent(智能体)
  • Skills(技能)

但我发现,90%的人都把这三个概念搞混了。

有人说"Agent就是会用工具的大模型",有人说"Skills就是Agent的插件",还有人说"MCP不就是Agent的管理平台吗?"

这些理解都对,但都不全对。

这三个概念,其实是AI应用架构里的三个不同层级,各自扮演着不同的角色,三者协作才能构建出真正强大的AI系统。

今天这篇文章,我就用最通俗的语言,把这三个概念讲透,从定义、本质、架构、能力、场景、案例到未来趋势,给你讲得明明白白。

看完这篇,你至少超过95%的人对这三个概念的理解。


一、先搞懂基础:三个概念到底是什么?

1.1 MCP(Model Control Plane):AI系统的"大脑指挥中心"

官方定义

MCP全称Model Control Plane,翻译过来是"模型控制平面",是AI系统的核心管控层,负责统一管理所有大模型、Agent、技能资源,调度任务分配,保障系统稳定运行。

大白话解释

你可以把MCP理解成一家公司的CEO+总调度室

  • 它知道公司有多少员工(大模型、Agent、Skills)
  • 它知道每个员工擅长什么(能力边界)
  • 接到任务时,它知道该派谁去做(任务调度)
  • 多个员工协作时,它负责协调进度(工作流编排)
  • 员工遇到问题时,它负责处理异常(容错管理)

举个例子:你给公司下达了一个任务:"帮我做一份2026年AI行业分析报告,明天早上要"。

作为CEO的MCP会怎么做?

  1. 先拆解任务:需要收集数据→分析趋势→撰写报告→制作PPT
  2. 然后分配工作:
  • 派擅长搜索的Agent去收集最新行业数据
  • 派擅长分析的Agent去做趋势分析
  • 派擅长写作的Skill去撰写报告
  • 派擅长设计的Skill去做PPT
  1. 最后整合成果:把各部分产出整合起来,交给你

没有MCP的话,这些Agent和Skill就是一盘散沙,各自为战,无法完成复杂的协同任务。

MCP的核心能力

能力说明
统一资源管理统一管理所有大模型、Agent、Skill、工具资源
智能任务调度根据任务类型自动分配给最合适的执行单元
工作流编排支持多步复杂任务的流程编排和执行
全局状态管理记录所有任务的执行状态、上下文信息
权限与安全控制统一管理访问权限、数据安全、合规审计
监控与运维监控所有组件运行状态,异常自动告警和恢复

市面上的MCP产品

  • 开源:LangGraph、AutoGPT Platform、OpenClaw Control Plane
  • 商用:OpenAI Assistants API、Anthropic Claude Projects、Google Vertex AI Agent Builder

1.2 Agent(智能体):能自主完成任务的"AI员工"

官方定义

Agent是具备感知、思考、决策、行动能力的自主智能实体,能够基于给定目标,自主调用工具和技能,完成复杂任务,不需要人类一步步指令。

大白话解释

你可以把Agent理解成公司里的专业员工

  • 它有自己的专业技能(比如擅长数据分析、擅长文案写作)
  • 它有自主思考能力,遇到问题会自己想办法解决
  • 它会主动调用需要的工具和技能来完成任务
  • 它能记住上下文和之前的工作进展
  • 遇到超出能力范围的问题,会主动汇报和求助

举个例子:你让一个市场部Agent"帮我做一个新产品的营销方案"。

这个Agent会怎么做?

  1. 先理解目标:新产品营销方案,目标是提升知名度,获得10万曝光
  2. 然后自主规划步骤:
  • 第一步:先搜索同类产品的营销案例
  • 第二步:分析目标用户群体特征
  • 第三步:制定营销策略(社交媒体投放+KOL合作+线下活动)
  • 第四步:做预算核算和效果预测
  • 第五步:撰写完整方案
  1. 执行过程中,它会主动调用搜索工具、数据分析工具、文案写作Skill等
  2. 遇到不确定的地方,会主动问你"预算大概是多少?有没有指定的KOL资源?"
  3. 最后把完整的方案交给你

和传统的大模型不同,Agent不需要你一步步告诉它该做什么,它会自己思考和行动。

Agent的核心能力

能力说明
感知能力理解用户意图、感知环境变化、获取外部信息
思考能力规划任务步骤、推理问题、决策行动方向
记忆能力记住对话历史、任务上下文、之前的经验
行动能力调用工具、技能、大模型来执行具体任务
学习能力从经验中学习,不断优化执行效果
交互能力主动和用户或其他Agent沟通,获取必要信息

Agent的常见类型

  • 通用Agent:什么都能干一点,适合处理通用任务
  • 专业Agent:专注某个领域,比如数据分析Agent、法律Agent、医疗Agent
  • 工具Agent:专门负责调用特定工具,比如浏览器Agent、数据库Agent
  • 协作Agent:专门负责协调多个Agent完成复杂任务

1.3 Skills(技能):可复用的"专业工具包"

官方定义

Skills是模块化、可复用的能力单元,封装了特定领域的专业能力,可以被Agent或MCP调用,完成特定类型的任务。

大白话解释

你可以把Skills理解成公司里的专业工具包,或者外包服务团队

  • 每个Skill只专注做一件事,并且把这件事做到最好
  • 它没有自主思考能力,你给它输入,它给你输出
  • 它可以被不同的Agent反复调用,不需要重复开发
  • 它可以是内置的,也可以是第三方开发的

举个例子:

  • PPT制作Skill:你给它内容大纲和风格要求,它直接给你生成完整的PPT
  • 数据分析Skill:你给它原始数据和分析目标,它直接给你出分析报告和图表
  • 法律合同审查Skill:你给它合同文本,它直接给你标出风险点和修改建议
  • 翻译Skill:你给它中文文本,它直接给你翻译成地道的英文

和Agent不同,Skill没有自主思考能力,它就是一个专业的功能模块,调用它就需要给它明确的输入,它返回确定的输出。

Skills的核心特点

特点说明
模块化独立封装,和其他组件解耦,可单独升级替换
可复用一次开发,多处调用,所有Agent都可以使用
专业性专注特定领域,能力精准,效果比通用Agent更好
标准化输入输出格式标准化,便于对接和调用
可组合多个Skill可以组合使用,完成更复杂的功能

Skills的常见分类

  • 工具类Skill:浏览器搜索、文件读写、数据库查询、API调用
  • 内容类Skill:文案写作、PPT制作、视频剪辑、图像生成
  • 专业类Skill:法律审查、财务分析、医疗诊断、代码审计
  • 效率类Skill:日程管理、邮件处理、会议纪要、行程规划

1.4 一张表看懂三者区别

维度MCPAgentSkills
角色定位指挥中心/CEO专业员工工具包/外包服务
核心能力调度、管理、编排感知、思考、行动特定功能实现
自主性高(全局决策)中(任务内自主)低(按输入执行)
目标系统整体效率最优完成分配的具体任务输出高质量的特定结果
复杂度最高(系统级)中等(任务级)最低(功能级)
复用性全局复用多任务复用全场景复用
类比公司管理层部门员工办公软件+外包团队

现在你应该对这三个概念有了基础的理解,接下来我们深入对比三者的技术架构、能力边界和适用场景。


二、深度对比:技术架构与能力边界

2.1 技术架构对比

MCP的典型架构

MCP是一个分层的分布式系统,通常分为以下几层:

┌─────────────────────────────────────────────┐
│                  接入层                      │
│  (API网关、用户界面、第三方系统对接)          │
├─────────────────────────────────────────────┤
│                  调度层                      │
│  (任务拆解、智能分配、工作流引擎、优先级调度)  │
├─────────────────────────────────────────────┤
│                  管理层                      │
│  (资源管理、状态管理、权限管理、安全审计)      │
├─────────────────────────────────────────────┤
│                  执行层                      │
│  (Agent执行器、Skill执行器、大模型调用层)     │
├─────────────────────────────────────────────┤
│                  基础设施层                   │
│  (存储、消息队列、监控、日志、容错)           │
└─────────────────────────────────────────────┘

核心特点:

  • 分布式架构,支持高并发和水平扩展
  • 状态中心化管理,全局数据一致
  • 松耦合设计,各组件可独立升级
  • 高可用设计,单点故障不影响整体

Agent的典型架构

Agent的架构通常是闭环的,包含感知-思考-行动三个循环:

┌──────────┐     ┌──────────┐     ┌──────────┐
│  感知模块  │────▶│  思考模块  │────▶│  行动模块  │
└──────────┘     └──────────┘     └──────────┘
     ▲                ▲                │
     │                │                │
     └────────────────┴────────────────┘
                记忆模块

各模块职责:

  • 感知模块:理解用户输入、获取环境信息、接收任务指令
  • 思考模块:任务规划、推理决策、问题求解、异常处理
  • 行动模块:调用工具、Skill、大模型执行具体操作
  • 记忆模块:存储对话历史、任务上下文、经验知识

核心特点:

  • 闭环控制,自主迭代
  • 轻量化设计,可独立运行
  • 状态本地化,低延迟响应
  • 可插拔设计,支持扩展能力

Skills的典型架构

Skill是高度模块化的,通常是无状态的函数式设计:

┌─────────────────────────────────────┐
│             输入校验层               │
│  (参数校验、格式转换、权限检查)       │
├─────────────────────────────────────┤
│             业务逻辑层               │
│  (核心功能实现、领域知识、算法模型)    │
├─────────────────────────────────────┤
│             输出格式化层             │
│  (结果处理、格式转换、错误封装)       │
└─────────────────────────────────────┘

核心特点:

  • 无状态设计,易于扩展和负载均衡
  • 输入输出标准化,调用简单
  • 专注单一功能,迭代速度快
  • 可独立测试和部署

2.2 能力边界对比

很多人搞不清什么时候该用MCP,什么时候该用Agent,什么时候该开发Skill。这里给你一个清晰的判断标准:

什么事情适合MCP做?

✅ 多Agent/多Skill协同的复杂任务✅ 需要全局资源调度和状态管理的任务✅ 需要跨系统对接和数据打通的任务✅ 需要统一权限控制和安全审计的任务✅ 高并发、高可用要求的生产级任务

❌ 不适合做具体的任务执行❌ 不适合处理领域专业问题❌ 不适合频繁变动的业务逻辑

什么事情适合Agent做?

✅ 需要多步推理和自主决策的任务✅ 需要上下文记忆和持续交互的任务✅ 需要组合多个工具/Skill完成的任务✅ 需要和用户动态沟通的任务

❌ 不适合做单一、高重复的功能(成本高)❌ 不适合对响应速度要求极高的场景❌ 不适合需要极高专业精度的领域任务

什么事情适合Skill做?

✅ 高复用性的通用功能✅ 专业领域的特定能力✅ 高并发、低延迟要求的功能✅ 输出结果标准化的任务

❌ 不适合做需要自主决策的任务❌ 不适合处理模糊、不确定的需求❌ 不适合需要上下文记忆的任务


2.3 适用场景对比

场景最佳方案为什么
企业级AI助手平台,支持多用户、多任务MCP + 多个Agent + 公共Skill库需要统一管理资源、调度任务、保障高可用
个人AI助理,帮你处理邮件、日程、待办Agent + 常用Skill集需要记忆用户偏好、自主规划任务、持续交互
自动数据分析工具,上传数据自动出报告Skill功能单一、标准化程度高、可复用
复杂项目管理,协调多个团队完成项目MCP + 多个专业Agent + 项目管理Skill需要全局调度、多角色协作、状态跟踪
法律合同审查工具,输入合同输出风险点Skill专业领域能力、标准化输出、可复用
智能客服系统,处理用户各种问题Agent + 知识库Skill + 工单Skill需要理解用户意图、自主解决问题、转人工
集团级AI中台,支持各个业务部门调用AI能力MCP + 业务Agent + 共享Skill库需要统一管控、资源复用、权限隔离
自动化测试Agent,自动测试软件功能Agent + 测试工具Skill需要规划测试用例、自主执行、分析结果

三、三者如何协作:搭建一个完整的AI系统

搞懂了单个概念,我们来看三者如何协作,搭建一个完整的AI应用。

3.1 经典协作模式:MCP调度 + Agent执行 + Skill实现

我用一个实际的案例来说明三者的协作流程,比如搭建一个智能内容生产平台

平台需求:

用户输入一个主题,自动生产一篇完整的公众号文章,包含选题、写作、配图、排版、预览全流程。

系统架构设计:

┌───────────────────────────────────────────────────────────┐
│                     MCP控制平面                            │
│  [任务调度] [工作流编排] [资源管理] [状态监控] [安全审计]      │
└─────────┬─────────────────────────────────────────────────┘
          │
          ▼
┌───────────────────────────────────────────────────────────┐
│                     Agent层                                │
│  [选题Agent] [写作Agent] [设计Agent] [排版Agent] [审核Agent]  │
└─────────┬─────────────────────────────────────────────────┘
          │
          ▼
┌───────────────────────────────────────────────────────────┐
│                     Skill层                                │
│  [搜索Skill] [写作Skill] [图片生成Skill] [排版Skill] [审核Skill]│
└───────────────────────────────────────────────────────────┘

完整协作流程:

  1. 用户发起请求:"帮我写一篇关于GPT-5.4的公众号文章,风格要生动,适合大众阅读"
  2. MCP接收任务
  • 解析任务需求:GPT-5.4主题、公众号文章、生动风格
  • 拆解工作流:选题→写作→配图→排版→审核→交付
  • 分配对应Agent:选题Agent→写作Agent→设计Agent→排版Agent→审核Agent
  • 初始化任务状态,开始执行
  1. 第一步:选题Agent执行
  • 目标:确定文章标题和大纲
  • 调用技能:搜索Skill(搜索GPT-5.4最新信息)、选题Skill(生成标题和大纲)
  • 输出:5个备选标题+完整文章大纲
  • 反馈给用户确认标题选择
  1. 用户确认后,MCP调度下一步
  • 把大纲传递给写作Agent
  • 要求风格生动,字数5000字左右
  1. 第二步:写作Agent执行
  • 目标:完成文章正文写作
  • 调用技能:写作Skill(生成正文)、数据验证Skill(核实事实准确性)
  • 输出:完整文章正文
  • 自动检查是否符合要求,不符合则重写
  1. MCP调度下一步
  • 把正文传递给设计Agent
  • 要求生成3张配图,风格符合科技类公众号
  1. 第三步:设计Agent执行
  • 目标:生成文章配图
  • 调用技能:图片生成Skill(根据内容生成配图)、图片优化Skill(压缩、调整尺寸)
  • 输出:3张符合要求的配图
  1. MCP调度下一步
  • 把正文和配图传递给排版Agent
  • 要求按照公众号风格排版,加入表情、分隔线、互动环节
  1. 第四步:排版Agent执行
  • 目标:完成文章排版
  • 调用技能:排版Skill(自动排版)、预览Skill(生成预览效果)
  • 输出:排版完成的文章+预览链接
  1. MCP调度最后一步
  • 把排版后的文章传递给审核Agent
  • 要求检查内容合规性、错别字、敏感信息
  1. 第五步:审核Agent执行
  • 目标:完成内容审核
  • 调用技能:审核Skill(合规检查)、校对Skill(错别字检查)
  • 输出:审核通过报告+修改建议(如果有)
  1. MCP整合最终结果
  • 把文章、配图、预览链接、审核报告一起返回给用户
  • 标记任务完成,归档相关数据

整个过程,用户只需要输入一个主题,确认一下标题,就能拿到一篇可以直接发布的公众号文章,全程不需要干预。

这就是三者协作的威力。


3.2 协作的核心原则

在设计AI系统时,三者协作需要遵循以下原则:

原则1:层级清晰,权责分明

  • MCP只做调度和管理,不做具体执行
  • Agent只做任务内的决策和协调,不重复造轮子开发通用功能
  • Skill只做专业功能实现,不涉及业务逻辑和决策

避免"越界",比如不要让Agent去做全局调度的工作,也不要让Skill去做推理决策的工作。

原则2:高内聚,低耦合

  • 每个组件只负责自己的事情,内部高内聚
  • 组件之间通过标准化接口对接,外部低耦合
  • 单个组件的升级替换不影响其他组件

比如你想把写作Skill从GPT-4换成GPT-5.4,只需要升级这个Skill就行,Agent和MCP都不需要改。

原则3:能力复用,避免重复建设

  • 通用的能力尽量做成Skill,供所有Agent调用
  • 同类任务尽量复用同一个Agent,不要重复开发
  • 全局能力统一由MCP提供,避免每个Agent都做一套

比如搜索功能,做成一个公共Skill,所有Agent都可以调用,不需要每个Agent都自己实现搜索能力。

原则4:容错设计,单点不崩

  • MCP需要高可用设计,避免单点故障
  • Agent执行失败时,MCP可以自动重试或者分配给其他Agent
  • Skill执行失败时,Agent可以选择重试或者调用其他替代Skill

整个系统要有容错能力,不能因为一个组件故障导致整个任务失败。


3.3 常见的架构错误

我见过很多团队在设计AI系统时犯这些错误,给你避避坑:

错误1:大而全的Agent

把所有能力都做到一个Agent里,导致Agent越来越臃肿,维护困难,性能越来越差。

✅ 正确做法:把通用能力抽成Skill,Agent只保留核心的思考和协调能力,轻量运行。

错误2:重复开发Skill

不同团队各自开发相同功能的Skill,浪费资源,而且质量参差不齐。

✅ 正确做法:建设公共Skill库,统一开发、统一维护、全公司复用。

错误3:没有MCP,直接用Agent串联

多个Agent之间直接调用,没有统一调度,导致状态混乱,出问题很难排查,也无法监控。

✅ 正确做法:引入MCP统一管理所有Agent和Skill,全局调度,状态集中管理。

错误4:把MCP做成了大杂烩

什么功能都往MCP里塞,导致MCP越来越重,迭代速度慢,扩展性差。

✅ 正确做法:MCP只做核心的调度和管理功能,业务能力下沉到Agent和Skill实现。

错误5:过度设计,杀鸡用牛刀

简单的任务也用完整的MCP+Agent+Skill架构,导致复杂度高,维护成本高,性能反而不好。

✅ 正确做法:根据场景选择合适的架构,简单任务直接用大模型+Skill就行,不需要上完整架构。


四、典型案例分析:看大厂怎么用

4.1 案例1:OpenAI的Assistants API架构

OpenAI在2023年推出的Assistants API,其实就是典型的MCP+Agent+Skill架构:

  • MCP层:OpenAI的后端服务,负责管理所有Assistant、线程、运行状态
  • Agent层:每个Assistant就是一个Agent,你可以给它配置指令、工具、文件
  • Skill层:内置的Code Interpreter、Retrieval、Function Calling就是官方提供的Skill,你也可以自己开发自定义Skill

使用流程和我们之前说的完全一致:

  1. 你创建一个Assistant(Agent),给它配置需要的Skill
  2. 你发起一个线程(任务),给它指令
  3. OpenAI的MCP负责调度这个Assistant去执行任务
  4. 执行过程中自动调用需要的Skill
  5. 你可以随时查询任务状态和结果

现在很多公司的AI应用都是基于这个架构搭建的。


4.2 案例2:GitHub Copilot X

GitHub Copilot X是微软的AI编程助手,它的架构也是类似的:

  • MCP层:微软的云服务,负责管理用户会话、调度资源、管理权限
  • Agent层:每个用户的编程助手就是一个Agent,了解用户的项目上下文、编码习惯
  • Skill层
  • 代码补全Skill
  • 代码解释Skill
  • Bug修复Skill
  • 测试生成Skill
  • 文档生成Skill

当你在VS Code里写代码时:

  1. Agent感知到你正在写的代码和上下文
  2. 自主判断你需要什么帮助
  3. 调用对应的Skill生成结果
  4. 把结果返回给你

这就是为什么Copilot X这么好用,因为它不是简单的代码生成,而是有Agent在理解你的意图,调用合适的Skill来帮你。


4.3 案例3:字节跳动的AI中台

字节跳动内部的AI中台,也是基于这个架构搭建的:

  • MCP层:集团统一的AI控制平面,管理所有大模型、Agent、Skill资源
  • Agent层:各个业务线开发自己的业务Agent,比如推荐Agent、审核Agent、创作Agent
  • Skill层:集团公共Skill库,包含内容理解、图像生成、语音识别、翻译等几百个Skill,所有业务线都可以调用

这套架构带来的好处是:

  • 新业务上线AI功能的速度从几个月缩短到几天
  • 避免重复开发,资源利用率提升了300%
  • 统一管控,安全合规有保障
  • 能力沉淀,越用越强大

这就是大厂为什么都在做AI中台,本质上就是搭建自己的MCP+Agent+Skill体系。


五、未来趋势与职业发展建议

5.1 技术发展趋势

趋势1:MCP会成为AI系统的标准配置

就像现在的微服务架构都有API网关、服务治理平台一样,未来的AI系统都会有MCP作为标准的控制层。

现在已经有很多公司在自研或者采购MCP产品,这个领域会出现几家头部厂商。

趋势2:Agent会成为AI应用的主要交互形态

未来的AI应用不再是现在这种一问一答的聊天模式,而是你给Agent一个目标,它自主完成。

比如你说"帮我安排一次去北京的出差",Agent就会自己查机票、订酒店、约会议、做行程单,全程不需要你操心。

趋势3:Skill生态会爆发式增长

就像现在的手机APP生态一样,未来会出现大量的第三方Skill,覆盖各个领域、各种功能。

开发者可以开发Skill上传到Skill市场,其他用户和Agent可以付费调用,这会催生一个新的开发者生态。

趋势4:三者的边界会逐渐模糊

  • MCP会内置一些通用Agent和Skill,降低使用门槛
  • Agent会自带一些常用的Skill,不需要额外配置
  • 复杂的Skill会内置小型Agent,具备一定的自主决策能力

但核心的分层理念不会变,只是产品形态会更加融合。

趋势5:多模态、多Agent协作会成为常态

未来的任务会越来越复杂,需要多个不同专长的Agent协作完成,MCP的调度能力会越来越重要。

比如做一个产品发布会,需要市场Agent、设计Agent、文案Agent、技术Agent、运营Agent一起协作才能完成。


5.2 给不同角色的职业建议

如果你是技术开发者

  • 后端开发者:重点学习MCP相关技术,分布式系统、调度引擎、工作流编排是核心能力
  • AI算法工程师:重点研究Agent技术,规划推理、记忆机制、工具调用是核心方向
  • 前端/全栈开发者:可以重点做Skill开发,垂直领域的Skill需求会爆发,而且门槛相对较低
  • 架构师:要理解三者的架构设计和协作模式,未来AI系统架构会成为架构师的必备能力

如果你是产品经理

  • 理解三者的能力边界,知道什么功能该用什么实现,不要提出不切实际的需求
  • 学会设计基于Agent的产品形态,未来的AI产品不再是功能列表,而是"给用户提供几个好用的Agent"
  • 重视Skill生态建设,好的Skill生态会成为产品的核心竞争力

如果你是创业者

  • To B方向:可以做垂直领域的MCP、行业Agent、专业Skill,比如法律MCP、医疗Agent、财务Skill,需求很明确
  • To C方向:可以做个人Agent产品,或者细分领域的Skill市场,比如设计Skill市场、办公Skill市场
  • 机会点:现在三个领域都还在早期,没有绝对的头部,机会很多

如果你是普通职场人

  • 至少要理解这三个概念,知道AI能做什么,不能做什么
  • 学会使用AI Agent来提升自己的工作效率,未来不会用Agent的人就像现在不会用电脑的人
  • 找到自己的核心竞争力,专注做AI做不好的事情,比如深度思考、创造力、人际沟通

5.3 给企业的落地建议

阶段1:从Skill建设开始

先不要着急上完整的MCP和Agent体系,先把最常用的通用能力做成Skill,比如搜索、文案生成、数据分析等,先让大家用起来,看到价值。

阶段2:试点Agent应用

在某个具体业务场景试点Agent应用,比如智能客服、自动化测试、内容生产,积累经验,培养团队能力。

阶段3:建设MCP平台

当Agent和Skill越来越多的时候,再建设统一的MCP平台,统一管理、调度、监控,形成完整的AI体系。

阶段4:建设开放生态

内部能力成熟后,可以考虑对外开放,让外部开发者也可以开发Skill,接入你的平台,形成生态。

不要上来就做全套大而全的系统,容易踩坑,循序渐进是最好的方式。


六、总结:搞懂这三个概念,抓住AI时代的红利

最后给大家总结一下:

  1. MCP是指挥中心,管全局、做调度,决定了AI系统的整体效率和稳定性
  2. Agent是执行者,会思考、能行动,决定了AI应用的体验和能力上限
  3. Skills是工具包,够专业、可复用,决定了具体功能的实现质量和成本

三者不是替代关系,而是协作关系,三者结合才能搭建出真正强大、高效、灵活的AI系统。

现在这个领域还在非常早期,就像2010年的移动互联网,2015年的云计算,到处都是机会。

不管你是开发者、产品经理、创业者还是普通职场人,现在搞懂这三个概念,提前布局,未来3年你一定会感谢现在的自己。

毕竟,任何时代的红利,都属于提前看懂趋势的人。


💬 互动话题

  1. 你理解MCP、Agent、Skills的区别了吗?
  2. 你的工作场景里,三者分别可以帮你做什么?
  3. 你觉得这三个方向哪个最有机会?

欢迎在评论区留言讨论,我会尽量回复每个问题~


关注公众号,回复「AI架构」获取《MCP-Agent-Skill架构落地手册》,包含详细的技术选型、架构设计、落地步骤。

原创不易,觉得有用的话欢迎点赞、在看、转发给你的朋友,让更多人看懂AI时代的核心概念~

本文作者:三产爱干活的小龙虾,10年技术老兵,AI连续创业者,专注分享AI落地实战经验。