标签 深度学习 下的文章

整理 | 华卫

 

“一圈又一圈的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许方向本身就站不住脚。”

 

近日,知名 AI 专家、认知科学家 Gary Marcus 在一场访谈中愤愤表示,“整个世界都在全力押注神经网络,还在这个我始终觉得毫无道理的理念上投入了巨资,但大语言模型根本无法带我们抵达 AGI 这一终极目标。”

 

这场对话由曾因成功预测 2008 年金融危机而闻名的传奇投资人、华尔街最具影响力人物之一 Steve Eisman 发起,他与 Marcus 共同探讨了当下 AI 进展的方方面面,包括商业路径、社区现状和未来方向等。Marcus 认为,大语言模型已经达到了收益递减的阶段。并且,他指出,现在 AI 领域根本没有技术壁垒了,所有 AI 企业的研发思路基本一致。

 

对于大量人才从大厂离职去办初创公司的现象,Marcus 直言道,“如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。”在他看来,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。

 

值得一提的是,他认为,OpenAI 最终会成为 AI 领域的 WeWork,这家公司原本计划以 500 亿美元的巅峰估值风光上市、却在一夕之间破产。“我觉得最终 OpenAI 可能会被微软这样的企业收购。OpenAI 每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。”

 

谈及各家模型的未来,Marcus 的预测是,“大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。当产品变成商品后,价格必然下跌。”

 

以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。

 

2 万亿美元押注 Transformer,根本“毫无道理”?

 

Steve Eisman:大家好,我是 Steve Eisman。今天我们请到了一位特别的嘉宾,他就是 Gary Marcus。他是大语言模型的坚定质疑者,而大语言模型正是整个 AI 领域的核心根基。接下来,Gary 会和我们分享他的观点,聊聊大语言模型到底是什么。

 

Gary Marcus:谢谢你的邀请,也感谢一两个月前你在 CNBC 对我的盛赞。

 

Steve Eisman:不客气,这都是你应得的。在正式开始之前,我的观众大多还不了解你,不如先和大家说说你的背景,让大家知道你在这个领域发表观点是完全有底气的。

 

Gary Marcus:我这辈子几乎都在研究智能相关的问题。我 10 岁学会编程后,就开始涉足 AI 领域了。我的职业生涯中,很大一部分精力都用在研究自然智能上,比如人类的智能、还有孩子是如何学习语言这类问题。我在 MIT 的博士论文围绕两个方向展开,一个是儿童的语言学习机制,另一个就是神经网络。神经网络是 AI 领域的一种特定研究方法,也被用于人类思维的建模,它的设计灵感可以说和大脑有一点松散的关联。这其实是个很巧妙的营销说法,会让人觉得它是完全基于大脑研究的,但事实并非如此,二者只是浅层关联。早年间神经网络就曾风靡一时,我在上世纪 90 年代就研究过这类模型,发现它们并不能很好地模拟人类的思维方式,但我还是投入了大量精力,想弄清楚它们的实际工作原理。

 

2012 年深度学习重新兴起时,我当时就觉得,这些东西我早就研究过了,和我博士论文里的内容高度相似。我在 2001 年写过一本名为《The Algebraic Mind》的书,在书里我其实就预判到了如今大语言模型出现的幻觉问题,还有一些推理层面的缺陷,这些都是我们今天要探讨的话题。所以当深度学习再次成为热点时,我一眼就看出了其中的诸多问题,对我来说这些问题都很熟悉。2012 年,我在《The New Yorker》上发表了一篇文章,标题是《Is Deep Learning a Revolution in Artificial Intelligence?》,我在文中写道:“深度学习确实很有意思,我很佩服 Jeff Hinton,他能长期坚持自己的研究方向。”

 

Steve Eisman:Jeff Hinton 是谁?

 

Gary Marcus:他是去年诺贝尔生理学或医学奖的得主,也是深度学习领域的核心奠基人之一。

 

Steve Eisman:原来如此。

 

Gary Marcus:他的一些学生,最近也开始认同我的观点了。Jeff Hinton 确实是这个领域的大人物,在神经网络一度无人问津的时期,是他一直坚守,这份坚持值得肯定。但当然,他的研究并非全无可议之处,我们这里就不细谈了。他让神经网络重获关注,而更值得你的听众了解的是,真正让这个领域迎来爆发的,是他的学生 Ilya Sutskever,或许还有另外几位研究者。他们找到了方法,能让这套研究了许久的系统落地应用。要知道,神经网络的研究最早能追溯到上世纪 40 年代,Jeff Hinton 也在上世纪 80 年代中期做出了不少重要贡献。而这些研究者发现,借助英伟达研发的图形处理器(GPU),就能实现神经网络的高效运行。

 

彼时的英伟达,生产 GPU 主要是为了满足电子游戏的需求。这些原本为游戏设计的 GPU,核心优势在于并行计算,简单来说,就是能同时处理多个计算任务,而非按顺序逐个完成。传统的中央处理器(CPU),运行软件程序时基本是逐行执行的,虽然现在的技术已经有了改进,但这仍是计算机科学入门课程里会教的基础原理。而 GPU 能把一个复杂问题拆解成无数个小任务,同时进行处理,它的设计初衷就是为了计算机图形处理。比如要渲染电子游戏的下一帧画面,如果逐行处理,耗时会非常久,而用 GPU 的话,能同时处理整个画面,一个子处理器负责一个像素点,以此类推。不得不说,GPU 在图形处理上的表现堪称完美,我偶尔也玩电子游戏,深知 GPU 的算力有多惊人。

 

Ilya Sutskever,还有另一位我一时想不起名字的论文合作者,他们证明了 GPU 是运行神经网络的绝佳载体,至于神经网络的具体定义和实际意义,我们之后可以再聊。他们的这一发现,让神经网络的运行实现了两大突破:一是速度大幅提升,二是能处理海量数据。在此之前,六十多年的神经网络研究做出的基本都是些玩具级的模型,而他们证明,借助 GPU 这项技术能真正实现规模化的实际应用,能在更大的维度上落地。可以说,我们如今看到的所有深度学习成果,都源于 2012 年的这次突破。

 

而在这一突破出现后,两件事接踵而至:《The New York Times》刊发了文章,盛赞深度学习的惊人潜力;第二天,我就在《The New Yorker》的博客上发表了文章。我在文中表示,深度学习固然出色,但也存在诸多问题,它注定会在一些领域表现优异,却在另一些领域束手无策。它擅长模式识别和统计分析,这一点毋庸置疑,但人类的认知活动中还有大量的抽象思维过程。比如我们能理解家谱的逻辑,进而对现实世界的相关问题进行推理,而深度学习模型永远无法擅长这类任务,它的架构本身就不适合做抽象推理。从早年对神经网络的研究以及对人类认知机制的研究中,我早就看清了这一点。你应该读过 Daniel Kahneman 的经典著作《Thinking, Fast and Slow》吧?

 

Steve Eisman:我读过。

 

Gary Marcus:Daniel Kahneman 在书中提出了双系统认知理论,他将人类的认知分为系统一和系统二。系统一的思考速度快,是无意识的、基于统计的、本能的反应;而系统二的思考速度更慢,更具思辨性,核心是逻辑推理。神经网络本质上就相当于人类的系统一,这本身没问题,系统一也是人类认知的重要组成部分,但人类的认知还有系统二的部分。尤其是在理性思考时,我们会依赖系统二,进行更审慎、更有逻辑的推理。而神经网络模型,从始至终都不擅长系统二的这类任务,直到现在依然如此。我在 2012 年就指出,深度学习模型只能实现系统一的功能,却无法完成系统二的思考。

 

而在这之后的 14 年里,整个世界都在全力押注神经网络。这里要说明的是,我们所说的神经网络,就是如今的大语言模型,大语言模型是神经网络的一种形式,抱歉,我之前没明确说明这一点。事实上,2012 年时大语言模型还未出现,后续又有不少技术突破,其中关键的就是 2017 年发表的 Transformer 论文,这也是大语言模型的起源。而全世界在这一领域的投资规模达到了天文数字,据我粗略估算,已经有 1 到 2 万亿美元了,全都投在了这个我始终认为毫无道理的理念上。这些研究者的想法是,只要持续发展神经网络,就能实现智能所需的一切能力,抵达 AGI 的目标,但他们却忽视了系统二的核心价值。

 

一开始,他们只是把神经网络当成一个巨大的黑箱,直到现在,还有很多人抱着这样的想法。他们觉得,只要把海量数据喂进去,就能得到一个拥有智能的系统,却从未从科学的角度深入思考过真正的智能究竟该具备怎样的架构。我认为这些人太过天真,我也一直试图指出这一点,这也让我成了这个领域里的“孤行者”。很长一段时间里,人们对我的观点不屑一顾,甚至不只是不屑,而是鄙夷。

 

Steve Eisman:没错,他们对你的态度远不止是不屑,而是赤裸裸的鄙夷。

 

Gary Marcus:我们还能举出很多这样的例子。我对他们的这种态度感到失望,这个话题我们可以聊很久。他们甚至对我公开表现出敌意,比如我了解到,OpenAI 内部还为我做了专属的表情包。

 

Steve Eisman:我也看到过这个消息。

 

Gary Marcus:某种程度上,这也算是一种认可吧,既觉得荣幸,又觉得有些离谱,你能看出来,我一直试图用平常心看待这件事。但这也能从侧面说明问题,Sam Altman 还在推特上称我为“喷子”。他们就是不想听我的观点,而我核心的观点,都写在了 2022 年发表的论文《Deep Learning is Hitting a Wall》里。我在这篇论文中指出,当时“规模化扩张”的理念已经开始流行,也就是通过不断投入更多数据、更多 GPU,把模型做得越来越大,他们认为只要模型足够大,就会拥有超乎想象的能力。

 

我先暂停一下,和大家解释下这个“规模化扩张”的理念。他们确实有一些数据能支撑这个观点,但这种想法依然太过天真。我把这种理念称作“万亿磅婴儿谬误”,道理很简单:一个婴儿出生时 8 磅重,一个月后长到 16 磅,并不意味着他会一直这样翻倍增长,到上大学时长成万亿磅的巨人。他们就是做出了这样天真的推断,我相信你在商业领域也经常见到这种情况。很多手握巨资的聪明人,都押注了这个理念,他们说,“我们从数据中看到了这样的发展规律,只要投入足够多的数据,就能实现真正的智能。”

 

“大模型不会思考,重构信息碎片致幻”

Steve Eisman:先稍停一下,我们倒回去说。大语言模型到底能做什么?这些研发者又认为它们本该实现什么功能?我真想把这个问题彻底讲清楚。

 

Gary Marcus:你这个问题问得特别好。大语言模型的核心工作原理,就是预测序列中的下一个内容。你可以想想苹果手机的自动校正功能,原理差不多,虽说那功能有时候能把我逼疯,你继续说。这个功能并非总能生效,核心逻辑就是你在输入句子时,它会预判接下来可能要打的内容。比如你打出“在……见我”,它大概率会推测你想说“在餐厅见我”。它会对人类的语言表达做统计分析,效果还算过得去,但绝非完美,偶尔还会出错,让人恼火,这就是我们说的自动补全。

 

而我把大语言模型称作“超级版自动补全工具”,它们只是用一种特殊的方式完成这种预测,这就是其最本质的功能。它们的运作方式里还有些有意思的点,其中一个就是会把所有信息拆解成细碎的片段,之后再重新整合,这就导致信息之间的关联会被切断。也正是因此,它们才会时不时出现幻觉现象,凭空编造内容。

 

Steve Eisman:我们稍后再细说幻觉这个问题。

 

Gary Marcus:好,回头再聊。幻觉是这类模型的典型错误之一,早在 2001 年,大语言模型甚至还没被发明出来的时候,我就指出过这个问题。我当时就说,如果一直沿着这个方向研究下去,必然会出现这个问题,而事实也确实如此。大语言模型把信息拆分成碎片,再通过这些碎片预测后续内容。如果用整个互联网的内容对它们进行训练和数据投喂,它们的表现会好得让人意外,因为几乎任何你能想到的问题,注意,这里的“几乎”是关键,几乎所有问题,此前都有人提出过,也有人给出过答案。从某种程度来说,这些模型就是功能强大的记忆机器。

 

就在前几天,《大西洋月刊》还刊发了相关的文章,而且一直以来都有大量证据能证明这一点。比如你输入《哈利·波特》的部分内容,它能直接补完整段文字,本质上就是因为它记住了这些内容。如果一个模型能记住整个互联网的信息,那确实算得上很厉害。比如你问“道奇队在搬到洛杉矶之前,主场在哪”,网上有大量相关表述,它会告诉你是布鲁克林,大概率能给出正确答案。但仅仅依靠这种方式,模型根本无法形成抽象的概念和思想,还会因为信息碎片的拆解和错误整合出现各种问题。

 

Steve Eisman:那我们现在聊聊幻觉吧。到底什么是 AI 幻觉?举个例子,再说说出现这种情况的原因。

 

Gary Marcus:幻觉就是模型凭空编造内容,还无比笃定地呈现出来,但这些内容根本不符合事实。

 

Steve Eisman:那给我们举个例子。

 

Gary Marcus:我最喜欢的一个例子和 Harry Shearer 有关,你可能听过他的名字,看过《摇滚万万岁》吗?

 

Steve Eisman:当然看过。

 

Gary Marcus:他在这部影片里饰演贝斯手,巧的是,他还是我的朋友。他出演了《摇滚万万岁》,还和 Christopher J. Guest 合作了多部影片,参演了《楚门的世界》,还为《辛普森一家》里的伯恩斯先生等多个角色配音,他的知名度还挺高的,这点对接下来的故事很重要。先倒回说个题外话,我之前遇到的最典型的幻觉案例,主角是我自己。有人发给我一份我的人物简介,里面说我养了一只叫 Henrietta 的宠物鸡,但我根本没养过,这就是个很典型的幻觉案例,纯粹是凭空编造的。后来发现,有位插画师大概叫 Gary Oswald,写过一本关于 Henrietta 去上学的书,模型不过是把这些碎片化的信息胡乱拼凑在了一起。

 

Steve Eisman:那为什么会出现这种幻觉呢?

 

Gary Marcus:这就和我刚才说的信息碎片化拆解有关了。我再给你讲讲 Harry Shearer 的那个例子。我总拿宠物鸡 Henrietta 的事举例,有一天他给我发消息,说他没遇到过宠物鸡这种事,却遇到了和自己相关的幻觉案例。他比我有名多了,至少以前是。我当时也算小有名气,而模型给出的信息里,说他是英国的配音演员和喜剧演员,但他根本不是英国人。你只要花两秒看一下维基百科,就会发现他出生在洛杉矶。他名气不小,你也能在烂番茄、互联网电影数据库上查到他的资料,他接受过很多采访,也聊过自己的成长经历,他小时候还在洛杉矶的《杰克·本尼秀》里当过童星,想找到正确的信息一点都不难。

 

我们会错误地把大语言模型当成和人类一样拥有智能的个体,但实际上,它们所做的只是重构信息碎片之间统计层面的大概率关联,所以难免会出错,这种重构过程也常会出现偏差。Harry Shearer 这个案例就是如此,模型其实就是在构建一个信息集群,用统计学的方式预测各类信息之间的关联。而现实中确实有很多英国的配音演员和喜剧演员,比如 Ricky Gervais、Don Cleeve 等等。模型就把这些信息混为一谈了,这种信息融合的方式整体来看效果还算不错,但你永远无法确定它给出的某一个具体信息是准确的,所以幻觉现象才会频繁出现。

 

有人专门追踪过相关的法律案件,发现律师提交的辩护状里,有很多引用的判例都是模型编造的,根本不存在。我第一次关注这件事时,他已经发现了约 300 起这样的案件,三个月后再看,数量涨到了 600 起。这些律师不仅用 ChatGPT 这类工具代写文书,还因此被法官发现,受到了处罚。模型会出错,而最危险的是,这些错误还很容易被忽略,人们根本发现不了。还有一个例子,CNET 是最早用 AI 写稿的媒体之一,他们首批用 AI 写的 75 篇文章里,有近一半都存在错误,编辑们却没发现。因为这些文章语法通顺、格式规范,也没有拼写错误,人们很容易就放松了警惕。

 

我把这种现象称作“看着没问题效应”。大语言模型带来的这种效应,还催生了一个新词汇,我真后悔不是我发明的,叫“低效工作产物”。这个词大概是去年由几位教授提出的,指的是人们用 AI 写报告、提交给雇主,表面上看没什么问题,实则漏洞百出,因为大语言模型根本不具备真正的理解能力。

 

Steve Eisman:你的意思是,大语言模型并不会思考。

 

Gary Marcus:它们确实不会思考,只是把统计学上大概率关联的内容拼凑在一起。

 

Steve Eisman:只是简单拼凑。

 

Gary Marcus:没错。我还喜欢用“黏合”这个词,它们只是把信息黏合在一起。从统计学角度来说,大部分内容的拼凑是合理的,但总有一部分是错误的,而这些模型根本无法区分对错,也不会主动告知你。它们永远不会说,“维基百科显示 Harry Shearer 出生在洛杉矶,但作为大语言模型,我感觉他可能出生在伦敦,你可以去核实一下”。它们从来不会给出这样的提示,只会把所有内容都当作百科全书里的标准答案呈现出来,无论真假,这也是这类模型的危险之处。

 

Steve Eisman:确实是这样。

 

Gary Marcus:这类问题其实有很多,这个案例属于另一种情况,但也和模型的本质缺陷有关。这个问题的根源在于,所有大语言模型都有数据截止日期,它们的训练都是在某个特定时间点完成的,核心模型所掌握的信息,也只到这个时间点为止。研发者会给它们加各种补救措施,比如接入网络搜索功能,但这些补救措施和核心模型的融合效果都很差,不同系统的表现略有差异而已。这类模型最大的问题就是无法应对新事物、新情况,也是它们最根本的缺陷。早在 1998 年,我就通过研究早早发现了这一点。如果一个模型本质上只是个功能强大的记忆机器,当你向它输入一个超出其训练数据范围的内容时,它就会失灵。

 

有个例子特别能说明问题,具体细节我不太清楚,但特斯拉的 AI 系统也大量采用了这种记忆式的运作方式,而且其系统的复杂程度并不高。有人用过特斯拉的召唤功能,你应该记得马斯克说过,未来可以从纽约远程召唤洛杉矶的特斯拉,但现在显然做不到,不过据说能在停车场里召唤车辆。有人在一场航空展上试过这个功能,你能在油管上找到相关视频。这个人召唤自己的特斯拉,想在航空展上秀一下,结果车子径直撞上了一架价值 350 万美元的私人飞机。

 

原因就是,特斯拉的训练数据里,根本没有教系统如何应对飞机,毕竟谁会专门训练汽车躲避飞机呢?系统对世界没有形成通用的认知,比如“不要撞上挡路的大型贵重物体”,它根本不懂这些,只会识别训练数据里的自行车、行人等目标,它的识别分类里根本没有“飞机”这一项,所以才会直接撞上去。

所有 AI 企业都变了:悄悄复用经典符号式工具

Steve Eisman:那你有没有了解到,随着这场争论的风向转变,各大企业内部现在的情况如何?

 

Gary Marcus:我了解到的情况主要有几点。首先,我一直都在说,单纯的大语言模型行不通,必须结合传统的符号式 AI 技术。但之前他们都对此嗤之以鼻,觉得这套技术早就过时了,没必要用,还说人脑的工作模式本就不是这样。而现在,他们都悄悄在一定程度上采用了这项技术,比如引入代码解释器来运行 Python 代码,这些都是经典的符号式工具。说白了,他们正在偷偷把系统二的相关能力融入模型中,只是没有大肆宣扬,但这一改变确实带来了不小的提升。

 

马斯克发布 Grok 4 时的演示就很能说明问题,我还为此写过一篇文章,标题是《为何 GPT-3 和 Grok 4 无意间印证了神经符号 AI 的正确性》。文章里放了当时的演示图表,能清晰看到,正是那些他们不愿提及的符号式工具的加入,让模型的表现变得更好。如今模型的些许提升,绝大部分都来自这个原因,而非单纯的大语言模型优化,他们其实已经悄悄放弃了纯大语言模型的研发思路。而这对你所关注的商业领域来说意义重大,因为这些符号式工具根本不需要在 GPU 上运行,普通的 CPU 就足够了。

 

Steve Eisman:原来如此。

 

Gary Marcus:对我而言,从技术角度来说,这印证了我一直以来倡导的研发思路是正确的。这是第一个变化。第二个变化是,各大企业的很多人都离职去创办自己的初创公司了。你可以想想,如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。

 

所以,大量人才离职的事实就说明,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。还有一个变化,就是谷歌正在迎头赶上。就像我几年前在 Substack 专栏里预测的那样,因为现在所有企业的研发思路基本一致,这个领域根本没有技术壁垒。

 

Steve Eisman:没错,完全没有技术壁垒。

 

Gary Marcus:你和其他一些人都认为,如果所有人都在做大语言模型的规模化扩张,那么最终的赢家就是最有实力承担这笔扩张成本的企业。而放眼整个行业,谁的资金实力能超过谷歌?根本没有。

 

Steve Eisman:确实。

 

Gary Marcus:我其实也表达过类似的观点,只是表述略有不同,你的这个说法其实也没错。我当时的观点是,行业头部企业会逐渐趋同,而随着大语言模型成为标准化商品,行业内会引发价格战,服务定价会大幅下降。事实也确实如此,现在大语言模型的按 token 计费价格,已经暴跌了 99%。价格战确实爆发了,而最终的受益者自然是谷歌,这一点我当初虽然没有直接点明,但也有所预判。我大概是在 2024 年 3 月,也可能是 2023 年 8 月开始写相关文章,当时就说,所有企业都在遵循同一种研发思路,没人掌握什么独门绝技,这就意味着头部企业的产品会越来越趋同。

 

大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。这一趋势带来的结果就是,谷歌迎头赶上了,中国的企业也追上来了,Anthropic 同样不甘落后。就像你说的,当产品变成商品后,价格必然下跌。这对终端消费者来说是好事,但对企业的商业模式来说却是巨大的打击。毕竟企业原本的设想是,花巨资采购 GPU,然后靠模型服务赚回巨额利润。

推理模型进行不了逻辑分析,再升级也没价值?

Steve Eisman:我们能不能聊聊推理模型?先给我的观众解释一下,推理模型和大语言模型有什么区别?推理模型是基于大语言模型研发的吗?

 

Gary Marcus:推理模型是在大语言模型的基础上运作的,但它不会像大语言模型那样直接给出第一个想到的答案,而是会反复迭代、花费时间去推敲,试图得出最优解。至于具体的研发细节,各家企业都没有公开太多。传统的神经网络模型,在某种意义上都是一次性输出结果的,当然现在行业内对“一次性”的定义有所不同。简单来说,就是把数据输入模型后,神经网络会立刻完成一次正向传播,粗略来讲,模型中的每个神经元都会处理信息并生成对应的结果。而推理模型则会进行多次传播,这是本质上的区别。

 

我有个朋友把传统模型的输出方式称为“恒时推理”,意思是模型生成答案的时间基本固定,无论什么问题,耗时都相差无几:把数据输入模式识别器,模型会根据现有的模式给出最优解。而推理模型采用的是全新的“变时推理”模式,我之后会聊聊它的适用场景和短板,这种模式的特点是,处理不同的问题,耗时会有所不同。目前还没有企业能完全解决推理模型的所有技术难题,但在一些场景下,它的表现确实不错。

 

据我了解,推理模型的研发思路之一,就是让模型模仿人类解决问题的思考过程,毕竟这些模型本质上都是模仿系统。比如在解决几何题或代数题时,模型会刻意模仿人类的解题步骤。人类解决这类问题需要一步步推导,融合了推理能力的神经网络模型,同样需要分步骤完成。

 

Steve Eisman:那推理模型的优势是什么?又有哪些明显的短板?

 

Gary Marcus:在回答这个问题之前,我想先提一点:推理模型的成本天生就更高,因为它需要占用 GPU 更长的时间来生成答案。

 

Steve Eisman:好的。

 

Gary Marcus:那我来说说它的适用场景和短板。推理模型最擅长的,是那些能生成形式规范、可验证的数据来训练模型的领域。比如数学和计算机编程,我们可以编写程序生成各种不同的代码片段来训练模型,也能生成各类几何证明题的解题思路。这类领域之所以适合推理模型,是因为它们都属于封闭领域,相关的知识边界是明确的。

 

Steve Eisman:没错,数据库中的知识量和相关的有效知识量都是有限的。

 

Gary Marcus:对,就是这个意思。所以推理模型在几何、编程这类领域的表现最好,而在开放式的现实世界中,它的表现就差强人意了。我总会从你所熟悉的金融领域举例子,当然你肯定有更贴切的案例,比如长期资本管理公司的破产。其实那也是一种模型失效的情况,只是模型的原理不同,当时没人考虑到俄罗斯债券市场崩盘的可能性,最终导致美国金融市场出现了大幅动荡。这是因为当时的金融模型,其参数设定根本没有覆盖这类极端情况。

 

而现在的推理模型,也面临着类似的问题:它其实并不具备真正的思考能力,哪怕是关于债券的基本问题,它也无法进行真正的逻辑分析。如果用它处理的问题,和训练数据中的内容高度相似,那一切都顺理成章;但一旦超出了它的认知范围,就像我们之前聊到的特斯拉的例子,模型就会立刻失效。

 

Steve Eisman:也就是它依然无法应对新事物、新情况。

 

Gary Marcus:没错,即便升级到了新的推理模型,核心问题依然是无法处理未知信息。它只是在原有基础上做了些许改进,但本质上还是受限于对新事物的适配能力。而关键问题在于,现实世界中,大多数有价值的问题都包含着一定的新要素、新情况,并非全是已知的问题。当然,也有例外,我们确实可以用这种不擅长处理新事物的技术,在一些狭窄的领域做出成绩,比如国际象棋和围棋。这些领域的规则千百年间基本没有太大变化,有海量的历史数据可供参考,模型还能通过自我对弈生成更多训练数据。

 

但在开放式的现实世界中,比如政治、军事战略领域,永远会出现训练数据中没有的新情况。比如,如何应对一位总统授意将军用飞机伪装成民用飞机,去袭击另一个国家的行为?这种情况此前从未发生过,想要分析这类问题,根本无法依靠过往的数据,必须依靠抽象的概念思考,比如权力、外交规则、国际格局的构建逻辑等,这些都是相关领域的学者更擅长的内容。要做到这一点,模型需要接受正确的训练,具备抽象思维能力,而不是单纯依赖数据。即便是在商业应用中,比如看似简单的客户服务,也会遇到类似的问题:用户总会用全新的方式提出问题,而一旦出现这种情况,模型就会因为无法应对新情况而失效。

OpenAI 只够支撑一年,要么倒闭、要么求救微软?

Steve Eisman:假设我任命你为 AI 领域的总负责人,由你掌控所有相关企业,指导整个行业的研发方向。如果你把这些企业的负责人都召集到一起,你会告诉他们,想要实现真正的突破,需要做些什么?

 

Gary Marcus:我会告诉他们,整个行业需要更多的学术思维多样性。就像在你的金融领域,你会告诉人们不要把所有鸡蛋放在一个篮子里,要做资产配置,分散投资股票、债券、黄金、房地产等。而 AI 领域在过去这些年,就是把所有的精力都押在了一个思路上,大语言模型的规模化扩张,这是行业唯一的研发方向。不可否认,这个思路确实带来了一些成果,模型并非毫无用处,我们也确实能利用它解决一些问题,但它终究无法带我们实现所谓的通用人工智能(AGI)这一终极目标,而且这还是一种成本极高、效率极低的研发方式。你可以对比一下,我的孩子只需要少量的信息和学习,就能理解这个世界,而大语言模型却需要学习整个互联网的海量数据,二者的效率差距简直可笑。

 

这些企业花费巨资,做出的却是效率低下、可靠性堪忧,但又有一定使用价值的模型。我们需要的是其他更高效、更经济、更可靠的研发思路,企业应该投入资金去探索这些新方向。但问题的根源,其实也来自你所熟悉的金融领域:风险投资家能从那些听起来合理的投资项目中,赚取 2%的管理费。我很好奇你对这个观点的看法,因为这毕竟是你的专业领域。试想一下,作为风险投资家,如果有一个项目能让你管理一万亿美元的资金,哪怕你根本不在乎项目最终的结果,也能赚到 2%的管理费,这足以让你成为亿万富翁。我并不是说所有的风险投资家都是这样想的,我见过很多投资人,他们确实真心想推动技术进步。

 

但就像任何行业一样,很多投资人都带着功利的心态。对这些功利的投资人来说,最理想的投资标的,就是那些听起来前景广阔、无需真正落地、成本极高的项目,这样他们就能赚取巨额的管理费。我认为,这就是整个行业都沉迷于规模化扩张的原因:投资人能从中赚取不菲的管理费,而且数额极其可观。但从学术研究的角度来说,这绝不是正确的选择,最终也没有带来理想的结果,反而造成了巨额的资金浪费。风险投资家赚走了管理费,而那些有限合伙人,最终会损失大量的资金。

 

Steve Eisman:你是不是觉得,这个行业的泡沫快要破裂了,还是说现在根本没法判断?

 

Gary Marcus:其实炒股的那句老话你我都懂,市场保持非理性的时间,可能比你保持偿付能力的时间还要长。

 

Steve Eisman:没错。

 

Gary Marcus:我去年用一个比喻形容当下的情况,就像《兔八哥》里的歪心狼跑到了悬崖边,它不往下看,就不会掉下去。当然这不符合物理规律,但很有意思。而现在,你所在的投资圈里,已经有人开始往下看了。我觉得从去年 11 月开始,就不断有投资人说,他们看到了一圈又一圈的的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许这个赛道本身就不靠谱。我个人觉得,英伟达的产品做得非常出色,生态体系也很完善,不只是芯片本身,配套的软件等方方面面都很好。我见过黄仁勋,他给我留下了很深的印象,英伟达的产品确实很棒。

 

但问题的关键是,他们最终能卖出多少芯片?我认为,目前的芯片销售全靠市场投机,大家都在赌,我稍后再说说其他人的看法。所有人都在投机,认为这类芯片的需求会无限大,而这种投机的底层逻辑,是相信这些 AI 模型最终能实现 AGI。真正的 AGI 能完成人类能做的所有事,其商业价值不可估量,每年创造数万亿美元的价值都有可能。但《华盛顿邮报》几天前报道了一项一个月前完成的研究,研究显示,人类日常的工作中,只有 2.5%的工作能真正由 AI 系统完成。所以人们幻想中 AI 能完成的大部分工作,其实它都做不到,也根本做不好。这就意味着,最终所有在芯片上的投资,都会变得毫无意义。

 

而在这些企业里,OpenAI 可能是最脆弱的那个。OpenAI 有超过一万亿美元的未兑现承诺,却从未实现过盈利,如今又身处一个产品高度同质化的市场。它最大的竞争对手谷歌已经迎头赶上,甚至可以说实现了反超,还拿下了和苹果的合作大单,这可是笔大生意。所以我觉得 OpenAI 现在已经手忙脚乱了,实在看不出它的估值有任何合理性。

 

Steve Eisman:对我所在的投资圈来说,如果投资人开始从 OpenAI 撤资,而它又融不到新的资金,那会给整个生态系统带来连锁反应。

 

Gary Marcus:没错,这正是我认为即将发生的事。我觉得最终 OpenAI 可能会被微软这样的企业收购。我这几年一直说,OpenAI 最终会成为 AI 领域的 WeWork。未来人们都会疑惑,它当初怎么会有那么高的估值,这完全不合逻辑。OpenAI 的年收入只有几十亿美元,却每个月亏损数十亿美元,还有众多竞争对手,这样的企业根本撑不下去。如果投资人撤资,或者不再继续注资,OpenAI 就会陷入巨大的危机。它每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。

 

Steve Eisman:没错,也就一年的时间。

 

Gary Marcus:而且现在很多人都在持观望态度,他们会觉得,谷歌才是更适合这场竞争的玩家,毕竟谷歌已经追上来了。如果这场竞争只拼规模,那赢家必然是谷歌,这是毋庸置疑的。谷歌有能力做出巨额投入,甚至根本不需要英伟达的芯片,因为他们自研了张量处理单元,能实现类似的功能,所以谷歌的抗风险能力更强。他们有稳定的财务支撑,最终一定会赢。

 

Steve Eisman:没错。

 

Gary Marcus:只要有一部分人意识到,OpenAI 想要活下去,需要的资金量是天文数字,它的处境就会变得岌岌可危。它下一轮可能需要 1000 亿美元的融资,而全世界能拿出这么多钱的人,可能也就五个。就算其中四个愿意投资,只要有一个拒绝,就会出问题;而如果五个都拒绝,它要么倒闭,要么只能去找微软求救。

“脱离世界模型做 AI,根本行不通”

Steve Eisman:Gary,在我们结束访谈前,还有什么我该问却没问的问题吗?

 

Gary Marcus:我觉得这次访谈特别棒。要说还有什么重要的点没聊到,那应该就是“世界模型”这个概念。

 

Steve Eisman:没错,我本来也想聊这个。你一直说我们需要构建世界模型,这个概念完全超出了我的专业领域,不如你给大家解释一下,到底什么是世界模型?

 

Gary Marcus:不同的人对世界模型有不同的定义,简单来说,它就是在计算机系统中,构建一个能表征外部现实世界的体系。我说说我认为我们需要的世界模型是什么样的:软件内部需要有一个结构,能对应现实世界中的各种事物。比如导航系统的世界模型,需要能表征道路的分布、连接方式,以及不同路段的通行时间。在传统的 AI 领域,世界模型是研发的起点,所有的研究都基于此,没人会想过脱离世界模型做研发。Herbert Alexander Simon 是上世纪 50 年代 AI 的奠基人之一,他写过一本自传叫《Models of My Life》,他一生都在研究各类模型和世界模型,并且认为,做好 AI 的关键就是构建正确的世界模型。

 

而大语言模型却试图脱离世界模型运作。构建一个针对特定事物的世界模型,尤其是复杂事物,需要付出巨大的努力。比如过去研发专家系统时,研究者需要构建能模拟医生思考方式的模型,能表征病人身体机能、生理结构的模型,这个过程非常繁琐。当时还有一个专门的领域叫知识工程,做这项工作成本极高,没人愿意做。大语言模型和其他类型的神经网络出现后,研发者宣称,不用再做这些繁琐的工作,只需要让系统从数据中自主学习就行。

 

但事实证明,这根本行不通。就像大语言模型会把出生在洛杉矶的 Harry Shearer 说成是伦敦人,原因就是它没有一个完善的世界模型,无法像设计精良的软件那样,精准调取正确的信息。所以我们必须在 AI 系统中融入世界模型,才能避免幻觉现象的发生。

 

Steve Eisman:我还是不太理解世界模型到底是什么。

 

Gary Marcus:用非专业的语言解释确实有难度,简单说,它就是对世界的一种表征,而且这个“世界”不一定是现实世界。比如我们对《星际迷航》《星球大战》《哈利·波特》这些虚构世界,也会有对应的世界模型。这也是人类和当前 AI 系统最本质的区别:当我们看一部电影、读一本书时,会在脑海中构建出这个世界的运行规则,并且能判断情节是否符合这个世界的逻辑,会不会有不合理的设定。比如看了《哈利·波特》,我们会知道里面的人能骑着扫帚飞,但不会把这个设定和现实世界混淆,不会回家后跳上扫帚就想从窗户飞出去。

 

人类能快速构建并同时掌握多个世界模型,就算看一部新的科幻剧,20 分钟左右就能理解这个全新世界的规则,这是人类的天赋。但在 AI 领域,无论是传统的符号式 AI,还是现在的大语言模型,都做不到这一点。传统 AI 的优势是可以人工构建世界模型,你可以雇一群学者花六周时间,把一个问题的相关规则梳理清楚,构建成模型。最近离世的顶级研究者 Doug Lenat 就做过这样的研究,他为《罗密欧与朱丽叶》构建了世界模型,他的系统能真正理解这部剧的关键情节,而非从网上的读书笔记中获取二手信息,表现非常惊艳。但问题是,我们不知道该如何让传统 AI 自主学习、构建世界模型。而大语言模型则完全做不到构建世界模型,只是在假装自己能做到。

 

我有个很经典的例子,就算用整个互联网的内容训练大语言模型,让它接触海量的国际象棋规则和对局记录,它依然会走出违规的棋步,因为它从未真正抽象出国际象棋的运行逻辑。这一点就足以说明问题了。试想一下,一个人看了一百万盘象棋对局,读了维基百科、象棋网站上的所有规则,还看了 Robert James Fischer 的象棋著作,不可能连基本的棋规都掌握不了,但 AI 就是做不到。

 

所以我们需要研发能自主归纳出世界模型的 AI 系统,这类系统能从数据中挖掘因果规律,识别其中的核心要素。这是一个难题,不是说有人明天回家鼓捣一下就能解决的。长期以来,无论是传统 AI 还是大语言模型,都在回避这个问题,而现在,我们必须直面它。

 

Steve Eisman:看来这需要很长的时间来研究。

 

Gary Marcus:确实需要很久。我想说的是,AI 确实会以我们难以想象的方式改变世界,但绝不是现在,靠当下的这项技术根本做不到。我们需要把这一点考虑进去,做出合理的投资决策。现在的问题是,我们到底是在投资基础研究,还是在为一项已经成熟的技术做规模化投入?答案显然是后者。而当下的市场,大多是在投机,赌那些目前行不通的技术,只要做得更大,就能凭空实现突破。

 

但事实上,单纯的规模化根本解决不了这些核心问题,我们真正需要的是扎实的基础研究。这是我过去五年一直强调的观点,也是 SSG 在去年 11 月提出的观点,而 Ilya Sutskever 也表达了类似的看法。当我们这些背景截然不同的人,都达成了这样的共识,行业内的人其实应该认真听一听。

 

参考链接:

https://www.youtube.com/watch?v=aI7XknJJC5Q

纯数据驱动的深度学习体系逐渐暴露其底层认知的短板,这种仅依靠海量样本拟合的学习模式,在面对三维空间的物理规律时,往往陷入“表面拟合易,本质认知难”的困境,甚至在无约束场景中出现空间结构错乱、语义与三维形态脱节的问题,让3D视觉的落地始终卡在“精度不足、鲁棒性弱、可解释性差”的瓶颈。而几何先验作为刻画三维世界物理空间逻辑的天然底层框架,其与深度学习的深度融合,并非简单的规则叠加或外部约束植入,而是让深度学习在数据学习的过程中,获得贴合物理世界的空间认知能力,让机器从“被动拟合数据特征”转向“主动理解空间规律”。这种融合模式正在重塑3D视觉的技术内核,从自动驾驶的环境三维感知,到工业领域的精密部件三维检测,再到虚拟现实的沉浸式场景生成,甚至是机器人的空间精准操作,几何先验都在为深度学习注入可信赖的空间逻辑,消解那些因脱离物理规律而产生的重建伪影、视角合成边界破碎、长序列场景语义漂移等行业痛点,推动3D视觉技术从“形似”的视觉复刻,走向“神合”的空间认知,真正实现技术与实际场景的深度适配,这也是当下3D视觉领域突破发展瓶颈的核心方向,更是从实验室技术走向产业落地的关键抓手。

几何先验与深度学习的有效融合,首要突破的是传统几何规则“静态、刚性”的应用局限,完成从“固定规则植入”到“动态适配学习”的核心转化,而这一过程的关键,是提炼出适配深度学习体系的“轻量型几何因子”,这也是在开发实践中反复验证的核心思路。所谓轻量型几何因子,是从传统几何理论和三维成像原理中,剥离冗余的计算逻辑和非核心规则,保留能够刻画空间本质的核心逻辑,比如从相机成像的透视原理中萃取跨视图的空间对应关系,从刚体运动规律中提炼关键点的拓扑结构约束,从场景的物理特性中抽象出空间平滑与连续性规则,这些因子无需复杂的计算支撑,却能精准锚定三维空间的核心逻辑。在实际操作中,借助预训练的三维基础模型生成的高密度点云图,可作为直接的空间坐标几何标尺,为3D重建类任务提供基础的空间参考,这种方式无需对原有深度学习网络架构进行大幅修改,仅通过高效的空间对齐算法,将模型的预测结果与先验点云进行空间校准,即可在训练过程中通过损失反馈,惩罚那些偏离物理空间规律的预测偏差,实现轻量且高效的约束。而针对机器人感知、端侧3D视觉检测等轻量化部署的场景,几何先验的融入则采用隐式注入的方式,将三维结构信息转化为可被网络识别的特征token,再通过跨注意力模块与二维视觉特征进行深度融合,这种方式既规避了额外传感器部署带来的成本和算力负担,又能让模型在学习过程中自然习得空间深度与布局关系,实现性能提升与部署效率的双重平衡,这也是轻量型几何因子在不同场景下的灵活应用思路。

深度学习并非单纯的被几何先验赋能,其强大的特征挖掘与动态建模能力,正在对传统几何先验形成反向赋能,两者形成“双向校准、相互增益”的良性循环,这也是在实践中发现的融合体系的核心价值。传统几何先验存在天然的覆盖盲区,比如面对非刚性形变的动态场景,人体姿态的实时变化、柔性物体的形态扭曲等,固定的几何规则难以对这些高频动态细节进行精准刻画,而深度学习能够从海量的动态数据中挖掘出隐性的运动关联和形变规律,以此动态修正几何先验的适用边界,让原本静态的几何约束能够随场景变化进行自适应调整,让几何先验在保持核心空间逻辑的同时,具备应对复杂动态场景的能力。在长序列3D场景生成任务中,这种反向赋能的表现更为明显,通过构建分层的语义概念关系图谱,将几何先验的空间约束与场景的语义关联进行深度绑定,深度学习能够根据场景的生成进度,动态细化先验图谱的约束维度,在保证物体空间位置、相对尺度等几何属性连贯性的同时,支持场景内容的多样化扩展,有效避免了单纯依赖几何先验导致的场景生成单调、缺乏多样性的问题。更重要的是,深度学习具备强大的特征整合能力,能够将分散的多维度几何先验进行结构化整合,比如将空间距离约束、多视角一致性约束、物体拓扑关系约束等独立的几何先验,转化为统一的特征表达并融入深度学习的特征层,让模型在面对遮挡、光照剧烈变化、场景结构复杂等干扰因素时,能够协同调用不同维度的几何先验知识,形成多维度的空间约束,大幅提升模型在复杂实际场景中的鲁棒性。

几何先验与深度学习的融合必须立足具体的3D视觉任务场景,进行靶向化的融合路径设计,让两者在特定任务中形成精准的协同作用,这是保证融合效果具备实用价值的核心原则,也是在多个实际开发场景中验证的有效思路。在动态3D重建任务中,核心的融合逻辑是用几何先验锁定场景的全局结构稳定性,用深度学习捕捉局部的动态细节与精细纹理,具体来说,就是通过提取物体关键特征点间的相对位置几何约束,为模型划定运动的时空一致性边界,避免重建结果出现物体结构断裂、运动轨迹抖动等问题,同时利用深度学习对高频信号的精准建模能力,还原快速运动过程中物体的精细纹理变化和微小形态改变,两者通过定制化的损失函数进行深度绑定,让损失反馈既包含几何结构的偏差,也涵盖视觉细节的误差,最终让重建结果既符合物理空间的几何逻辑,又具备高保真的视觉效果。在机器人精细操作的3D感知场景中,融合的核心是将几何先验转化为机器人的空间决策依据,从多视角图像中提取的三维结构先验,能够帮助模型精准判断操作对象的空间姿态、实际尺寸与相对位置,再结合对语言指令的语义解析,让机器人在抓取、插孔、装配等精密操作中获得毫米级的空间判断精度,这种融合方式避开了传统显式深度估计的误差累积问题,让机器人在非结构化的真实环境中,依然能保持稳定的操作精度。在新视角合成任务中,针对行业普遍存在的物体边界破碎、空间透视失真问题,引入场景级的几何先验对模型生成的三维点云进行正则化处理,通过计算预测点云与先验点云的空间差异,形成针对性的梯度反馈,引导模型生成规整、连续的物体边缘,同时保留深度学习模型在视角生成上的多样性优势,最终实现几何空间的准确性与视觉视角的多样性的统一。

在几何先验与深度学习的融合过程中,最核心的技术难点在于平衡几何先验的约束强度与深度学习的灵活适配性,两者的平衡一旦被打破,要么会因几何约束过强导致模型的泛化能力大幅下降,无法应对未见过的复杂场景,要么会因几何约束过弱而无法发挥其校准作用,让模型重回无约束的拟合困境,而突破这一难点,需要跳出传统的固定约束思维,构建创新的融合调节机制。在开发实践中,解决这一矛盾的核心思路是构建“动态权重调节机制”,让模型能够根据实际场景的复杂度自主调整几何先验的约束影响力,具体来说,就是让模型在训练过程中习得场景复杂度的判断能力,通过提取场景中的遮挡率、物体形变程度、空间结构复杂度等特征,作为调节几何先验权重的依据,在结构清晰、遮挡较少、形变简单的常规场景中,强化几何先验的约束作用,保证模型的预测结果符合几何逻辑,在遮挡严重、非刚性形变复杂、空间结构混乱的特殊场景中,主动弱化几何先验的约束,释放深度学习的灵活适配能力,让模型能够自主挖掘场景的特征规律,这种动态调节让模型具备了自主判断、自主适配的能力,真正实现了约束与灵活的动态平衡。同时,端侧设备的轻量化部署需求,也推动几何先验向“神经化表达”的方向演进,具体就是将传统的几何规则转化为可学习的网络模块,让几何先验保留物理内核的同时,具备与深度学习体系无缝融合的特性,这种神经化的几何先验模块,能够根据端侧的算力情况进行灵活的轻量化裁剪,既保证了几何约束的有效性,又符合端侧部署的效率要求,让融合技术能够适配更多的终端应用场景。此外,语义与几何的协同融合也是突破平衡难题的重要方向,将物体类别、场景层级、空间交互关系等语义信息与几何先验进行深度结合,构建“语义-几何双轮驱动”的学习框架,让模型不仅能通过几何先验“看清”三维空间的结构,更能通过语义信息“理解”三维空间的关系,这种融合方式让几何约束的施加更具针对性,避免了无差别的刚性约束,从底层实现了约束强度与适配性的平衡。

几何先验与深度学习的融合发展,正朝着“深度共生、边界消融”的核心方向演进,两者不再是相互独立的体系,而是逐渐融合为一个统一的三维空间认知体系,这是3D视觉技术未来发展的底层逻辑,也是从开发实践中提炼出的技术演进趋势。在这种深度共生的模式下,几何先验不再是作为外部规则被植入深度学习模型,而是通过持续的端到端训练和场景适配,内化为模型的“本能空间认知”,让模型在面对新的3D视觉任务时,能够自主遵循物理空间的几何规律,无需额外的约束设计;而深度学习也不再是盲目的数据拟合,而是具备了物理逻辑的“理性学习”,其特征挖掘和模型预测始终围绕三维空间的物理本质展开,从根本上提升了模型的可解释性和可靠性。跨模态融合的技术发展,更为这种深度共生提供了更多的可能性,比如将视觉几何先验与触觉、听觉、力觉等多模态信息进行深度结合,让机器人的空间感知不再局限于视觉维度,而是形成多维度的空间认知,大幅提升其在复杂环境中的操作能力;在通用3D理解任务中,构建可迁移的几何先验库成为重要的发展方向,通过元学习的方式,让模型能够快速将先验库中的几何知识适配到不同的3D视觉场景中,实现几何先验的“跨场景复用”与“随数据动态更新”的统一,大幅提升模型的场景适配效率。

手把手教你进行论文复现,小白也能学会,赶紧收藏

复现,是你迈入“真科研”的第一步。
你是不是常常看见学术圈或技术论坛中大家提到“论文复现”这个词,却不太明白它的含义?
别急!这篇超详细的实操指南,从“是什么” 到 “怎么做”,再到 “避坑技巧”,手把手带小白走完第一次论文复现,赶紧收藏起来慢慢看~

什么是“复现”?

复现≠复制粘贴!它是用原作者公开的技术细节、实验步骤、代码仓库和数据集,自己动手重新实现,验证论文结果是否可重复的过程。
简单说,就是跟着论文的“说明书”,亲自跑一遍实验,既能吃透论文核心逻辑,又能练编程、调参技能,还能检验研究成果的可靠性,毕竟学术研究的本质就是“可验证、可推广”。

为什么要做论文复现?

1. 深入理解核心技术

复现的最大好处是能够从理论层面走向实践。光看论文中的理论、公式和结果可能无法完全理解其背后的实现细节,而亲自动手复现,可以让你更好地理解技术原理。

2. 检验研究成果的可靠性

论文中的研究结果,未必在其他环境下也能复现,尤其是涉及到数据集和模型训练等因素时。通过复现,我们可以验证这些结果是否具有普适性。

3. 累积实战经验

复现过程是一个实战的过程,尤其是在深度学习和机器学习、大模型领域,实验中的调参、数据处理、模型选择等都会是你宝贵的经验。对科研人员来说,复现一些经典论文是最直接的学习方式。

手把手教你做第一个复现项目

复现论文并不是一件容易的事,但只要你掌握了方法,逐步进行,也能顺利完成。接下来我们以《PhotoDoodle: Learning Artistic Image Editing from Few-Shot Examples》这篇论文为例,借助大模型实验室Lab4AI平台,带你从头开始复现

Step 1 找到合适的论文和代码

复现的第一步是找到值得复现且能复现的论文和代码。大多数论文会将其代码发布在GitHub或其他平台上,因此你需要阅读论文,并且找到代码仓库的链接,链接通常附加在论文末尾或摘要部分。找到论文提供的GitHub开源代码后,你需要查看项目中是否有清晰的README文件,介绍如何配置环境、安装依赖、运行代码等。

这里分享5个筛选项目的关键技巧,总结为“三查”核心原则:查信息完整性、查代码一致性、查资源可行性,帮你快速避坑:

  • 完整信息性:优先选择开源项目,尤其是原作者主动公开代码仓库、数据集,这种项目复现难度较低。同时,选择项目时优先关注项目活跃度、检查Star数、Fork数、更新频率、issue解决率等。一般情况下数值越高,说明社区认可度高、维护更及时,遇到问题更容易找到解决方案;
  • 代码一致性:检查代码和论文的实现是否一致。如果有问题,可以参考GitHub上的Issues查看是否有人遇到类似问题。
  • 资源可行性:检查项目是否提供完整依赖清单、数据集及模型下载链接。如果作者未提供,你可能需要额外花费大量时间寻找适配资源。


在《PhotoDoodle》这篇论文中,GitHub上的代码仓库包含了与艺术图像编辑相关的实现,README有详细的项目介绍,包括了从少量样本中学习艺术风格的代码。需要重点关注以下几个部分:

  • 项目概述:了解这篇论文的核心思想,确认复现的目标。
  • 环境配置:确认环境依赖是否满足你的系统,查看Python、CUDA和其他必需库的版本。
  • 训练与推理代码:观察代码是否完整,并分析如何通过代码进行图像编辑任务,特别是如何加载预训练模型、微调模型、以及如何用少量图像进行训练。

Step 2 配置环境并安装依赖

本次我们选用大模型实验室Lab4AI来进行复现,平台提供灵活计费的H卡算力,闲时使用更优惠。您也可以使用本地资源或者实验室资源,进行本次复现

打开大模型实验室Lab4AI,登录大模型实验室Lab4AI平台。点击右侧“新建实例”,新建前建议先查看“GitHub项目的文档”的环境配置说明。

Step 3 下载代码

新建实例后,先下载论文代码,推荐4种常用方式:

  • 第一种:通过HTTPS方式。通过网页URL链接克隆,无需额外配置密钥,是最常用的方式;
  • 第二种:通过SSH方式。通过SSH密钥认证克隆,需通过SSH密钥认证克隆提前在GitHub账号绑定本地SSH密钥,更安全且无需重复输入密码;
  • 第三种:通过GitHub CLI方式。通过GitHub官方命令行工具克隆,需先安装并登录该工具,适合习惯命令行操作的用户;
  • 第四种:直接下载项目压缩包,不需要Git工具即可获取代码。

Step 4 配置环境

环境配置是复现的“重头戏”,按以下步骤操作,少踩 90% 的坑:

(1) 创建独立虚拟环境,这样能够避免依赖冲突:

conda create -n doodle python=3.11.10
# 创建环境

conda activate doodle
# 激活环境

(2) 安装PyTorch与项目依赖

使用 cd 命令进入代码所在文件夹,再分两步安装。根据GitHub说明,通过pip安装所需的PyTorch及所有依赖。如果网络环境受限,可以选择国内的镜像源(如清华镜像)来加速下载:

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install --upgrade -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

Step 5 执行推理

由于这个项目的README.md文件先介绍的如何推理,再介绍了如何训练。所以,我们先执行推理,看一下推理效果。

(1) 准备工作:

① 由于CPU无法满足推理算力需求,所以需要重启Lab4AI实例并选择1卡GPU;

②在终端执行conda activate doodle激活之前创建的Conda 环境,再通过cd 路径命令进入 PhotoDoodle 代码目录。

(2) 运行推理代码:

python inference.py

(3) 常见问题解决:

运行代码时出现一些依赖冲突与缺失的问题

  • “安装的 diffusers 版本过低”
  • huggingface-hub 版本过高,与其他不兼容”
  • “缺少PEFT库”
  • “安装的PEFT库版本过高与transformers库的版本不兼容”
    等等……


遇到这些问题时,最好的方法是参考项目文档中提供的建议,查看GitHub Issues寻找解决方案,您也可以询问AI大模型寻找解决办法。

(4)自定义输出:

修改inference.py中的输入图像路径、编辑提示词等参数,重新运行可以看到获得不同的输出结果。

Step 6 执行推理下载数据集和训练模型

训练数据集与预训练模型是多数论文复现项目的基础支撑。《PhotoDoodle》项目的数据集及预训练模型的下载链接,都能在项目 GitHub 仓库的 README 文件中找到。

在下载数据和预训练模型时,出现了多次因为网络问题而无法下载数据和模型的情况。核心原因可归为四类:

  • 第一:跨境网络限制。模型或数据多存于HuggingFace、GitHub、GoogleDrive等境外站点,国内直连易被限流、阻断。
  • 第二:源站或链路问题。源站限速、链接失效、CDN节点故障,或下载高峰导致服务器拥堵都可能导致网络问题。
  • 第三:本地配置问题。代理或梯子配置错误、防火墙拦截、下载工具无断点续传(大文件易断连),或本地带宽或网络稳定性差。
  • 第四:权限或合规限制。部分数据集或模型需授权访问,或源站设地域或IP限流,未满足则被拒绝连接。

遇到网络问题时,您可以使用可靠的下载工具或者科学上网。

Step 7 执行训练

(1) 按论文提供的脚本执行

一旦完成了环境配置和数据准备,接下来的步骤就是开始训练。执行训练代码时,我们依据GitHub项目中给出的命令执行。

(2)个性化训练

您也可以做一些个性化训练,按data 文件夹的格式组织自己的数据集,修改脚本中的参数即可实现自定义训练。

复现高频问题及解决方案

总结一下此次复现环节踩的坑以及对应的解决方法。

小贴士:复现时一定要记笔记!把遇到的问题、解决方案、参数调整记录下来,下次复现能少走很多弯路~

案论文复现总结

论文复现的环境配置是一项系统性的工作。对新手而言,关键要抓住三个核心:

  • 前期筛选:用“三查”原则,查信息完整性、查代码一致性、查资源可行性。选择合适的开源项目,避开半开源、信息缺失的项目;
  • 环境配置:借助大模型实验室Lab4AI平台的预配置环境和独立虚拟环境,锁定依赖版本,按“安装 - 验证 - 调整”的步骤逐步推进,避免版本冲突;
  • 问题解决:遇到网络、依赖、配置问题时,按“定位原因 - 查找适配方案 - 验证效果”的逻辑处理,善用社区 issue、官方文档、镜像源工具和AI大模型工具。

每一次成功的环境配置,都是对你工程解决问题能力的一次极好锻炼。希望这份详细指南能帮你避开弯路,顺利开启论文复现之旅。

Lab4AI大模型实验室,能为你提供一键复现方案,有效规避论文复现中的各类坑!

平台实现算力与实践场景的无缝衔接,配备充足 H 卡算力,支持模型复现、训练、推理全流程,更具备灵活弹性、按需计费、低价高效的优势,完美解决缺高端算力、算力成本高的核心痛点。

祝你复现顺利!

GitLink开源创新服务平台与Lab4AI大模型实验室联合发起「论文头号玩家」论文复现计划。寻找百万「论文头号玩家」计划 | 首批复现体验官开放申请,最高可获500元算力金!本计划开放高性能H800 GPU算力,旨在降低复现门槛,推动学术成果的实践转化。
<div align="center">
参与活动您将获得:
</div>
<p align="center">
<img src="http://llamafactory-online-assets.oss-cn-beijing.aliyuncs.com/lmlab/docs/v1.0/blog/synchronize/jy_fuxian-15.png">
</p>

基于 YOLOv8 的二维码智能检测系统 [目标检测完整源码]

—— 面向复杂场景的 QR Code 视觉识别解决方案


一、引言:二维码识别,真的只是“扫一扫”这么简单吗?

在大多数人的认知中,二维码识别等同于手机扫码——对准、识别、跳转。但在真实业务系统中,二维码识别远比想象中复杂:

  • 📦 仓储物流中,二维码可能 倾斜、褶皱、部分遮挡
  • 🏪 商业场景中,二维码常出现在 反光屏幕或复杂背景
  • 🎫 票务与门禁系统中,需要 实时、多目标、低延迟检测
  • 📹 监控视频流中,二维码往往是 小目标 + 运动模糊

传统基于规则或几何特征的二维码扫描方案,在上述场景下极易失效。

因此,一个现实的问题摆在我们面前:

能否用目标检测的思路,先“找准二维码”,再谈后续识别与解码?

本项目正是围绕这一工程问题,构建了一套基于 YOLOv8 的二维码视觉检测系统,并将其完整封装为可直接使用的桌面级应用。
在这里插入图片描述

源码下载与效果演示

哔哩哔哩视频下方观看:https://www.bilibili.com/video/BV1w9bkzEEpG

在这里插入图片描述
包含:

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址(含标注脚本

二、整体方案概览:不是 Demo,而是可交付系统

本项目并非单一算法实验,而是一个完整的软件工程方案,覆盖以下环节:

数据集构建 → 模型训练 → 推理接口 → 图形化界面 → 一键运行

系统目标非常明确:

  • 解决二维码在复杂环境下 “找不到” 的问题
  • 提供 统一接口 处理图片、视频与实时摄像头
  • 让非算法人员也能直接使用模型能力

三、技术路线选择:为什么二维码也要用 YOLOv8?

3.1 二维码识别的本质拆解

从计算机视觉角度看,二维码处理可以拆分为两个阶段:

  1. 定位阶段:在画面中找到二维码区域
  2. 解码阶段:对区域进行 QR 解码(可选)

在复杂环境下,真正困难的是 第一步:稳定定位

而 YOLOv8 在以下方面非常契合二维码检测任务:

  • 小目标 具有良好建模能力
  • Anchor-Free 结构对尺度变化更友好
  • 单阶段检测,适合实时场景

在这里插入图片描述

3.2 YOLOv8 在工程侧的优势

  • 原生支持 Python API 与 CLI
  • 模型导出与部署路径清晰
  • 训练、验证、推理接口高度统一

这使得模型不只是“能跑”,而是可以被系统化地集成进应用程序中


在这里插入图片描述

四、二维码数据集设计与标注思路

4.1 数据来源与场景覆盖

为了提高模型泛化能力,数据集在采集阶段刻意覆盖多种实际情况:

  • 📄 纸质二维码(票据、标签)
  • 📱 屏幕二维码(手机、显示屏)
  • 🏷️ 商品包装二维码
  • 📦 物流箱体二维码

同时引入多样化干扰因素:

  • 光照不均
  • 角度倾斜
  • 背景复杂
  • 分辨率变化

在这里插入图片描述

4.2 数据组织结构(YOLO 标准)

dataset/
├── images/
│   ├── train/
│   └── val/
├── labels/
│   ├── train/
│   └── val/

每张图片对应一个 .txt 标注文件,内容为:

<class_id> <x_center> <y_center> <width> <height>

所有坐标均归一化,确保模型对输入尺寸变化具备鲁棒性。


在这里插入图片描述

五、模型训练流程与关键经验

5.1 训练配置示例

yolo detect train \
  data=qr.yaml \
  model=yolov8n.pt \
  epochs=100 \
  batch=16 \
  imgsz=640

在二维码检测任务中,训练时需要重点关注:

  • 小目标召回率
  • 过拟合风险(二维码形态较为固定)
  • 数据增强策略是否破坏二维码结构

5.2 训练过程评估指标

YOLOv8 会自动生成以下评估文件:

  • 📈 mAP 曲线
  • 📉 box / cls / dfl loss
  • 🧩 confusion matrix

在实际训练中,当 mAP@0.5 稳定超过 90% 时,即可满足大多数工程部署需求。
在这里插入图片描述


在这里插入图片描述

六、统一推理接口设计

6.1 图片与文件夹检测

  • 支持单张图片快速检测
  • 支持文件夹批量处理
  • 自动输出带框结果图

适合数据回溯、日志分析、测试验证场景。


6.2 视频与实时摄像头流

  • 基于 OpenCV 按帧推理
  • 支持实时显示检测结果
  • 可选保存检测后视频

该能力可直接应用于:

  • 自动扫码闸机
  • 仓库视频巡检
  • 商业展示系统

在这里插入图片描述

七、PyQt5 图形界面:让模型“能被使用”

很多模型项目止步于命令行,本项目的一个核心目标是:

让模型能力走出终端,进入真实用户界面。

7.1 界面模块划分

  • 输入方式选择区(图片 / 视频 / 摄像头)
  • 结果显示主画布
  • 运行日志与状态栏
  • 结果保存控制选项

7.2 工程意义

  • 非技术人员可直接操作
  • 可作为演示系统或产品原型
  • 适合作为课程设计、毕设项目

八、推理代码核心示例(简化)

from ultralytics import YOLO

model = YOLO("best.pt")
results = model("test.jpg", conf=0.25)

for box in results[0].boxes:
    cls = int(box.cls)
    conf = float(box.conf)

通过推理结果,可直接获取:

  • 边界框位置
  • 置信度
  • 类别信息

为后续 二维码裁剪、解码、业务处理 提供基础。


九、工程打包与“开箱即用”体验

项目已完成完整工程封装,包含:

  • 已训练模型权重
  • 全部源码
  • 数据集与标注脚本
  • GUI 主程序

运行检测只需:

python main.py

无需重新训练,即可体验完整功能。


十、应用拓展与二次开发方向

在当前框架基础上,可快速扩展为:

  • 📦 条形码 / DataMatrix 检测
  • 🎫 票据编号定位
  • 🏷️ 工业标签识别
  • 📄 文档关键区域检测

本质上,这是一个 可复用的小目标检测工程模板


总结:从算法到系统,二维码识别的正确打开方式

与其说这是一个“二维码识别 Demo”,不如说它是一套:

面向真实复杂场景的视觉检测工程方案

它关注的不只是模型精度,而是:

  • 能否稳定运行
  • 能否方便使用
  • 能否快速扩展

如果你正在寻找一个 集训练、推理、界面、部署于一体的 YOLOv8 项目实践案例,那么这套二维码智能检测系统,具备极高的参考与复用价值。

本文围绕二维码在复杂真实场景中的识别难题,系统性地介绍了一套基于 YOLOv8 的二维码智能检测解决方案。通过自定义数据集训练、Anchor-Free 目标检测模型以及统一的推理接口,系统能够在光照变化、角度倾斜、遮挡干扰等条件下稳定定位二维码区域。同时,结合 PyQt5 图形化界面,将算法能力封装为可直接使用的桌面应用,实现了从模型训练、效果验证到实际部署的完整工程闭环。该项目不仅适用于物流扫码、票务识别、门禁系统等实际业务场景,也具备良好的扩展性,可作为小目标检测与视觉工程化落地的通用参考范例。

基于 YOLOv8 的多犬种(60种常见犬类)智能识别系统项目 [目标检测完整源码]

—— 面向 60 类常见犬种的目标检测与可视化应用落地


在这里插入图片描述

一、背景与问题:为什么“犬种识别”值得工程化?

在宠物经济高速发展的今天,犬类已经从“家庭陪伴动物”逐步演变为需要精细化管理与智能化服务的对象。在实际场景中,犬种信息直接影响:

  • 饲养与行为管理策略
  • 疫苗接种与健康风险评估
  • 宠物交易、领养与救助流程
  • 城市宠物管理与公共安全

然而,现实中对犬种的识别依然高度依赖人工经验,不仅主观性强,而且在混血犬、幼犬、复杂光照条件下误判率较高。

问题的本质在于:

如何构建一个既具备高识别精度,又真正“可落地使用”的犬种识别系统?

本项目正是围绕这一问题,给出了一套完整可复现的工程级解决方案
在这里插入图片描述

源码下载与效果演示

哔哩哔哩视频下方观看:
https://www.bilibili.com/video/BV1wB8MzsE9P/

在这里插入图片描述

包含:

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址(含标注脚本


二、系统整体架构设计

该项目并非单一模型 Demo,而是一个从数据、训练到部署的完整闭环系统,整体架构如下:

┌────────────┐
│  数据集层  │  犬类图像 + YOLO 标注
└─────┬──────┘
      ↓
┌────────────┐
│  模型训练  │  YOLOv8 Detection
└─────┬──────┘
      ↓
┌────────────┐
│  推理服务  │  图片 / 视频 / 摄像头
└─────┬──────┘
      ↓
┌────────────┐
│  GUI 应用  │  PyQt5 桌面端
└────────────┘

核心目标只有一个:
让“深度学习模型”真正变成“普通用户能用的软件”。
在这里插入图片描述
在这里插入图片描述


三、模型选型:为什么是 YOLOv8?

在多类别实时检测任务中,YOLO 系列一直是工程实践的主流方案。本项目最终选择 YOLOv8,主要基于以下考虑:

3.1 架构层面的优势

  • Anchor-Free 设计
    减少超参数依赖,收敛更稳定
  • Task-Aligned Assigner
    分类与定位目标一致性更强
  • 更轻量的 Backbone 与 Neck
    在保证精度的同时提升推理速度

3.2 工程友好性

  • 原生支持 PyTorch / ONNX
  • Ultralytics 提供统一 CLI 与 Python API
  • 训练、验证、推理接口高度一致

这使得模型不仅“好训”,而且非常适合与 GUI、业务系统结合


四、犬种数据集构建与标注规范

4.1 数据规模与类别

本系统覆盖 60 种常见犬类,包括但不限于:

  • 柯基、哈士奇、柴犬
  • 金毛、拉布拉多、贵宾犬
  • 德牧、边牧、博美等

每个类别均包含多姿态、多背景、多尺度样本,尽量贴近真实使用场景。


4.2 数据组织结构(YOLO 标准)

dataset/
├── images/
│   ├── train/
│   └── val/
├── labels/
│   ├── train/
│   └── val/

标签文件采用 YOLO 标准格式:

<class_id> <x_center> <y_center> <width> <height>

所有坐标均为 相对比例值,确保模型在不同分辨率下具备一致性。


在这里插入图片描述

五、模型训练流程详解

5.1 训练配置示例

yolo detect train \
  data=dog.yaml \
  model=yolov8n.pt \
  epochs=100 \
  batch=16 \
  imgsz=640

关键训练策略包括:

  • 合理的 batch size 控制显存占用
  • 数据增强(翻转、尺度变换、颜色扰动)
  • 早期收敛阶段重点关注 box_loss 与 cls_loss

在这里插入图片描述

5.2 训练过程监控

YOLOv8 在 runs/detect/train/ 目录中自动生成:

  • 损失函数变化曲线
  • mAP@0.5 / mAP@0.5:0.95
  • 混淆矩阵(类别间区分能力)

在实际实验中,多数犬种在 mAP@0.5 指标上稳定超过 90%,具备实际应用价值。


六、多模态推理能力设计

本系统支持多种输入形式,统一由同一推理接口处理。

6.1 单张图片与批量图片

  • 支持文件与文件夹级别输入
  • 自动生成标注结果图
  • 适合数据复查与分析场景

6.2 视频与实时摄像头

  • 基于 OpenCV 逐帧推理
  • 支持实时显示检测结果
  • 可选保存输出视频文件

这一能力使系统能够直接应用于:

  • 宠物门店实时监控
  • 救助站视频巡检
  • 展示型 AI 应用演示

在这里插入图片描述

七、PyQt5 图形界面设计要点

为了降低使用门槛,项目引入 PyQt5 构建完整桌面应用。

7.1 界面功能划分

  • 输入控制区:选择图片 / 视频 / 摄像头
  • 结果展示区:实时显示检测画面
  • 日志与状态区:输出模型运行信息

7.2 工程价值

  • 无需命令行操作
  • 非算法人员也可直接使用
  • 适合作为课程设计、毕业设计、项目演示系统

八、推理代码核心示例

from ultralytics import YOLO

model = YOLO("best.pt")
results = model("test.jpg", conf=0.25, save=True)

for box in results[0].boxes:
    cls_id = int(box.cls)
    score = float(box.conf)

推理结果中可直接获取:

  • 类别 ID
  • 置信度
  • 边框坐标

便于后续对接业务逻辑或二次开发。


在这里插入图片描述

九、项目工程化与“开箱即用”

本项目已完成完整工程封装,具备以下特点:

  • 已训练完成的权重文件
  • 完整源码与数据集
  • 一键启动 GUI 程序
  • 提供训练与部署说明

运行检测仅需:

python main.py

无需重新训练,即可体验完整系统功能。


十、可扩展性与二次开发方向

该项目并不局限于犬种识别,其工程框架可直接扩展为:

  • 🐱 猫咪品种识别
  • 🐦 鸟类 / 野生动物监测
  • 🐄 畜牧养殖视觉分析
  • 🏙️ 智慧城市动物管理系统

本质上,这是一个可复用的 YOLOv8 + GUI 工程模板。


总结:一个真正“能用”的目标检测项目应该是什么样?

相比单纯展示模型精度,本项目更关注:

  • 是否具备完整工程链路
  • 是否方便非算法人员使用
  • 是否具备二次开发潜力

通过 YOLOv8 与 PyQt5 的深度结合,该系统成功实现了从算法到应用的跨越。

🚀 如果你正在寻找一个具备训练、检测、部署一体化能力的目标检测项目实践,这套基于 YOLOv8 的多犬种识别系统,值得你深入研究与复用。

项目介绍

图片
图片
本系统是一个基于深度学习的卫星遥感图像智能识别平台,旨在为用户提供高效、准确的遥感图像分类服务。系统采用Flask轻量级Web框架构建后端服务,集成ResNet50深度卷积神经网络模型,实现了对卫星遥感图像的自动化识别与分类。系统支持识别七大类地物类型,包括草地、农田、工业区、河流湖泊、森林、居民区和停车场,能够满足土地利用监测、城市规划、环境评估等多种应用场景的需求。

图片

图片

关键技术栈:resnet50算法
ResNet50(Residual Network 50层)是深度学习领域中具有里程碑意义的卷积神经网络架构,由何恺明等学者于2015年提出。该网络的核心创新在于引入了残差学习(Residual Learning)机制,通过跳跃连接(Skip Connection)解决深层网络训练中的梯度消失和梯度爆炸问题,使得网络深度可以突破传统限制,达到甚至超过100层。ResNet50网络包含49个卷积层和1个全连接层,采用了5个阶段的残差块设计,每个阶段包含不同数量的残差单元,通过堆叠这些残差块构建深度网络结构。

图片
图片
系统功能模块图

图片
图片
演示视频 and 完整代码 and 安装
地址:https://www.yuque.com/ziwu/qkqzd2/kma4wpp387ifg6ci

下图展示了一个有趣的现象:在法国斗牛犬的图像上添加一小块对抗性补丁后,VGG分类器竟然以极高的置信度将其判定为足球。Grad-CAM可视化清楚地显示,模型的注意力完全从狗身上转移到了那块补丁——一个精心构造的小扰动就足以劫持整个决策过程。

95%准确率的模型可能不堪一击

ResNet、VGG、EfficientNet这些主流架构在ImageNet上动辄90%以上的准确率,看起来已经相当可靠。但这些模型隐藏着一个被多数工程师忽视的致命缺陷:它们极易被对抗样本愚弄。

改变一个像素,可能肉眼完全看不出区别,但分类器会彻底崩溃。本文会用FGSM(快速梯度符号法)演示如何制作对抗样本,并解释神经网络为何如此脆弱。

对抗样本到底是什么

简单说,对抗样本就是专门设计来欺骗模型的输入。和随机噪声不同,这种扰动是经过精确计算的——目标是在人眼察觉不到的前提下,最大化模型的预测误差。

这里存在一个悖论:模型可以正确识别成千上万张图片,但只要加上一点经过数学优化的噪声(像素值变化不到1%),它就会完全判断失误。

对抗攻击绝非学术界的自娱自乐。自动驾驶汽车可能把停车标志识别成限速标志;人脸识别系统可能被绕过;放射科AI可能给出错误诊断;有害内容可能躲过审核系统的检测。

问题的根源在于:分类器学到的是统计层面的捷径,而非真正的语义理解。高准确率和高安全性是两回事。

FGSM:简单却致命的攻击方法

Ian Goodfellow等人在2015年提出的FGSM至今仍是最经典的对抗攻击之一。它的原理出奇地简单,但恰恰暴露了深度神经网络的根本弱点。

数学原理

给定分类器和输入图像,FGSM计算一个扰动把图像推向错误分类的方向。具体做法是沿着损失函数梯度的方向移动每个像素,用epsilon参数控制扰动幅度,确保改动在视觉上不可察觉。

FGSM为何有效

深度网络虽然有非线性激活函数但在局部表现出近似线性的特性。每个像素上的微小变化会在高维空间中累积,最终在输出空间产生巨大偏移。梯度恰好指明了这个最有效的攻击方向——随机噪声做不到的事情,梯度对齐的噪声可以轻松做到。

上图就是是Goodfellow等人最初展示的结果:在熊猫图像上叠加梯度符号计算得到的微小扰动,模型就会以极高置信度将其误判为长臂猿。两张图片在人眼看来毫无差别,但神经网络的判断却天差地别。

Python实战:构建你的第一个对抗样本

下面用PyTorch和预训练的ResNet-50从零实现一个对抗样本。

先安装依赖:

 pip install torch torchvision matplotlib numpy pillow

导入必要的库:

 import torch  
 import torch.nn.functional as F  
 import torchvision.models as models  
 import torchvision.transforms as transforms  
 import matplotlib.pyplot as plt  
 import numpy as np  
 from PIL import Image

第一步:加载分类器

用ResNet-50作为目标模型。这个架构在生产环境中很常见,而且支持梯度计算:

 model=models.resnet50(pretrained=True)  
 model.eval()

第二步:准备图像

按ImageNet标准预处理输入图像:

 transform=transforms.Compose([  
    transforms.Resize((224, 224)),  
    transforms.ToTensor(),  
])

img=Image.open("your_image.jpg").convert("RGB")  
x=transform(img).unsqueeze(0)  
 x.requires_grad=True

注意

requires_grad=True

这行。没有它就无法计算梯度,对抗攻击也就无从谈起。

第三步:获取原始预测

跑一次前向传播,看看模型本来会给出什么分类:

 logits=model(x)  
 pred=logits.argmax(dim=1)  
 print(f"Original prediction: {pred.item()}")

正常情况下模型应该能正确分类。

第四步:FGSM攻击

核心代码如下:

 label = pred  
loss = F.cross_entropy(logits, label)  
loss.backward()

epsilon = 0.01  # perturbation budget
perturbation = epsilon * x.grad.sign()  
x_adv = x + perturbation  
 x_adv = torch.clamp(x_adv, 0, 1)

这段代码做了什么?计算损失对输入像素的梯度,取符号得到方向,乘以epsilon控制幅度,加到原图上就得到对抗样本。最后用clamp保证像素值在合法范围内。

第五步:检验效果

用同一个模型测试对抗图像:

 logits_adv=model(x_adv)  
 pred_adv=logits_adv.argmax(dim=1)  
 print(f"Adversarial prediction: {pred_adv.item()}")

大多数情况下预测结果会完全不同。图像看起来一样,分类却天壤之别。

第六步:可视化

把原图、对抗图、噪声模式放在一起对比:

 def show_adversarial_attack(original, adversarial, perturbation):  
    fig, axes = plt.subplots(1, 3, figsize=(15, 5))  
      
    axes[0].imshow(original)  
    axes[0].set_title("Original Image")  
    axes[0].axis("off")  
      
    axes[1].imshow(adversarial)  
    axes[1].set_title("Adversarial Image")  
    axes[1].axis("off")  
      
    axes[2].imshow(perturbation, cmap="gray")  
    axes[2].set_title("Noise Pattern (10x Amplified)")  
    axes[2].axis("off")  
      
    plt.tight_layout()  
    plt.show()

orig_np = x.detach().squeeze().permute(1, 2, 0).numpy()  
adv_np = x_adv.detach().squeeze().permute(1, 2, 0).numpy()  
noise_np = (adv_np - orig_np) * 10
 show_adversarial_attack(orig_np, adv_np, noise_np)

噪声模式放大10倍后看起来像电视雪花。人眼根本分辨不出两张图的区别,但神经网络却认为它们是完全不同的物体。

神经网络为何如此脆弱

理解这个问题需要从三个角度切入。

高维几何:一张224×224的RGB图像有150,528个维度。在这么高的维度里每个维度上的微小扰动累加起来就是巨大的距离。

局部线性:尽管激活函数是非线性的,深度网络在数据点附近的小邻域内表现得非常线性,这让基于梯度的攻击特别有效。

非泛化特征:研究发现模型大量依赖那些与标签相关、但与人类感知无关的统计模式。对抗样本正是在利用这些"捷径特征"。

一个令人不安的事实:深度学习模型优化的目标是训练集上的准确率,而不是对扰动的泛化性。

一些限制需要说明

FGSM只是单步攻击算比较弱的。迭代方法如PGD和Carlini-Wagner攻击力更强也更难防御。

本文的演示假设攻击者能拿到模型权重和梯度,属于白盒场景。现实中攻击者可能只能观察模型输出,需要用黑盒攻击技术或者利用对抗样本的迁移性。

数字扰动只是一种形式。物理世界的对抗样本——比如贴在物体上的特制贴纸——可以在不同光照和角度下持续欺骗视觉系统。

防御手段确实存在:对抗训练、输入预处理、集成方法、认证防御等等。但这些方法往往要牺牲准确率,而且没有哪个能提供完全的保护。

防御策略

几种主流防御思路:

对抗训练把对抗样本混入训练数据,让模型学会应对扰动。输入变换用JPEG压缩、随机缩放、降低位深等预处理来破坏对抗扰动。集成防御结合多个模型的预测或引入随机性来增加攻击难度。认证防御用随机平滑等技术在一定范围内提供数学上的泛化性保证。检测方法则训练专门的模型来识别对抗样本。

每种方法都有代价,在泛化性、准确率、计算开销之间做权衡。

总结

对抗样本揭示的是统计优化和人类感知之间的根本鸿沟。深度学习擅长模式匹配,但它并不理解图像的语义。

对抗样本不会消失。这不是可以修复的bug而是当前深度学习架构的内在属性。随着AI在关键基础设施中的应用越来越广,理解和缓解对抗脆弱性变得愈发重要。

泛化性应该和准确率、公平性、效率一样,成为一等公民级别的工程需求。否则,高准确率带来的只是虚假的安全感。

https://avoid.overfit.cn/post/935d5167003748db859452026a44b056

作者: Sarthakvyadav

基于 YOLOv8 的电网绝缘子破损与闪络缺陷智能检测系统识别项目 [目标检测完整源码]

一、研究背景与工程问题分析

随着电力系统规模的不断扩大,输电线路和变电设备的运行安全已成为电网运维中的核心问题之一。在众多电力设备中,绝缘子承担着电气隔离与机械支撑的双重任务,其运行状态直接影响电网的稳定性与可靠性。

在长期运行过程中,绝缘子通常会受到以下不利因素影响:

  • 长期高压电场作用导致材料老化
  • 风沙、盐雾、工业污染物附着
  • 高湿环境下易发生表面放电
  • 外力冲击造成瓷裙破损或脱落

由此产生的典型缺陷主要包括 绝缘子破损绝缘子闪络。这类缺陷具有隐蔽性强、分布范围广、人工巡检成本高等特点,一旦未能及时发现,极易引发线路跳闸、设备损毁,甚至区域性停电事故。

传统的人工巡检方式已逐渐暴露出明显不足:

  • 巡检效率难以覆盖大规模线路
  • 高空、野外作业存在安全风险
  • 检测结果依赖个人经验,缺乏一致性

在此背景下,结合无人机巡检、固定摄像头采集手段,引入基于深度学习的视觉检测技术,构建自动化缺陷识别系统,已成为智能电网发展的重要方向。
在这里插入图片描述

源码下载与效果演示

哔哩哔哩视频下方观看:
https://www.bilibili.com/video/BV1Qk8uz6E9f/

在这里插入图片描述
包含:

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址(含标注脚本

二、系统总体设计思路

本项目以 YOLOv8 目标检测模型 为核心算法,面向电力巡检场景进行专项训练,并通过 PyQt5 图形界面 实现完整的工程化封装,最终形成一套可直接投入使用的 电网绝缘子缺陷智能检测系统

系统设计目标包括:

  1. 高检测准确率:能够稳定识别破损与闪络缺陷
  2. 实时推理能力:满足视频流与在线巡检需求
  3. 良好可用性:非算法人员也可直接操作
  4. 可扩展性强:便于后期模型升级与功能拓展

在这里插入图片描述

三、整体系统架构

系统采用典型的分层架构设计,各模块职责清晰、相互解耦:

┌───────────────┐
│ 数据采集层    │  图像 / 视频 / 摄像头 / 无人机
└───────┬───────┘
        │
┌───────▼───────┐
│ YOLOv8 推理层 │  缺陷检测与分类
└───────┬───────┘
        │
┌───────▼───────┐
│ 结果解析层    │  类别 / 置信度 / 坐标
└───────┬───────┘
        │
┌───────▼───────┐
│ PyQt5 界面层  │  可视化展示与交互
└───────────────┘

该架构的优势在于:

  • 算法模块可独立替换或升级
  • UI 与模型完全解耦,降低维护成本
  • 支持本地部署或后续服务化改造
    在这里插入图片描述

四、检测目标定义与业务建模

4.1 缺陷类别建模

结合电力运维业务需求,本项目共定义三类检测目标:

类别业务含义
绝缘子正常完整的绝缘子本体
破损瓷裙缺失、裂纹、结构破坏
闪络放电痕迹、污染导致的表面闪络

这种分类方式不仅能够识别缺陷类型,还可为后续缺陷定位、统计分析与风险分级提供基础数据支持。
在这里插入图片描述


4.2 数据集构建原则

为了保证模型在实际场景中的泛化能力,数据集构建阶段重点考虑:

  • 不同拍摄高度(模拟无人机巡检)
  • 不同光照条件(逆光、阴影、强反射)
  • 复杂背景(山地、树林、建筑)
  • 正常与缺陷样本的合理比例

数据统一采用 YOLO 标准格式,便于训练、推理与工程复用。


在这里插入图片描述

五、YOLOv8 模型选型与训练流程

5.1 YOLOv8 在工业场景中的优势

YOLOv8 作为 Ultralytics 推出的新一代检测模型,在工程实践中具备以下优势:

  • Anchor-Free 设计,减少人工调参
  • 更合理的损失函数设计,提高收敛稳定性
  • 推理接口高度封装,工程接入成本低
  • 兼容 ONNX、TensorRT 等多种部署形式

对于绝缘子这类尺度变化大、形态细长、背景复杂的目标,YOLOv8 在精度与速度之间取得了良好平衡。


在这里插入图片描述

5.2 模型训练流程

训练流程主要包括:

  1. 数据清洗与标注校验
  2. 训练 / 验证集划分
  3. 模型初始化与参数配置
  4. 多轮迭代训练与性能评估

训练过程中重点关注以下指标:

  • mAP@0.5:整体检测能力
  • 混淆矩阵:破损与闪络的区分效果
  • Loss 曲线:模型是否稳定收敛

当模型在验证集上表现稳定后,即可用于推理部署。


在这里插入图片描述

六、推理流程与缺陷结果解析

YOLOv8 提供了简洁高效的推理接口,推理阶段主要完成以下工作:

  • 加载训练完成的权重文件
  • 对输入图像或视频帧进行检测
  • 输出目标类别、置信度与边界框

在视频与摄像头模式下,系统采用逐帧检测方式,并通过合理的帧率控制,确保检测效果与实时性之间的平衡。


七、PyQt5 图形化系统设计

为了提升系统的可用性,本项目引入 PyQt5 构建桌面级可视化应用,核心功能包括:

  • 多种检测模式切换(图片 / 视频 / 摄像头)
  • 实时显示检测结果与缺陷标签
  • 一键保存检测结果图片或视频
  • 自动管理输出目录,便于后期复核

该界面设计使系统能够直接服务于运维人员与巡检人员,而不仅仅局限于算法研究。


在这里插入图片描述

八、典型应用场景与扩展方向

8.1 实际应用场景

  • 输电线路无人机巡检
  • 变电站设备日常检查
  • 电网缺陷快速筛查与统计
  • 智能运维示范项目

8.2 可扩展方向

  • 缺陷严重程度自动分级
  • 与巡检工单系统对接
  • 缺陷时序变化分析
  • 多模型协同检测(如分割 + 检测)

九、总结与思考

本文围绕电网绝缘子破损与闪络缺陷检测这一典型工业视觉问题,系统性地介绍了一套 基于 YOLOv8 的智能检测系统 的完整实现过程。从问题背景、系统架构、模型训练,到可视化应用与工程部署,展示了深度学习技术在电力运维场景中的实际价值。

实践表明,只有将算法能力与工程需求深度结合,AI 技术才能真正落地并产生长期价值。本项目不仅适合作为电力巡检智能化的参考方案,也为其他工业缺陷检测场景提供了可复用的技术范式。

DeepSeek提出mHC,改造何恺明残差连接

大模型实验室Lab4AI论文阅读

✔️研究背景

深度学习中,残差连接ResNetTransformer 等架构(含 LLM)的基础,其恒等映射特性保障了大规模训练的稳定性与效率。Hyper-Connections(HC)通过扩展残差流宽度、多样化连接模式提升模型性能,但因连接无约束,破坏了恒等映射特性,导致训练不稳定、扩展性受限,且存在显著内存访问与通信开销,这一问题限制了 HC 在大规模训练中的实际应用,形成研究缺口。

✔️研究目的

本文解决 HC 架构存在的训练不稳定性、扩展性差及系统开销大的核心问题,同时保留 HC 扩展残差连接带来的性能优势,提出一种兼顾稳定性、扩展性与效率的通用残差连接框架,支撑大规模深度学习模型(尤其是 LLM)的高效训练。

✔️核心贡献

提出 Manifold-Constrained Hyper-Connections(mHC)框架,通过将 HC 的残差映射投影到双随机矩阵流形(Birkhoff 多面体),恢复恒等映射特性,保障信号传播稳定性;
对输入 / 输出映射施加非负约束,避免信号抵消,同时通过核融合、选择性重计算、DualPipe 通信重叠等基础设施优化,降低系统开销;
实证验证 mHC 在大规模预训练中的有效性,为深度网络拓扑架构设计提供新视角,推动基础模型的演进。

✔️研究方法

  • 1)核心方法论:采用 Sinkhorn-Knopp 算法将残差映射 H_res 熵投影到双随机矩阵流形,对 H_pre 和 H_post 用 Sigmoid 函数施加非负约束;
  • 2)基础设施优化:基于 TileLang 实现混合精度核融合,通过选择性重计算降低内存占用,扩展 DualPipe 调度实现通信与计算重叠;
  • 3)实验设计:在3B至27B参数的语言模型上进行预训练实验,对比基线、HC和mHC的稳定性、下游任务性能及缩放特性。

✔️研究结果

  • 1)稳定性提升:mHC在27B模型训练中消除HC的损失突增现象,梯度范数保持稳定(对比HC的3000倍信号增益峰值,mHC最大增益仅1.6倍)。
  • 2)性能优势:在推理、阅读理解、数学问题解决等任务上全面优于基线和 HC,27B 模型在 BBH 上较 HC 提升 2.1%;
  • 3)扩展性与效率:支持模型规模与训练数据量的高效扩展,n=4 时仅增加 6.7% 时间开销,显著降低内存访问与通信成本。

以往扫描仪在办公室中的角色颇为单一:将纸质文件变成电子图片,任务便告完成。然而,在人工智能技术蓬勃发展的今天,扫描仪正在经历一场深刻的进化。新一代智能扫描仪不再只是简单的格式转换工具,而是成为了能够理解、分析和处理非结构化文档内容的“智能脑”。通过集成光学字符识别(OCR)、自然语言处理(NLP)和计算机视觉技术,智能扫描仪不仅能“看见”文档,更能“看懂”文档。

这个转变的背后,是一个重要的事实支撑:根据行业研究,企业中超过80%的有价值信息以非结构化数据的形式存在——包括合同、报告、邮件、发票等各类文档。这些信息若能被有效挖掘和利用,将为企业决策和创新提供强大动力。智能扫描仪的进化,正是开启这座信息宝库的关键钥匙。

二、智能扫描仪的三大核心能力突破

1. 精准识别与转换

现代智能扫描仪搭载的高精度OCR技术已经相当成熟,不仅能准确识别印刷体文字,对手写体、特殊字体也有很好的识别能力。多语言混合文档、复杂排版(如多栏、图文混排)的识别准确率已超过98%。更重要的是,智能扫描仪能够保持原始文档的格式、字体和布局,生成可直接编辑的Word、Excel等格式文件,而非简单的图片或PDF。

2. 结构理解与智能分类

智能扫描仪能够理解文档的逻辑结构,自动识别标题、副标题、段落、表格、图表、页眉页脚等元素。基于内容分析,系统还能对文档类型进行智能分类——自动区分发票、合同、简历、报告等不同类型的文档,并应用相应的处理策略。例如,面对一份采购合同,系统会重点关注金额、交货日期、违约责任等关键条款;而处理学术论文时,则会聚焦研究方法、数据结果和结论部分。

3. 内容解析与知识提取

这是智能扫描仪最具革命性的能力突破。通过深度学习算法,系统能够:

  • 语义理解:超越文字表面,把握文本的深层含义和意图。例如,不仅能识别“甲方应在30日内付款”这句话中的每个字,更能理解这是一项付款义务,涉及特定主体、时间限制和具体行为。
  • 关系网络构建:分析不同文档间的内在联系,构建跨文档的知识图谱。比如,将多份相关合同、邮件和会议记录关联起来,形成完整的项目视图。
  • 模式识别与异常检测:在海量文档中发现规律和异常。例如,在财务报表中自动识别异常波动,在质检报告中标记不合格项目。

三、深度解析:非结构化数据的价值解锁

1. 什么是非结构化数据?

非结构化数据指那些没有预定义数据模型或组织形式的信息,包括文本文件、电子邮件、社交媒体帖子、图像、视频等。在企业环境中,最常见的非结构化数据是各类业务文档:

  • 合同与协议:条款复杂,专业性强
  • 财务报告:数据密集,关联性强
  • 客户反馈:形式多样,情感丰富
  • 会议记录:口语化强,重点分散
  • 研究论文:专业术语多,逻辑严密

传统处理方式主要依赖人工阅读、摘录和整理,效率低、成本高、一致性差,且难以进行大规模分析。

2. 智能解析的四层突破

智能扫描技术通过四个层次的解析,破解非结构化数据处理难题:

第一层:语义理解

系统能够理解文本的上下文关系、情感倾向和真实意图。例如,在客户投诉信中,不仅能提取投诉内容,还能分析客户的失望程度和核心诉求。

第二层:实体提取

自动识别和提取文档中的关键信息实体,如人名、组织名、日期、金额、产品名称等。这些实体信息可直接导入数据库或业务系统,实现数据自动化。

第三层:逻辑分析

理解文档内部的逻辑关系。例如,在法律文件中,识别“如果...那么...”的条件关系;在调查报告中,理解数据与结论之间的支撑关系。

第四层:知识图谱

将分散在不同文档中的信息关联起来,构建企业知识网络。比如,将客户信息、订单记录、服务反馈等关联分析,形成完整的客户视图。

3. 行业应用价值

金融行业:智能扫描系统可自动审查贷款申请材料,提取关键财务数据,评估信用风险,处理时间从数小时缩短至几分钟。

医疗健康:将纸质病历、检查报告数字化并结构化,建立可搜索的患者健康档案,辅助医生诊断和治疗决策。

法律服务:快速分析大量法律文件和案例,提取相关法条、判例要点和关键事实,大幅提高案件准备效率。

教育科研:智能解析学术文献,提取研究问题、方法、数据和结论,帮助研究人员快速了解领域动态。

四、ComPDF AI:智能文档解析的实践典范

1. 产品定位与技术优势

ComPDF AI是一款面向企业级应用的智能文档处理平台,集成了先进的OCR、自然语言处理和深度学习技术。其核心优势在于“一体化”和“智能化”:不仅支持从扫描到解析的全流程处理,更能深入理解文档内容,将非结构化数据转化为结构化知识。

平台采用多格式统一解析引擎,无论是扫描件、PDF、Word、Excel还是图片格式,都能提供一致的高质量解析结果,真正实现全格式文档的智能化处理。

2. 核心功能详解

智能版面分析ComPDF AI能够精准识别复杂文档的版面结构,包括多栏排版、表格、图表、文本框等元素。无论是传统的报纸式排版还是现代的创意设计,系统都能准确还原文档的逻辑结构,为后续的内容解析奠定基础。

深度内容解析:基于预训练的大语言模型和行业知识库,ComPDF AI能够理解文档的语义层次。例如,在技术白皮书中,区分技术原理、应用场景和竞争优势;在年度报告中,识别财务数据、业务分析和未来展望。这种深度理解能力,使系统能够提取真正有价值的信息,而非简单的关键词匹配。

交互式处理:用户可以通过自然语言与文档进行对话。例如,输入“找出合同中所有关于知识产权的条款”或“汇总2023年各季度销售数据”,ComPDF AI能够准确理解查询意图,并在文档中找到相应信息,以结构化形式呈现结果。这种交互方式大大降低了使用门槛,使非技术人员也能轻松进行复杂文档分析。

批量自动化处理:针对企业级应用场景,ComPDF AI支持大规模文档的批量处理。用户可以建立自动化处理流水线,设置规则和模板,系统将自动完成文档的解析、分类和信息提取。例如,财务部门可以设置发票处理流程,系统自动识别发票类型、提取金额和供应商信息,并导入财务系统。

3. 应用场景展示

企业法务场景:某跨国公司使用ComPDF AI处理全球分支机构的合同审查。系统自动识别合同类型(采购、销售、雇佣等),提取关键条款(价格、交付期限、违约责任等),并标记潜在风险点。法务团队审查重点合同的时间从平均4小时缩短至30分钟,效率提升超过85%。

财务部门应用:一家大型零售企业将ComPDF AI集成到财务流程中,自动化处理每月数千张供应商发票。系统不仅提取发票基本信息,还自动验证发票真伪、匹配采购订单,并将数据直接导入ERP系统。人工核对工作量减少70%,错误率降低90%以上。

研究机构案例:某政策研究机构利用ComPDF AI分析大量政策文件和研究报告。系统自动提取政策要点、实施措施和影响评估,帮助研究人员快速把握政策脉络。文献调研时间减少60%,让研究人员能够更专注于深度分析和创新思考。

五、智能扫描仪的具体应用场景

1. 办公室自动化

智能归档与检索:传统文档管理依赖人工标注和分类,检索困难。智能扫描仪自动识别文档内容,提取关键词和摘要,实现精准的全文检索。例如,需要查找三年前某个项目的会议记录,只需输入相关关键词,系统即可快速定位。

会议记录处理:扫描纸质会议记录或直接处理电子笔记,系统自动识别发言人、讨论主题、决策事项和待办任务,生成结构化会议纪要,并同步到项目管理工具中。

2. 专业领域深化应用

财务税务:自动处理各类发票、收据和报税单据,提取关键数据(金额、税率、日期等),验证税务信息,并直接导入会计软件。每年报税季,这一功能可节省大量时间和精力。

人力资源:智能解析求职者简历,提取教育背景、工作经历、技能证书等信息,与职位要求自动匹配,生成候选人评估报告。招聘人员可以快速筛选合适人选,提高招聘效率和质量。

客户服务:分析客户来信、在线反馈和调查问卷,自动识别客户情感(满意、中性、不满),提取核心问题和建议,分类汇总后转交相关部门处理。帮助企业及时了解客户需求,改进产品和服务。

知识管理:将企业内部的各类文档(技术手册、产品说明、案例研究等)数字化并结构化,构建企业知识库。员工可以通过自然语言查询获取所需知识,促进知识共享和创新。

3. 个人效率提升

学习笔记管理:学生和研究人员可以扫描纸质笔记和参考资料,系统自动识别重点内容、公式图表和参考文献,建立个人知识库。复习和写作时,能够快速查找相关资料。

个人文档整理:处理个人证件、保单、合同等重要文件,系统自动分类存储,并设置提醒(如保险续保、证件到期等)。需要时可通过手机快速检索和查看,实现个人文档的智能化管理。

六、实施路径:如何部署智能扫描解决方案

1. 技术准备要点

硬件选择:根据文档处理量选择合适规格的扫描仪。对于大批量处理,建议选择自动进纸、双面扫描的高端型号;对于日常办公,普通平板扫描仪即可满足需求。同时考虑与现有办公设备的兼容性。

系统集成:智能扫描解决方案需要与企业的文档管理系统、业务系统(如ERP、CRM)集成。选择支持标准API接口的解决方案,确保数据能够顺畅流转。云部署方案可以降低初期投入,快速上线使用。

2. 流程改造建议

制定数字化标准:统一文档扫描的质量标准(分辨率、格式等)、命名规范和存储结构。建立文档分类体系,确保后续处理的效率和一致性。

优化工作流程:重新设计文档处理流程,减少人工干预环节。例如,将扫描、识别、分类、归档设置为自动化流程;建立异常处理机制,对无法自动处理的文档进行人工复核。

培训与推广:对员工进行系统培训,使其掌握智能扫描工具的使用方法。通过试点项目展示应用效果,逐步推广到全公司。建立使用反馈机制,持续优化系统配置和流程设计。

3. 数据安全与合规

隐私保护机制:确保扫描和解析过程中个人隐私数据的安全。采用数据加密传输和存储,设置访问权限控制。对于敏感文档,提供本地化处理选项,避免数据外泄风险。

行业合规性:不同行业对文档处理有特定合规要求。例如,医疗行业需符合HIPAA标准,金融行业需满足数据保存和审计要求。选择解决方案时,确保其符合相关行业规范和法律法规。

七、未来展望:智能扫描技术的发展趋势

1. 技术融合方向

多模态AI整合:未来的智能扫描仪将整合文本、图像、语音等多种信息处理能力。例如,不仅解析文档文字,还能分析其中的图表数据;结合语音识别技术,处理会议录音和访谈记录,形成完整的会议档案。

边缘计算与云协同:部分处理任务将在扫描设备本地完成(边缘计算),减少数据传输延迟,提高响应速度;复杂分析任务则交由云端处理,利用更强大的计算资源。这种协同模式平衡了效率与能力的需求。

2. 功能演进预测

预测性文档分析:系统不仅能解析已有文档内容,还能基于历史数据预测未来趋势。例如,分析历年销售合同,预测下季度销售情况;审查项目文档,识别潜在风险和延误可能。

实时协作处理:支持多人同时处理同一份文档,实时共享解析结果和批注意见。无论团队成员身在何处,都能高效协作完成文档审查和分析任务。

行业深度定制:针对特定行业的专业需求,提供高度定制化的解析模型和知识库。例如,为律师事务所定制的法律文档分析系统,为医院定制的病历处理方案,为科研机构定制的文献分析工具。

3. 生态建设

深度系统集成:智能扫描技术将与企业各类业务系统深度集成,成为企业数字基础设施的一部分。从简单的数据输入工具,演变为支持决策的智能分析平台。

开放开发者生态:提供丰富的API接口和开发工具包,支持第三方开发者创建定制化应用。构建应用商店生态,满足不同用户的个性化需求。

八、结论:智能扫描仪——企业数字化转型的关键拼图

智能扫描仪正在从企业的“成本中心”转变为“价值创造者”。传统文档处理需要投入大量人力资源,却难以产生直接价值;而智能扫描仪通过自动化处理和深度分析,释放非结构化数据的潜力,直接支持业务决策和创新。

这一转变的核心,在于智能扫描仪成为了非结构化数据价值释放的杠杆点。它连接了纸质世界与数字世界,物理文档与数据系统,将散落在各处的信息碎片整合成可用的知识资产。

基于YOLOv8的蚊蝇位置智能检测识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

源码包含:完整YOLOv8训练代码+数据集(带标注)+权重文件+直接可允许检测的yolo检测程序+直接部署教程/训练教程

基本功能演示

https://www.bilibili.com/video/BV1zYrhBxEau/

源码在哔哩哔哩视频简介处

项目摘要

本项目基于 YOLOv8 深度学习检测模型,结合 PyQt5 图形界面,实现了对蚊子和苍蝇的自动检测与定位。项目核心特点包括:

  1. 多输入源支持:可处理单张图片、图片文件夹、视频文件以及实时摄像头输入。
  2. 高精度识别:利用定制蚊蝇数据集训练,准确识别蚊子与苍蝇,同时兼顾背景样本,降低误报率。
  3. 开箱即用:提供完整源码、训练数据、预训练权重及部署教程,用户可直接运行检测系统或继续训练自定义模型。
  4. 可视化界面:PyQt5 图形界面直观展示检测结果,支持边框显示、类别标注、置信度显示等功能。
  5. 灵活扩展:项目结构清晰,可快速扩展到其他小型生物检测任务或多分类目标检测场景。

通过本项目,用户可实现蚊蝇数量监测、位置统计及风险评估,为实验室、公共卫生、农业及城市环境管理提供智能化工具。

前言

随着智能视觉技术的发展,小型害虫检测在公共卫生、农作物管理及环境监测中具有重要意义。传统人工检测方法不仅耗时长、效率低,而且容易漏检或误判。借助 YOLO 系列目标检测算法,本项目提供了一种快速、准确、可扩展的蚊蝇检测解决方案。

项目基于无人机或固定摄像头拍摄的实验样本,通过训练专用数据集,使模型能够在复杂背景下自动识别蚊子和苍蝇位置。结合 PyQt5 图形界面,用户无需掌握深度学习底层技术即可完成检测、可视化及数据统计。

一、软件核心功能介绍及效果演示

核心功能

  1. 图片检测

    • 支持单张图片检测,自动标注蚊子和苍蝇位置。
    • 输出标注图与 YOLO 格式检测结果。
  2. 批量图片处理

    • 支持文件夹中所有图片的批量检测。
    • 自动生成检测报告,包括数量统计及置信度分析。
  3. 视频检测

    • 支持本地视频文件输入,实时识别视频中的蚊子与苍蝇。
    • 可选择保存检测后的视频,标注框清晰展示目标。
  4. 摄像头实时检测

    • 支持 USB 摄像头或笔记本内置摄像头实时捕捉并检测蚊蝇。
    • 界面显示实时检测帧,支持帧率与置信度调节。
  5. 检测结果可视化

    • 在 PyQt5 界面中显示目标框、类别及置信度。
    • 支持结果导出,包括图片、视频和 CSV 数据。
  6. 训练与模型管理

    • 提供完整训练代码与数据集标注示例。
    • 可加载自定义权重继续训练或微调模型。
    • 支持 YOLOv8 标准训练流程,包括训练集划分、超参数配置和结果可视化。

效果演示

  • 图片示例

    • 检测后每只蚊子与苍蝇都会被框出,类别和置信度清晰显示。
  • 视频示例

    • 视频播放时,模型实时标注移动的目标,统计目标数量并可导出检测数据。
  • 实时摄像头示例

    • 界面上可即时显示检测框与数量统计,操作简单,无需命令行操作。

二、软件效果演示

为了直观展示本系统基于 YOLOv8 模型的检测能力,我们设计了多种操作场景,涵盖静态图片、批量图片、视频以及实时摄像头流的检测演示。

(1)单图片检测演示

用户点击“选择图片”,即可加载本地图像并执行检测:

image-20260112012732195


(2)多文件夹图片检测演示

用户可选择包含多张图像的文件夹,系统会批量检测并生成结果图。

image-20260112012821538


(3)视频检测演示

支持上传视频文件,系统会逐帧处理并生成目标检测结果,可选保存输出视频:

image-20260112012846148


(4)摄像头检测演示

实时检测是系统中的核心应用之一,系统可直接调用摄像头进行检测。由于原理和视频检测相同,就不重复演示了。

image-20260112012858804


(5)保存图片与视频检测结果

用户可通过按钮勾选是否保存检测结果,所有检测图像自动加框标注并保存至指定文件夹,支持后续数据分析与复审。

image-20260112012943268

三、模型的训练、评估与推理

YOLOv8是Ultralytics公司发布的新一代目标检测模型,采用更轻量的架构、更先进的损失函数(如CIoU、TaskAlignedAssigner)与Anchor-Free策略,在COCO等数据集上表现优异。
其核心优势如下:

  • 高速推理,适合实时检测任务
  • 支持Anchor-Free检测
  • 支持可扩展的Backbone和Neck结构
  • 原生支持ONNX导出与部署

3.1 YOLOv8的基本原理

YOLOv8 是 Ultralytics 发布的新一代实时目标检测模型,具备如下优势:

  • 速度快:推理速度提升明显;
  • 准确率高:支持 Anchor-Free 架构;
  • 支持分类/检测/分割/姿态多任务
  • 本项目使用 YOLOv8 的 Detection 分支,训练时每类表情均标注为独立目标。

YOLOv8 由Ultralytics 于 2023 年 1 月 10 日发布,在准确性和速度方面具有尖端性能。在以往YOLO 版本的基础上,YOLOv8 引入了新的功能和优化,使其成为广泛应用中各种物体检测任务的理想选择。

image-20250526165954475

YOLOv8原理图如下:

image-20250526170118103

3.2 数据集准备与训练

采用 YOLO 格式的数据集结构如下:

dataset/
├── images/
│   ├── train/
│   └── val/
├── labels/
│   ├── train/
│   └── val/

每张图像有对应的 .txt 文件,内容格式为:

4 0.5096721233576642 0.352838390077821 0.3947600423357664 0.31825755058365757

分类包括(可自定义):

image-20260112013102185

image-20260112013042045

3.3. 训练结果评估

训练完成后,将在 runs/detect/train 目录生成结果文件,包括:

  • results.png:损失曲线和 mAP 曲线;
  • weights/best.pt:最佳模型权重;
  • confusion_matrix.png:混淆矩阵分析图。
若 mAP@0.5 达到 90% 以上,即可用于部署。

在深度学习领域,我们通常通过观察损失函数下降的曲线来评估模型的训练状态。YOLOv8训练过程中,主要包含三种损失:定位损失(box_loss)、分类损失(cls_loss)和动态特征损失(dfl_loss)。训练完成后,相关的训练记录和结果文件会保存在runs/目录下,具体内容如下:

image-20260112013024393

3.4检测结果识别

使用 PyTorch 推理接口加载模型:

import cv2
from ultralytics import YOLO
import torch
from torch.serialization import safe_globals
from ultralytics.nn.tasks import DetectionModel

# 加入可信模型结构
safe_globals().add(DetectionModel)

# 加载模型并推理
model = YOLO('runs/detect/train/weights/best.pt')
results = model('test.jpg', save=True, conf=0.25)

# 获取保存后的图像路径
# 默认保存到 runs/detect/predict/ 目录
save_path = results[0].save_dir / results[0].path.name

# 使用 OpenCV 加载并显示图像
img = cv2.imread(str(save_path))
cv2.imshow('Detection Result', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

预测结果包含类别、置信度、边框坐标等信息。

image-20260112013207795

四.YOLOV8+YOLOUI完整源码打包

本文涉及到的完整全部程序文件:包括python源码、数据集、训练代码、UI文件、测试图片视频等(见下图),获取方式见【4.2 完整源码下载】:

4.1 项目开箱即用

作者已将整个工程打包。包含已训练完成的权重,读者可不用自行训练直接运行检测。

运行项目只需输入下面命令。

python main.py

读者也可自行配置训练集,或使用打包好的数据集直接训练。

自行训练项目只需输入下面命令。

yolo detect train data=datasets/expression/loopy.yaml model=yolov8n.yaml pretrained=yolov8n.pt epochs=100 batch=16 lr0=0.001

4.2 完整源码

至项目实录视频下方获取:https://www.bilibili.com/video/BV1zYrhBxEau/

image-20250801135823301

包含:

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址(含标注脚本)

总结

本项目基于 YOLOv8 深度学习检测模型与 PyQt5 图形界面,实现了蚊子与苍蝇的高效、智能化检测与定位。通过专用数据集训练,系统能够在复杂背景下准确识别目标,同时提供图片、视频及摄像头多种输入方式。

项目核心优势包括:

  1. 高精度识别:模型在小型目标和复杂背景下表现稳定,误报率低。
  2. 多场景适用:支持单张图片、批量图片、视频和实时摄像头输入。
  3. 可视化与易用性:界面直观,标注清晰,用户无需深度学习经验即可使用。
  4. 可扩展性:源码结构清晰,可快速应用于其他小型生物检测任务或扩展目标类别。
  5. 开箱即用:提供完整训练流程、权重文件和部署教程,用户可直接上手或自定义训练。

整体而言,本项目为公共卫生监测、实验室研究和环境管理提供了一个 快速、可靠、可视化的智能检测解决方案,降低人工检测成本,提高数据收集效率,为小型害虫监控提供了可落地的技术工具。

在当今的数字时代,只需输入一句描述,如“一只穿着宇航服的猫在月球上喝咖啡,电影感光影”,几秒钟后,屏幕上便会呈现出一张惊艳的图像。Midjourney、Stable Diffusion 等 AI 绘画工具的出现,仿佛让“神笔马良”的故事成为了现实。

但这背后究竟是魔法,还是科技?

在那个神秘的进度条背后,AI 究竟在进行怎样的操作?它的“大脑”里是否真的住着一位不知疲倦的画手,拿着画笔在白纸上从零开始创作?

本文将抛开复杂的专业术语,以通俗易懂的方式拆解这一神奇过程。真相或许比想象中更有趣——AI 绘画,本质上是一场大型的“脑补”游戏。


第一部分:画布的真相——它居然不是空白的!

谈及绘画,人们的第一反应通常是:在一张干净的白纸上构图、打草稿、上色。

然而,AI 的创作方式截然不同。它的起点并非空白,而是一片混沌。

如果能深入 AI 的后台一探究竟,会发现当它准备开始工作时,面前的“画布”呈现出如下形态:

这是一张密密麻麻、杂乱无章的噪点图,在技术上被称为“纯噪声”

在人类眼中,这或许只是毫无意义的混乱。但在 AI 眼中,这里隐藏着无限可能。AI 作画的本质,并非“无中生有”,而是“从混乱中建立秩序”。它不是在做加法(往白纸上添加内容),而是在做减法(去除不需要的噪点)。


第二部分:AI 的特殊技能——“脑补大师”是怎样炼成的?

面对这样一屏毫无头绪的雪花,AI 如何知道该从何处下手?这得益于它在投入使用前经历的魔鬼训练。

在尚未掌握绘画技能之前,AI 分析了数十亿张人类世界的图片。其学习方式颇为独特,堪称一位“破坏与重建狂魔”

训练过程中,研究人员会向 AI 展示一张清晰的照片(例如一只小狗),随后逐步向照片中添加“沙子”(噪点),使照片逐渐变得模糊,直至完全变为一张无法辨认的雪花屏。

AI 的任务便是学习如何“倒放”这一过程——即凭经验将这张雪花屏还原成最初的那只小狗。

经过亿万次此类练习,AI 练就了一双“火眼金睛”,成为了世界上顶尖的“去噪专家”。面对任何混乱的图像,它的第一反应便是:“这太乱了,需要将其清理干净。”


第三部分:关键时刻——面对一片雪花,AI 怎么下第一笔?

这是整个生成过程中最为神奇的环节。

当用户输入指令:“画一只猫”,AI 面对着手中那张杂乱无章的雪花屏,内心或许是崩溃的:“这里哪里有猫?这全是噪点。”

此时,奇迹发生了。这个过程类似于人们童年时常玩的游戏——“在云朵里找形状”

想象一下,躺在草地上注视着天上杂乱无章的云团发呆。此时,若有人提示:“嘿,你看那片云,像不像一只猫?”

一旦接受了这一设定,大脑便会开始强行“脑补”。越看越觉得:“左边那团突出的云确实有点像猫耳朵,中间那块暗影有点像猫身子……”

AI 画画的第一步,正是这种强制的“幻视”。

当用户输入“猫”作为提示词,便相当于给了 AI 一个强烈的暗示。它被迫在那堆毫无意义的噪点中寻找“猫”的蛛丝马迹。

它会审视那些随机排列的像素点,强行联想:“虽然目前很乱,但如果非要说的话,中间这几个黑点凑在一起,相较于角落里的白点,更有潜力发展成一个猫鼻子。”

于是,AI 迈出了极其微小的第一步:它并未直接画出猫鼻子,而只是将那些像素的颜色,朝着“猫”的方向轻轻推了一把。


第四部分:见证奇迹——从模糊到清晰的循环

这一步迈出后,画布看起来依然是一团糟。但 AI 绘画并非一步到位,它更像是一位手持橡皮擦和雕刻刀的雕塑家,一点一点将作品“磨”出来。

这个过程在软件中通常被称为“步数”(Steps)。

  • 第 1 步: 对着雪花屏强行脑补,画面依然混沌,但已显现出极其微弱的趋势。
  • 第 10 步: AI 认为“猫”的形象越来越确定,下手逐渐加重,画面中出现了一个模糊的影子,能隐约辨识出动物的轮廓。
  • 第 20 步: 轮廓日益清晰,AI 开始雕琢细节:“此处应有毛发,彼处应是眼睛的反光。”
  • 第 30 步: 大功告成!噪点被清理干净,光影、质感完美呈现,一只栩栩如生的猫诞生了。

这就是为什么 AI 生成图片需要几秒钟的时间,因为它在后台快速地进行了数十次“观察-脑补-修正”的循环。


第五部分:灵魂拷问——为什么每次生成的图片都不一样?

人们可能会发现,使用相同的提示词和模型设置,点击两次生成,AI 给出的图片却是完全不同的。既然是机器,为何结果不稳定?

这正是 AI 绘画的迷人之处,其原因主要有二:

1. 起跑线不同(蝴蝶效应)

还记得最初那张“雪花屏”吗?每次点击生成按钮,AI 面对的那张雪花屏都是电脑随机新生成的。

世界上没有两片相同的树叶,也没有两张相同的噪点图。

也许这一次,初始噪点的左上角偶然多出了几个黑点,AI 便觉得:“此处适合画一只黑猫”;下一次,中间的噪点偏黄一点,AI 便觉得:“这次画只橘猫更合理”。

初始状态的极其微小差别,经过数十步的放大,最终导致了结果的巨大不同。这就是 AI 世界的“蝴蝶效应”。

2. “猫”是一个范围,不是一个点

在 AI 的庞大数据库里,“猫”并非一张固定的标准证件照,而是一个巨大的概念库。

提示词只是将 AI 推向了“猫”的领地,但具体落在领地里的哪个位置——是波斯猫还是狸花猫,是躺姿还是坐姿——充满了随机性。除非使用非常精确的语言进行限制,否则 AI 很乐意在“猫”的领地里随机探索。


结语

综上所述,AI 绘画并没有自主意识,它其实并不懂什么是艺术,也不懂什么是猫。

它只是一个阅图无数、拥有超强计算能力的“去噪机器”,一个有着严重强迫症的“脑补大师”。

但正是这种纯粹的数学计算,加上一点点随机的运气,为人类带来了近乎无限的创造力。下次当再次按下生成按钮时,不妨想象一下 AI 在后台对着一堆雪花屏努力“脑补”的样子,这或许正是科技的可爱之处。

本文由mdnice多平台发布

在当今的数字时代,只需输入一句描述,如“一只穿着宇航服的猫在月球上喝咖啡,电影感光影”,几秒钟后,屏幕上便会呈现出一张惊艳的图像。Midjourney、Stable Diffusion 等 AI 绘画工具的出现,仿佛让“神笔马良”的故事成为了现实。

但这背后究竟是魔法,还是科技?

在那个神秘的进度条背后,AI 究竟在进行怎样的操作?它的“大脑”里是否真的住着一位不知疲倦的画手,拿着画笔在白纸上从零开始创作?

本文将抛开复杂的专业术语,以通俗易懂的方式拆解这一神奇过程。真相或许比想象中更有趣——AI 绘画,本质上是一场大型的“脑补”游戏。


第一部分:画布的真相——它居然不是空白的!

谈及绘画,人们的第一反应通常是:在一张干净的白纸上构图、打草稿、上色。

然而,AI 的创作方式截然不同。它的起点并非空白,而是一片混沌。

如果能深入 AI 的后台一探究竟,会发现当它准备开始工作时,面前的“画布”呈现出如下形态:

这是一张密密麻麻、杂乱无章的噪点图,在技术上被称为“纯噪声”

在人类眼中,这或许只是毫无意义的混乱。但在 AI 眼中,这里隐藏着无限可能。AI 作画的本质,并非“无中生有”,而是“从混乱中建立秩序”。它不是在做加法(往白纸上添加内容),而是在做减法(去除不需要的噪点)。


第二部分:AI 的特殊技能——“脑补大师”是怎样炼成的?

面对这样一屏毫无头绪的雪花,AI 如何知道该从何处下手?这得益于它在投入使用前经历的魔鬼训练。

在尚未掌握绘画技能之前,AI 分析了数十亿张人类世界的图片。其学习方式颇为独特,堪称一位“破坏与重建狂魔”

训练过程中,研究人员会向 AI 展示一张清晰的照片(例如一只小狗),随后逐步向照片中添加“沙子”(噪点),使照片逐渐变得模糊,直至完全变为一张无法辨认的雪花屏。

AI 的任务便是学习如何“倒放”这一过程——即凭经验将这张雪花屏还原成最初的那只小狗。

经过亿万次此类练习,AI 练就了一双“火眼金睛”,成为了世界上顶尖的“去噪专家”。面对任何混乱的图像,它的第一反应便是:“这太乱了,需要将其清理干净。”


第三部分:关键时刻——面对一片雪花,AI 怎么下第一笔?

这是整个生成过程中最为神奇的环节。

当用户输入指令:“画一只猫”,AI 面对着手中那张杂乱无章的雪花屏,内心或许是崩溃的:“这里哪里有猫?这全是噪点。”

此时,奇迹发生了。这个过程类似于人们童年时常玩的游戏——“在云朵里找形状”

想象一下,躺在草地上注视着天上杂乱无章的云团发呆。此时,若有人提示:“嘿,你看那片云,像不像一只猫?”

一旦接受了这一设定,大脑便会开始强行“脑补”。越看越觉得:“左边那团突出的云确实有点像猫耳朵,中间那块暗影有点像猫身子……”

AI 画画的第一步,正是这种强制的“幻视”。

当用户输入“猫”作为提示词,便相当于给了 AI 一个强烈的暗示。它被迫在那堆毫无意义的噪点中寻找“猫”的蛛丝马迹。

它会审视那些随机排列的像素点,强行联想:“虽然目前很乱,但如果非要说的话,中间这几个黑点凑在一起,相较于角落里的白点,更有潜力发展成一个猫鼻子。”

于是,AI 迈出了极其微小的第一步:它并未直接画出猫鼻子,而只是将那些像素的颜色,朝着“猫”的方向轻轻推了一把。


第四部分:见证奇迹——从模糊到清晰的循环

这一步迈出后,画布看起来依然是一团糟。但 AI 绘画并非一步到位,它更像是一位手持橡皮擦和雕刻刀的雕塑家,一点一点将作品“磨”出来。

这个过程在软件中通常被称为“步数”(Steps)。

  • 第 1 步: 对着雪花屏强行脑补,画面依然混沌,但已显现出极其微弱的趋势。
  • 第 10 步: AI 认为“猫”的形象越来越确定,下手逐渐加重,画面中出现了一个模糊的影子,能隐约辨识出动物的轮廓。
  • 第 20 步: 轮廓日益清晰,AI 开始雕琢细节:“此处应有毛发,彼处应是眼睛的反光。”
  • 第 30 步: 大功告成!噪点被清理干净,光影、质感完美呈现,一只栩栩如生的猫诞生了。

这就是为什么 AI 生成图片需要几秒钟的时间,因为它在后台快速地进行了数十次“观察-脑补-修正”的循环。


第五部分:灵魂拷问——为什么每次生成的图片都不一样?

人们可能会发现,使用相同的提示词和模型设置,点击两次生成,AI 给出的图片却是完全不同的。既然是机器,为何结果不稳定?

这正是 AI 绘画的迷人之处,其原因主要有二:

1. 起跑线不同(蝴蝶效应)

还记得最初那张“雪花屏”吗?每次点击生成按钮,AI 面对的那张雪花屏都是电脑随机新生成的。

世界上没有两片相同的树叶,也没有两张相同的噪点图。

也许这一次,初始噪点的左上角偶然多出了几个黑点,AI 便觉得:“此处适合画一只黑猫”;下一次,中间的噪点偏黄一点,AI 便觉得:“这次画只橘猫更合理”。

初始状态的极其微小差别,经过数十步的放大,最终导致了结果的巨大不同。这就是 AI 世界的“蝴蝶效应”。

2. “猫”是一个范围,不是一个点

在 AI 的庞大数据库里,“猫”并非一张固定的标准证件照,而是一个巨大的概念库。

提示词只是将 AI 推向了“猫”的领地,但具体落在领地里的哪个位置——是波斯猫还是狸花猫,是躺姿还是坐姿——充满了随机性。除非使用非常精确的语言进行限制,否则 AI 很乐意在“猫”的领地里随机探索。


结语

综上所述,AI 绘画并没有自主意识,它其实并不懂什么是艺术,也不懂什么是猫。

它只是一个阅图无数、拥有超强计算能力的“去噪机器”,一个有着严重强迫症的“脑补大师”。

但正是这种纯粹的数学计算,加上一点点随机的运气,为人类带来了近乎无限的创造力。下次当再次按下生成按钮时,不妨想象一下 AI 在后台对着一堆雪花屏努力“脑补”的样子,这或许正是科技的可爱之处。

本文由mdnice多平台发布

本文的目标是解释为什么现代LLM架构在前馈部分使用

SwiGLU

作为激活函数并且已经放弃了

ReLU

神经网络本质上是一系列矩阵乘法,如果我们堆叠线性层而不使用任何激活函数:

无论你堆叠多少层,它仍然只是一个线性变换,网络只能学习线性关系。

激活函数引入了非线性,使网络能够逼近复杂的非线性函数,这是深度学习表达能力的基础。

ReLU有什么问题?

ReLU

确实彻底改变了深度学习:

它简单、快速,并且解决了

sigmoid

tanh

等函数存在的梯度消失等问题。

虽然人们通常会列出使用

ReLU

时可能遇到的问题,比如神经元死亡等等,但这些问题要么是理论上的,要么在大多数情况下可以通过现代神经网络技术(批量归一化、自适应学习权重等)很好的避免。

不过在进入SwiGLU之前,我们先来看一个激活函数 Swish,它是 SwiGLU 的组成部分。

Swish是一个"自门控"激活函数:输入 (x) 乘以其自身的sigmoid σ(x),它充当一个,控制有多少输入能够通过。

看看门的行为:

当x非常负时:σ(x) ≈ 0,所以门是关闭的(抑制输出)

当x非常正时:σ(x) ≈ 1,所以门是完全打开的(几乎原样通过输入)

尽管公式稍微复杂一些,

Swish

的行为与

ReLU

非常相似。

Swish比ReLU更好吗?

Swish

被发现比

ReLU

效果更好,但就像深度学习中的许多事情一样我们并不确切知道为什么

Swish

效果更好,不过倒是可以总结出以下的区别:

没有硬梯度截断

看上面的图,主要区别就是它们如何处理负输入:

ReLU:在零处硬截断

当x<0时:输出 = 0 且 梯度 = 0。这就是神经元死亡问题(尽管如前所述,通常可以通过BatchNorm等现代技术来避免)

Swish:平滑、渐进地趋近于零

对于负x:梯度渐近趋近于零,但对于有限值永远不会精确等于零/所以理论上神经元总是可以接收更新(尽管对于非常负的输入,更新可能可以忽略不计)

平滑性

ReLU

在x=0处有不连续性(导数从0跳到1)。

Swish

在任何地方都是无限可微的,这意味着梯度景观是平滑的。这种平滑性是否有助于

Swish

的性能还不是100%清楚但它可能有助于优化

什么是门控线性单元(GLU)?

下面就是

SwiGLU

的另外一个组件。让我们来谈谈 GLU

其中:

x是输入

W 和 V 是权重矩阵

b和c是偏置向量

是逐元素乘法

σ 是sigmoid函数

GLU

使用门控机制在这方面与

Swish

有些相似。而它们区别在于GLU不是对所有特征应用相同的变换(恒等变换)然后用固定函数(sigmoid)进行门控,而是使用两个独立的线性投影:

xW+ b 这只是取输入并对其进行变换。它通常被称为 内容路径

σ(xV + c):这第二部分说明每个特征的内容应该让多少通过,因此它被称为 门路径

所以GLU

实际上可以被认为是

Swish` 的泛化

逐元素乘法 允许选择内容的哪些元素可以通过。当 σ(xV + c) 接近0时,门可以完全抑制某些特征,而当 σ(xV + c) 接近1时则完全让其他特征通过。

门控的具体示例

假设我们有一个4维向量 x = [1.0, -0.5, 2.0, 0.3]

GLU对同一个输入应用2个变换:

  1. 通过内容路径对内容进行变换:xW + b。假设它产生 [2.0, -1.5, 3.0, 0.5]1. 第2个变换应该扮演门的角色: σ(xV + c)。假设它产生 [0.9, 0.1, 0.95, 0.05]

GLU输出是它们的逐元素乘积:

GLU output = [2.0 × 0.9, -1.5 × 0.1, 3.0 × 0.95, 0.5 × 0.05] = [1.8, -0.15, 2.85, 0.025]

得到的结果如下:

特征1:内容为正(2.0),门值高(0.9)→ 强烈通过(1.8)

特征2:内容为负(-1.5),门值低(0.1)→ 被阻挡(-0.15)

特征3:内容为正(3.0),门值非常高(0.95)→ 完全通过(2.85)

特征4:内容较小(0.5),门值非常低(0.05)→ 被抑制(0.025)

这样网络学习了复杂的决策规则:"对于像x这样的输入,放大特征1和3,但抑制特征2和4。"

那么SwiGLU是什么?

现在我们有了所有的组成部分,

SwiGLU

(Swish门控线性单元)简单地结合了Swish和GLU:

它不是像GLU那样使用sigmoid作为门,而是使用Swish。这就是为什么它被称为 Swish + GLU

那么公式的每个部分做什么呢?这与GLU的逻辑完全相同,改变的只是门控函数。

  • Swish(xW):门——决定每个特征有多少可以通过
  • xV:内容——正在传输的实际信息
  • :逐元素乘法——将门应用于内容

为什么SwiGLU效果这么好?

从经验上看,SwiGLU在LLM中优于其他激活函数(尽管目前还不确定VLM的情况)。但为什么呢?

乘法交互创建特征组合

考虑每种架构计算的内容:

标准FFN(ReLU/GELU):

output = activation(xW₁) @ W₂

每个输出维度是激活特征的加权和,激活是逐元素应用的——特征在激活内部不会相互交互。

SwiGLU FFN

output = (Swish(xW) ⊙ xV) @ W₂

逐元素乘法 在两条路径之间创建乘积。如果我们用 g = Swish(xW)c = xV 表示,那么在最终投影之前的输出维度 igᵢ × cᵢ

这就是为什么这很重要:gᵢcᵢ 都是输入特征的线性组合(在Swish之前)。它们的乘积包含像 xⱼ × xₖ 这样的交叉项。网络可以学习 WV,使得某些输入特征组合被放大或抑制。

这类似于为什么注意力机制很强大,注意力计算 softmax(QKᵀ)V,其中 QKᵀ 乘积捕获查询和键特征之间的交互。SwiGLU为FFN带来了类似的乘法表达能力。

为什么不在门中使用sigmoid而是使用Swish?

GLU使用sigmoid:σ(xW) ⊙ xV。sigmoid的问题在于它会饱和。对于大的正或负输入,σ(x) ≈ 1σ(x) ≈ 0,且梯度 ∂σ/∂x ≈ 0,门就会被“冻结”了。

Swish对于正输入不会饱和,它近似线性增长(就像

ReLU

)。这意味着:- 梯度通过门路径流动得更好 - 门可以调节而不仅仅是开/关切换

平滑性

另外就是SwiGLU是无限可微的,这种平滑性可能有助于优化稳定性。

总结

SwiGLU的强大来自于其门控机制和乘法交互。通过将输入分成两条路径并将它们相乘,网络可以学习哪些特征组合是重要的——类似于注意力机制如何通过 QKᵀ捕获交互。

结合Swish的非饱和梯度,这使得SwiGLU对于大型模型特别有效。

https://avoid.overfit.cn/post/3fa28c75fb0b4874aa297defa145ec4a

作者:Safouane Chergui

一、项目介绍

本项目是一个基于Text-CNN深度学习模型的中文文本情感识别Web应用系统。系统采用前后端分离架构,后端使用Flask框架构建RESTful API,深度学习模型采用TensorFlow/Keras实现的Text-CNN卷积神经网络,前端框架支持跨平台访问。

系统核心功能包括用户注册登录、JWT身份认证、中文文本情感分析、批量预测处理以及历史记录管理等。系统使用jieba分词对中文文本进行预处理,通过训练好的Text-CNN模型对文本情感进行二分类判断(积极/消极),并提供直观的置信度可视化展示。系统支持用户角色管理(普通用户和管理员),实现了基于RBAC的权限控制机制,确保数据安全和用户隐私。系统采用SQLite数据库存储用户信息和预测历史,使用Flask-Migrate进行数据库版本管理,保证了系统的可维护性和可扩展性。
图片

图片

二、选题背景与意义

随着互联网技术的快速发展和社交媒体的普及,网络上产生了海量的文本数据,如用户评论、社交媒体帖子、产品评价等。这些文本数据中蕴含着丰富的情感信息,对于企业了解用户需求、改进产品服务、进行舆情监控等方面具有重要价值。传统的人工分析方式效率低下且成本高昂,无法满足大规模文本情感分析的需求,因此开发自动化的文本情感识别系统具有重要的现实意义。

中文文本情感识别相比英文更具挑战性,主要原因是中文语言的复杂性,包括分词困难、语义表达多样、网络用语丰富等特点。本系统针对中文文本特性,采用基于深度学习的Text-CNN模型进行情感分析,相比传统的机器学习方法(如SVM、朴素贝叶斯等),能够自动提取文本特征,避免了繁琐的人工特征工程,同时具有更高的准确率和更好的泛化能力。

本系统的设计和实现具有重要的理论意义和应用价值。在理论层面,探索了卷积神经网络在中文文本情感分析中的应用,验证了Text-CNN模型在中文情感二分类任务上的有效性。在应用层面,系统可应用于电商评论分析、社交媒体舆情监控、客户反馈分析等多个场景,为企业决策提供数据支持,具有广泛的实用价值。

三、关键技术栈:text-cnn

Text-CNN(Text Convolutional Neural Network)是本系统的核心深度学习模型,由Yoon Kim在2014年提出,将卷积神经网络成功应用于文本分类任务。相比传统的循环神经网络(RNN)和长短期记忆网络(LSTM),Text-CNN具有并行计算能力强、训练速度快、能够捕捉文本局部特征等优势,特别适合文本分类任务。

Text-CNN的模型结构主要包含四个部分:嵌入层(Embedding Layer)、卷积层(Convolutional Layer)、池化层(Pooling Layer)和全连接层(Fully Connected Layer)。在嵌入层,系统将预处理后的中文分词转换为密集的词向量表示,捕捉词语的语义信息。卷积层使用多个不同尺寸的卷积核(如3、4、5个词窗口)对文本进行卷积操作,提取文本的局部特征,类似于N-gram特征提取。池化层采用最大池化(Max Pooling)操作,从每个卷积核的输出中提取最重要的特征,降低特征维度并保留最显著的情感特征。全连接层将池化后的特征进行整合,通过Softmax激活函数输出分类概率。

四、技术架构图

图片

五、系统功能模块图

图片

演示视频 and 完整代码 and 安装

地址:https://www.yuque.com/ziwu/qkqzd2/py2zlsgq894x4eq6

基于 YOLOv8 的桥梁病害(八类缺陷、病害高精度)自动检测 [目标检测完整源码]

一、背景与问题:桥梁检测为什么需要 AI?

桥梁作为城市与交通网络中的关键基础设施,其服役周期长、受力复杂、环境影响显著。随着时间推移,桥梁结构不可避免地会出现裂缝扩展、混凝土退化、钢筋腐蚀、潮湿渗水等病害问题。若不能及时发现并处理,轻则影响通行安全,重则引发结构性风险。

传统桥梁检测主要依赖人工目测或人工+仪器结合的方式,普遍存在以下痛点:

  • 检测效率低,难以覆盖大规模桥梁资产
  • 对检测人员经验依赖强,结果主观性高
  • 数据难以结构化,不利于长期健康评估

在此背景下,基于计算机视觉的自动化桥梁病害检测逐渐成为智能运维的重要发展方向。
在这里插入图片描述

源码下载与效果演示

哔哩哔哩视频下方观看:

https://www.bilibili.com/video/BV1m8g8z6Ejp/

在这里插入图片描述
包含:

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址(含标注脚本

二、整体解决方案概述

本文介绍的一套桥梁病害检测系统,采用 YOLOv8 目标检测模型 作为核心算法,并结合 PyQt5 桌面端可视化工具,构建了一条从模型训练到工程应用的完整技术链路。

系统核心能力概览

  • 支持 8 类典型桥梁缺陷与病害识别
  • 覆盖 图片、批量图片、视频、摄像头 等多种输入形式
  • 提供 图形化操作界面,降低使用门槛
  • 支持模型再训练与工程级部署

该系统既可作为科研与教学案例,也可直接用于工程检测与巡检辅助。


在这里插入图片描述
在这里插入图片描述

三、检测目标设计:让模型“看懂”桥梁问题

在桥梁结构表面,病害往往呈现出尺度小、纹理细、形态多样的特点。针对工程实践需求,系统定义了以下八类检测目标:

  1. 裂缝
  2. 收缩裂缝
  3. 底层收缩裂缝
  4. 混凝土退化
  5. 混凝土空洞
  6. 腐蚀
  7. 潮湿
  8. 路面劣化

这些类别基本覆盖了常见桥梁表观病害类型,为后续健康评估与维修决策提供了结构化输入。


在这里插入图片描述

四、为什么选择 YOLOv8?

YOLOv8 是 Ultralytics 推出的新一代实时目标检测模型,在工程实践中表现出明显优势:

  • Anchor-Free 架构
    对细长裂缝、小尺度缺陷更友好,减少人为先验约束。
  • 推理速度快
    能够满足视频流与实时检测场景需求。
  • 训练与部署流程成熟
    模型配置灵活,支持快速复现与迁移学习。
  • 多任务扩展能力强
    为后续引入分割、姿态或多模态任务奠定基础。

在桥梁病害这类“复杂背景 + 小目标”的场景中,YOLOv8 在精度与速度之间取得了良好平衡。


在这里插入图片描述

五、数据集构建与训练流程

1. 数据组织方式

系统采用标准 YOLO 数据格式,清晰划分训练集与验证集,便于模型迭代:

dataset/
├── images/
│   ├── train/
│   └── val/
├── labels/
│   ├── train/
│   └── val/

每张图像均配有对应标注文件,记录目标类别及归一化边界框信息。

2. 训练与评估策略

模型训练过程中,重点关注以下指标:

  • box_loss:定位精度
  • cls_loss:类别区分能力
  • mAP@0.5:整体检测性能

当模型在验证集上达到稳定收敛并取得较高 mAP 后,即可进入部署与应用阶段。


在这里插入图片描述

六、推理与可视化系统实现

1. 模型推理逻辑

系统基于 PyTorch 推理接口加载训练完成的 YOLOv8 模型,对输入图像或视频逐帧执行检测,输出包括:

  • 缺陷类别
  • 置信度
  • 边界框坐标

这些信息可进一步用于统计分析或风险评估。

2. PyQt5 图形化界面优势

通过 PyQt5 封装推理流程,系统实现了:

  • 图像/视频/摄像头一键加载
  • 检测结果实时展示
  • 自动保存检测图片与日志
  • 无需命令行操作的工程化体验

这使得系统不仅面向算法工程师,也适用于检测人员与工程管理人员使用。


在这里插入图片描述

七、典型应用场景

该系统在多个实际场景中具备应用潜力:

  • 桥梁日常巡检与快速筛查
  • 历史病害数据对比与趋势分析
  • 科研机构桥梁健康监测研究
  • 高校土木与智能建造课程教学

通过持续积累检测结果,还可进一步构建桥梁全生命周期健康管理体系。


八、未来扩展方向

在当前系统基础上,可进一步拓展以下能力:

  • 引入 图像分割模型,实现裂缝精细化测量
  • 融合 红外或多光谱数据,增强隐蔽病害识别
  • 部署至 边缘计算设备或无人机平台
  • 结合时序数据,分析病害演化趋势

在这里插入图片描述

结语

本文介绍了一套面向实际工程应用的 桥梁病害智能检测系统,通过 YOLOv8 高性能目标检测模型与 PyQt5 可视化工具的结合,实现了从数据、模型到应用的完整闭环。

该方案在提升检测效率、降低人工成本、增强结果一致性方面具有显著优势,为桥梁智能巡检与结构健康监测提供了一条可落地、可扩展的技术路径,也为工业视觉在基础设施领域的应用提供了有价值的实践参考。

本文从实际工程应用角度出发,系统梳理了一套基于深度学习目标检测模型的智能识别解决方案,完整覆盖了数据准备、模型训练、推理验证以及应用系统集成等关键环节。通过将算法能力与可视化应用相结合,实现了从模型效果验证到业务可用系统落地的转化,体现了人工智能技术在真实场景中的工程价值。整体方案结构清晰、技术路线成熟,既具备较强的复用性与扩展性,也为相关领域的智能化升级提供了可参考、可落地的实现范式。

基于 YOLOv8 的多车型交通车辆实时检测识别项目 [目标检测完整源码]

一、背景与问题引入

在智慧交通体系中,“看得清、分得准、跑得快”始终是视觉感知系统的核心诉求。传统基于规则或特征工程的方法,在复杂道路环境、密集车流、多车型混行的场景下,往往存在鲁棒性不足、维护成本高的问题。

随着深度学习目标检测模型的成熟,YOLO 系列逐渐成为交通视觉领域的主流方案。其中,YOLOv8 以其 Anchor-Free 架构、更优的速度–精度平衡以及完善的工程生态,非常适合用于实时车辆检测与系统级落地。

本文将从工程实践角度,完整介绍一个 支持 12 类常见交通车辆、具备图形化界面、可直接部署运行 的实时检测系统设计与实现思路。
在这里插入图片描述

源码下载与效果演示

哔哩哔哩视频下方观看:

https://www.bilibili.com/video/BV1dwg5zCEkL/

在这里插入图片描述

包含:

📦完整项目源码

📦 预训练模型权重

🗂️ 数据集地址(含标注脚本

二、系统整体架构设计

该系统并非仅停留在“模型推理”层面,而是以完整应用系统为目标进行设计,整体架构可划分为四个核心模块:

┌────────────┐
│  数据输入层 │  ← 图片 / 视频 / 摄像头 / 文件夹
└─────┬──────┘
      │
┌─────▼──────┐
│  检测引擎层 │  ← YOLOv8 Detection Model
└─────┬──────┘
      │
┌─────▼──────┐
│  结果处理层 │  ← NMS / 置信度过滤 / 可视化
└─────┬──────┘
      │
┌─────▼──────┐
│  UI 交互层  │  ← PyQt5 图形界面
└────────────┘

这种分层结构具备以下优势:

  • 算法与界面解耦,便于模型升级
  • 输入方式可扩展(无人机、RTSP流等)
  • 易于二次开发与功能叠加

在这里插入图片描述
在这里插入图片描述

三、核心功能能力解析

3.1 多源输入的统一检测流程

系统支持多种数据源接入,并统一走同一套检测逻辑:

  • 单张图片检测:适合离线分析与测试
  • 文件夹批量检测:用于数据清洗与标注校验
  • 视频文件检测:适配道路监控录像
  • 实时摄像头检测:满足在线监控需求

在底层实现上,通过对输入源进行抽象封装,确保模型推理逻辑保持一致,避免重复代码。


3.2 多车型精细化识别

本项目针对真实交通场景,定义了 12 类常见车辆类型,涵盖:

  • 轿车、SUV、面包车
  • 公交车、卡车、工程车辆
  • 特殊用途车辆等

YOLOv8 的 Anchor-Free 机制在多尺度目标(远距离小车 / 近景大车)检测中表现稳定,有效降低漏检与误检率。


3.3 PyQt5 图形化交互系统

为了降低系统使用门槛,引入 PyQt5 构建桌面级应用界面,核心设计原则是:

  • 无需编程经验即可使用
  • 操作路径清晰
  • 结果可视、可保存

主要功能包括:

  • 输入源选择与切换
  • 检测启动 / 停止控制
  • 实时画面显示(带检测框)
  • 检测结果自动保存

这使得模型能力真正转化为“可使用的软件”,而不仅是脚本级 Demo。


在这里插入图片描述

四、YOLOv8 模型训练与评估实践

4.1 数据集组织规范

项目采用标准 YOLO 数据格式,便于复用与迁移:

dataset/
├── images/
│   ├── train
│   └── val
└── labels/
    ├── train
    └── val

标签文件采用归一化坐标,兼容 Ultralytics 官方训练接口。


4.2 模型训练策略

训练阶段基于 YOLOv8 预训练权重进行微调,核心关注点包括:

  • box_loss:定位精度
  • cls_loss:车辆类别区分能力
  • dfl_loss:边框质量优化

在实际项目中,当 mAP@0.5 稳定超过 90%,即可满足工程部署需求。


4.3 推理与部署方式

模型推理通过 Ultralytics 官方 API 完成,具备如下特点:

  • 接口简洁,代码量少
  • 支持 CPU / GPU 自适应
  • 可导出 ONNX / TensorRT

结合 UI 层,可直接形成“即点即检”的完整工作流。


在这里插入图片描述

五、工程化落地与可扩展性

与单纯算法实验不同,该项目在工程层面具备以下实用特性:

  • 完整源码与权重打包
  • 一行命令启动系统
  • 训练 / 推理 / UI 全流程覆盖

在此基础上,可进一步拓展:

  • 车辆轨迹跟踪(DeepSORT / ByteTrack)
  • 车流量统计与时间序列分析
  • 多路摄像头并行检测
  • 智慧交通平台对接

在这里插入图片描述
在这里插入图片描述

六、总结与展望

本文从系统视角出发,完整介绍了一套 基于 YOLOv8 的多车型交通车辆实时检测平台 的设计与实现思路。通过将高性能目标检测模型与 PyQt5 图形界面深度融合,实现了从算法能力到实际可用系统的有效转化。

该项目不仅适用于智慧交通与城市监控场景,也非常适合作为:

  • 计算机视觉工程实战案例
  • AI 教学与科研实验平台
  • 工业级视觉系统原型

随着模型与算力的持续演进,交通视觉系统将不再只是“看见车辆”,而是逐步走向 理解交通、预测交通、优化交通。这一项目,正是迈向该目标的一个扎实起点。

在这里插入图片描述

本文从工程化与系统化的角度,介绍了一套基于 YOLOv8 的多车型交通车辆实时检测系统,完整覆盖了数据输入、模型训练、推理部署以及 PyQt5 图形化交互等关键环节。通过将高精度目标检测模型与易用的桌面端界面相结合,系统实现了对多种交通场景下车辆目标的稳定识别与实时展示,显著降低了深度学习技术在智慧交通领域的使用门槛。整体方案结构清晰、可扩展性强,不仅具备直接落地应用的工程价值,也为后续在车流统计、行为分析和交通智能决策等方向上的功能扩展提供了良好的技术基础。

刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家

0%
icon展开列表
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
今天
img
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
今天
img
DeepSeek连发两篇论文背后,原来藏着一场学术接力
今天
img
仅需一个混频器的无线射频机器学习推理,登上Science Advances!
今天
img
国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
01月15日
img
联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
01月15日
img
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
01月15日
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
01月15日
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
01月15日
img
刚刚,喝到了千问APP给我点的奶茶
01月15日
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
01月15日
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
01月15日
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
01月15日
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
01月15日
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
01月15日
img
Agent时代,为什么多模态数据湖是必选项?
01月15日
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
01月15日
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img

刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家

刚刚,Geoffrey Hinton 正式成为历史上第二位 Google Scholar 引用量突破 100 万大关的计算机科学家。

图片

在他之前,只有他的老搭档、另一位「深度学习教父」Yoshua Bengio 达成了这一成就。目前,Hinton 的引用量仍在以惊人的速度增长,每一次引用都代表着他对人工智能领域不可磨灭的贡献。从反向传播算法的推广到 AlexNet 的惊艳问世,从获得图灵奖到斩获 2024 年诺贝尔物理学奖,Hinton 的职业生涯几乎就是一部现代 AI 的发展史。

这一数字不仅是学术影响力的量化,更是对这位 78 岁长者一生执着探索的最高致敬。

Geoffrey Hinton:来自学术世家的「教父」

童年

Geoffrey Everest Hinton,1947 年 12 月 6 日出生于英国伦敦的一个学术世家。他的中间名「Everest」来自他的叔祖父,也就是以其名字命名珠穆朗玛峰英文名的 George Everest。他的家族星光熠熠,曾祖父是布尔逻辑的创始人 George Boole,表姑是参与曼哈顿计划的核物理学家 Joan Hinton(寒春)。

生在这样的家庭,压力与荣耀并存。Hinton 的母亲曾给他下过一道温和却严厉的「最后通牒」:「要么做个学者,要么就是个失败者(Be an academic or be a failure)」。这种高期待或许解释了他日后对学术的极致追求。

他的童年充满了像电影《天才一族》般古怪而硬核的色彩。家里养过猫鼬,车库的坑里甚至养着毒蛇。8 岁那年,Hinton 曾挥舞着手帕逗弄坑里的毒蛇,结果一条蛇猛地扑向他的手,仅差一英寸就咬中了他,差点让他丧命。

图片

                8 岁的 Hinton 搂着一条蟒蛇

家族的轶事甚至还涉及到了加拿大政坛。1961 年,他的父亲访华时带回了一打中国乌龟。在旅途中,老 Hinton 与未来的加拿大总理皮埃尔・特鲁多(Pierre Trudeau)住同一间酒店房间。据说老 Hinton 把乌龟都养在了浴缸里,导致特鲁多根本没法洗澡。

求学之路

然而,这位天才的学术之路并非一片坦途,但他对世界本质的好奇心早在 4 岁时就已萌芽。

那时,他在一辆乡村巴士上发现了一个奇怪的现象:当巴士急刹车时,座位上的硬币并没有顺着惯性向前滑,而是反直觉地向后移动。这个违反物理常识的现象困扰了他整整十年,直到后来他才明白这是座位绒毛角度与振动共同作用的结果。对此,他曾说道:「有些人可以接受自己不理解的事物,但我不行。我无法接受有什么东西违反了我对世界的认知模型。」

这种对「理解世界运作方式」的执念贯穿了他的求学生涯。在剑桥大学国王学院期间,他曾在物理学、哲学和心理学之间反复横跳。毕业后,在迷茫中他甚至曾短暂地做过一段时间的木匠。在攻读博士学位期间,由于神经网络在当时不被看好,他一度陷入抑郁和自我怀疑。

在一个类似心理治疗的研讨会上,当其他人都在大喊「我想要被爱」来释放情感时,Hinton 憋了半天,最终吼出了心底最深层的渴望:「我真正想要的是一个博士学位!(What I really want is a PhD!)」。带着这股执拗,他在爱丁堡大学获得了人工智能博士学位,正式开启了他在神经网络荒原上的长征。

图片

      31 岁的 Hinton 与他的博士后同学 Chris Riesbeck

北上加拿大

在 70 年代和 80 年代,当 AI 领域被符号主义主导时,Hinton 就像一个孤独的异类。由于对罗纳德・里根时代美国国防部主导的军事资助感到失望,他做出了一个改变人生轨迹的决定:离开美国,北上加拿大。

除了政治原因,这背后还有一个鲜为人知的温情理由:当时他和妻子计划收养一对来自南美洲的儿女。他不希望在一个当时正暴力干涉拉美事务的国家抚养这些孩子。于是,他在多伦多大学扎根,在那里数十年如一日地在神经网络的「荒原」上耕耘,这也为后来加拿大成为全球 AI 重镇埋下了伏笔。

学术成就

Geoffrey Hinton 最著名的成就之一是与 David Rumelhart 和 Ronald Williams 共同发表了关于反向传播(Backpropagation)的论文,解决了多层神经网络的训练难题,为后来深度学习的爆发埋下了伏笔。

图片

但他的贡献远不止于此:

  • 玻尔兹曼机(Boltzmann Machine)与受限玻尔兹曼机(RBM):为无监督学习和特征表示学习奠定了基础,可用于生成模型和预训练神经网络。

  • 深度信念网络(DBN):在 2006 年提出,通过逐层贪心训练方法有效训练深度神经网络,点燃了深度学习复兴的火种。

  • Dropout:一种简单而高效的正则化技术,通过随机「丢弃」神经元防止过拟合,成为大型神经网络训练的标准做法。

  • t-SNE:一种高维数据可视化技术,用于将复杂数据嵌入低维空间,广泛用于理解深度学习特征表示。

  • 分布式表示(Distributed Representations):强调分布式特征编码在学习系统中的重要性。

  • 胶囊网络(Capsule Networks):提出对卷积神经网络中空间关系处理不足的问题的一种改进,通过「胶囊」表示和动态路由机制增强特征层次感知。

  • 混合专家模型(MoE):通过多个子网络(专家)协同工作并由路由器选择性激活,提高模型容量与计算效率,成为大规模模型的重要设计思路。

  • 知识蒸馏(Knowledge Distillation):提出将大型复杂模型(教师模型)的知识迁移到小型模型(学生模型),在保证性能的同时降低计算成本。

  • 层归一化(Layer Normalization):改进深度网络训练稳定性和收敛速度的技术,对自然语言处理模型尤其重要。

  • 深度生成模型与概率图模型:在生成模型领域提出了多种创新方法,为后续的变分自编码器(VAE)和生成对抗网络(GAN)奠定了理论基础。

  • AlexNet 与 ImageNet 变革: 他与学生 Alex Krizhevsky、Ilya Sutskever 共同推出了 AlexNet,在 ImageNet 竞赛中以绝对优势夺冠。这被公认为深度学习时代的「大爆炸」时刻,证明了深层卷积神经网络在海量数据和 GPU 算力下的统治力。

  • Forward-Forward Algorithm(前向 - 前向算法,2022): 这是他在职业生涯后期对反向传播生物学合理性的反思与挑战,提出了一种更接近人脑运作机制的学习替代方案。

2018 年,他与 Yoshua Bengio 和 Yann LeCun 共同获得了计算机领域的最高荣誉:图灵奖。这三人也常被称为「深度学习三巨头」。

图片

值得注意的是,这三位图灵奖得主也是 Hinton 引用量第二高的论文《Deep learning》的共同作者。该论文于 2015 年 5 月发表于 Nature,十年时间已经收获了超过 10 万引用量。其中系统总结了深度学习的发展历程、基本原理、关键算法(例如多层表征学习、反向传播、卷积神经网络和循环神经网络)以及其在语音识别、视觉识别、目标检测、基因组学等领域的广泛应用,标志着深度学习从学术探索迈向应用驱动的成熟阶段,被公认为推动该领域走向主流的里程碑性工作。

图片

2024 年,Hinton 与 John Hopfield 共同获得了诺贝尔物理学奖,以表彰他们「实现了利用人工神经网络进行机器学习的奠基性发现和发明」。参阅报道《刚刚,2024 诺贝尔物理学奖授予 Geoffrey Hinton、John Hopfield》。

图片

冷静的警示者

然而,这位「AI 教父」在晚年却不仅是一位技术布道者,更成为了一位冷静的警示者。

2023 年 5 月,他从工作了十年的谷歌离职,只为能「自由地谈论 AI 的风险」。他曾表示:「我想我现在对自己毕生的工作有一部分感到后悔。」他担忧数字智能可能会演变成一种比人类更优越的智能形式,并可能因缺乏控制而对人类构成生存威胁。他警告说:「如果你想知道不再是处于食物链顶端的智慧生物是什么感觉,去问问鸡就知道了。」

Alex Krizhevsky 与 Ilya Sutskever

在 Hinton 浩如烟海的著作中,引用量最高的一篇无疑是 2012 年发表在 NeurIPS 上的奠基之作:《ImageNet classification with deep convolutional neural networks》。这篇论文目前的引用量已超过 18 万次(可能仅次于引用量近 30 万的 ResNet 论文和引用量超过 20 万的 Transformer 论文),它不仅标志着深度学习时代的正式开启,也让两位共同作者的名字响彻云霄:Alex KrizhevskyIlya Sutskever

作为 Hinton 的两名得意门生,他们在那间多伦多大学的实验室里,共同推开了 AI 新世界的大门。

图片

  Alex Krizhevsky 与 Ilya Sutskever 是 Geoffrey Hinton 引用量最高的论文的第一和第二作者。

Alex Krizhevsky:低调的隐士天才

作为那篇传奇论文的第一作者,Alex Krizhevsky 是 AlexNet 的主要构建者。正是他编写了关键的 CUDA 代码,让神经网络得以在两块 GeForce GPU 上高效训练,从而在 2012 年的 ImageNet 挑战赛上以惊人的 10.8% 优势碾压第二名,一举震惊世界。

图片

然而,与他在学术界的赫赫声名形成鲜明对比的是他极度低调的性格。Alex 出生于乌克兰,成长于加拿大。他被很多同行描述为一位「纯粹的工程师」,拥有极深的技术洞察力。在谷歌工作了数年后,他于 2017 年离职,理由是「对工作失去了兴趣」。

此后,他加入了初创公司 Dessa,随后又逐渐淡出公众视野。据悉,他目前可能已处于半退休状态,享受着徒步旅行的乐趣。在科技圈追逐名利的热潮中,Alex Krizhevsky 就像一位事了拂衣去的隐士。尽管 AlexNet 如今在技术上已被更新的模型取代,但正如一位评论者所言:「没有他,就没有今天的 ChatGPT,没有便捷的 3A 大作,也没有先进的医学影像分析。」

Ilya Sutskever:执着的 AI 愿景者

如果说 Alex 是低调的技术天才,那么该论文的第二作者 Ilya Sutskever 则是充满使命感的 AI 领袖。

图片

Ilya 同样出生于前苏联(俄罗斯),并在以色列和加拿大长大。在多伦多大学期间,他与 Hinton 和 Alex 共同缔造了 AlexNet 的辉煌。随后,他在 Google Brain 参与了序列到序列(Seq2Seq)学习算法和 TensorFlow 的开发,并是 AlphaGo 论文的众多作者之一。

2015 年,Ilya 离开谷歌,作为联合创始人兼首席科学家创办了 OpenAI。他是 ChatGPT 和 GPT-4 诞生的关键人物,被誉为能够「通过直觉看到深度学习未来」的人。然而,他对 AI 安全的关注也日益加深。2023 年,他曾主导了 OpenAI 董事会罢免 Sam Altman 的风波,理由是「沟通不坦诚」,尽管后来 Altman 复职,Ilya 对 AI 对齐(Alignment)和安全超级智能(SSI)的执着从未改变。

2024 年,Ilya 成立了新公司 Safe Superintelligence Inc. (SSI),并为其筹集了 10 亿美元资金。与商业化气息浓厚的硅谷公司不同,SSI 宣称其「第一个产品将是安全的超级智能,在此之前不会做任何其他事情」。

结语

Geoffrey Hinton 引用量突破百万,不仅是他个人学术生涯的高光时刻,也是 Alex Krizhevsky 和 Ilya Sutskever 等一代 AI 杰出人才共同奋斗的缩影。

图片

从 Alex 编写的那行 CUDA 代码,到 Ilya 对通用人工智能(AGI)的深邃构想,再到 Hinton 对神经网络半个世纪的坚守与晚年的忧思,这一里程碑背后,是人类探索智能本质的波澜壮阔的历史。

今天,我们致敬 Hinton,也致敬所有为这一刻铺路的研究者。

参考链接

https://scholar.google.com/citations?user=JicYPdAAAAAJ&hl=en

https://www.youtube.com/watch?v=giT0ytynSqg

https://www.britannica.com/biography/Geoffrey-Hinton

https://www.nobelprize.org/prizes/physics/2024/hinton/podcast/

https://torontolife.com/life/ai-superstars-google-facebook-apple-studied-guy/

https://yiqinfu.github.io/posts/hinton-intellectual-dynasty/

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

0%
icon展开列表
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

图片

胡宇航(网名 “U 航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。致力于赋予机器人 “自我模型” 能力,即构建对自身物理结构与运动的内部表征,使机器人能够更好地理解自身,并适应多变的形态、环境与任务。在仿生人机交互方向,他提出融合语音、视觉与动作的情绪理解与表达一体化系统,为机器人提供更加自然的交互能力。通过自监督学习机制,他的方法使机器人在无需人工干预的情况下不断提升人机互动质量,朝着具备终身学习能力的智能体不断迈进。

图片

论文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017

曾发表论文:

  • Hu, Yuhang, et al. "Human-robot facial coexpression." Science Robotics 9.88 (2024): eadi4724.

  • Hu, Yuhang, Jiong Lin, and Hod Lipson. "Teaching robots to build simulations of themselves." Nature Machine Intelligence (2025): 1-11.

  • https://mp.weixin.qq.com/s/HdnbBweZseTjMedyWHDLSg

2026 年 1 月 15 日,一项来自美国哥伦比亚大学工程学院的突破性研究正式发表于《Science Robotics》,并登上期刊封面。该研究展示了一项全新的机器人技术:一台具备仿生面部结构的人形机器人,通过深度学习实现与语音和歌曲同步的真实唇部运动。它能跟着人类的语言精准张合嘴唇,甚至,能跟着音乐唱歌。标志着人形机器人在人类最丰富的交流通道之一唇部表达上,迈出了突破性一步。

为什么 “嘴唇” 如此重要?

研究显示,在面对面的交流中,人类将近一半的注意力集中在唇部运动上。我们或许能容忍机器人走路笨拙、手部动作僵硬,但哪怕极其轻微的不自然面部表情,都会立刻引发本能的不适。这正是著名的 “恐怖谷”。

长期以来,即便是最先进的人形机器人,在 “说话” 时也只能做出类似木偶的张合动作 —— 如果它们有脸的话。但这一次,情况正在发生改变。

一个会自主学习表情的机器人

在这项研究中,研究团队打造了一张高度仿生的机器人面孔:

在一层柔性硅胶皮肤之下,隐藏着 20 余个微型电机,能够快速、安静且协同地驱动唇部形变。

图片

图 2. 机器人唇形硬件结构。(A)面部机器人设计概览,重点展示了人机交互关键组件:包括扬声器、麦克风、高清摄像模块,以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位,并通过推拉双向运动驱动硅胶面皮,完成说话时所需的复杂唇部动作。(B)搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。(C)唇部驱动系统特写,展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定,可便捷拆卸以进行维护或个性化调整。

随后,机器人被 “带到镜子前”…

就像一个第一次对着镜子学做表情的孩子,机器人通过观察自己面部在不同电机驱动下的变化,构建 Facial Action Transformer (FAT) 模型,逐渐学会如何控制自己的脸(机器人自我建模 Robotic Self-modeling)。研究团队将这一过程称为一种 “视觉 — 动作” 的自监督学习

图片

图 3. 机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力,例如爆破音(/p/ 和 /b/)、双唇音(/m/)以及圆唇元音(/u/ 和 /o/)。通过独立控制上唇、下唇及嘴角,每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。

依靠纯声音驱动嘴形动作

接着,机器人通过观看合成的机器人视频(通过 Wav2Lip)在不同语音语料(由 TTS 和 ChatGPT 生成)的真实唇部变化,进一步学习声音与唇部运动之间的对应关系。最终,这两种能力被整合在一起 —— 机器人得以将收到的声音信号,直接转化为连续、自然的唇部运动。无需理解语义,机器人已经能 “对得上口型”。

图片

图 4. 机器人唇形同步的自监督学习框架。 (A) 数据收集阶段:机器人通过与语音相关的随机指令自主生成数据集,利用 RGB 摄像头捕捉广泛的唇部运动,以获取 3D 唇形数据。(B) 部署过程:始于来自 ChatGPT 的文本输入,文本被转换为音频,随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令,训练由编码器和解码器(VAE)组成的机器人逆向变换器,以生成平滑、准确、可供真实机器人执行的电机指令。

多语言能力

研究团队测试了机器人在多种语言、不同语音环境甚至歌曲中的表现。结果显示,即使在复杂的语音节奏下,机器人也能完成连贯的唇部同步,甚至演唱来自其 AI 生成的曲目。

      机器人多语言口型对齐能力

图片

图 5. 多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明,所有非英语语言的同步误差均保持在英语误差范围内,显示出稳健的跨语言泛化能力。

当然,这还不是终点。研究者坦言,像 “B” 这类需要完全闭唇的音,以及 “W” 这类涉及明显撮唇的发音,仍然存在挑战。但关键在于 —— 这是一种可以随着学习持续进化的能力,而不是写死的规则。

跨越恐怖谷的 “缺失环节”

在研究者看来,面部表情 —— 尤其是唇部的自然运动,正是长期以来机器人能力中的 “缺失环节”。“当前的人形机器人更多关注行走和抓取,但凡是需要与人面对面交流的场景,面部表达同样关键。”

随着人形机器人逐渐进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的‘脸’将不再是加分项,而是入场券。经济学家预测,未来十年全球或将制造超过十亿台人形机器人进入人们的生活场景。而几乎可以确定的是 —— 它们不可能都没有脸。

从实验室走向现实

这项封面研究,不仅是一次学术突破,也展示了中国学者在国际人形机器人领域具备独特的创新能力。

第一作者胡宇航博士表示,当唇部同步能力与对话型大模型结合时,机器人与人类之间的连接将发生质变。“我们交流中有大量情感信息并不在语言本身,而在面部和身体语言中。机器人正在开始触碰这条通道。”

当机器人真正学会像人一样 “说话” 和 “表达”,

恐怖谷,正在被一步步填平。

人类与机器人的信任和情感,将会迎来新的篇章。

用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测

0%
icon展开列表
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
今天
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
今天
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
今天
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img

用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测

图片

编辑丨&

空间蛋白质组学,它代表着蛋白质表达的高分辨率定位,对于生物学与疾病的研究至关重要。而相关空间蛋白质组学的翻译可不算简单,成本、复杂性和可扩展性,现有方法仍不足以填上这些方面的缺漏。

于此,美国斯坦福大学(Stanford University School)等研究团队介绍了 H&E 到蛋白质表达(HEX),这是一个 AI 模型,旨在从标准组织病理切片中计算生成空间蛋白质组学谱。

此外,该团队还开发了一种多模态数据集成方法,结合了上述原始的 H&E 图像与 AI 衍生的虚拟空间蛋白质组学,比传统临床病理学和分子生物标志物,提高了 22% 的预后准确性,并提高了 24% 至 39% 的免疫治疗反应预测。

相关研究内容以「AI-enabled virtual spatial proteomics from histopathology for interpretable biomarker discovery in lung cancer」为题,于 2026 年 1 月 5 日发布在《Nature Medicine》。

图片

论文链接:https://www.nature.com/articles/s41591-025-04060-4

图像特征到空间蛋白表达

HEX 通过利用最先进的病理学基础模型进行训练,基于 H&E 图像同时预测 40 个蛋白质生物标志物的表达,可以从标准组织病理学生成虚拟空间蛋白质组学谱。

团队通过两个独立数据集与包含 57plex CODEX 的泛癌数据集,对 HEX 模型的准确性与普遍性进行了评估验证。

图片

图 1:HEX 的开发、验证及临床应用。

在结构设计上,HEX 以病理图像的局部区域为输入,输出对应区域内多种蛋白的空间表达强度。模型并非简单地进行整体回归,而是保留空间分辨率,使预测结果能够以“图谱”的形式呈现。这一点对于后续的生物学解释尤为关键。

图片

图 2:HEX 在蛋白质生物标志物预测中的性能评估。

  • 交叉性能验证:

实验团队在 Stanford-WSI 数据集进行了五重交叉验证,通过 40 个生物标志物,HEX 实现了 H&E 图像中蛋白质表达的准确预测。与次优模型条件 GAN(CGAN)相比,HEX 显著提升了 26% 的皮尔逊系数、44%的斯皮尔曼系数、15% 的 SSIM 和 80% 的 MSE。

  • 独立验证:

接下来,团队使用完整的 Stanford-WSI 数据集,评估了两个独立微阵列(TMA)的表现。依旧是与次优模型 CGAN 相比,HEX 几乎将所有系数翻了个番。这些结果共同凸显了 HEX 在独立数据集上的普遍性和稳健性。

值得注意的是,HEX 并未只关注肿瘤细胞本身。模型同样能够在肿瘤微环境中,对免疫相关蛋白的空间分布作出合理预测,为后续的免疫状态分析提供了基础。

多模态共关注整合

H&E 提供了详细的细胞组学,虚拟 CODX 图谱提供了关于空间分辨蛋白表达的补充信息。为了整合这些不同但协同效应的数据类型,研究团队开发了多模态共关注整合(MICA),这是一种深度学习框架,可以明确建模跨模态交互和空间关系。

在实验验证的分析中,团队将小细胞肺炎区分为早期与晚期,并检验 HEX 预测得到的虚拟空间蛋白图谱在这两类人群中的表现差异。

在早期肺癌样本中,HEX 预测的空间蛋白表达呈现出更为局部化和结构化的模式。部分与肿瘤发生早期相关的蛋白,其预测信号主要集中于肿瘤边缘区域或特定细胞群体周围。

在晚期肺癌样本中,HEX 预测的蛋白空间模式表现出明显不同的特征。多种蛋白的高表达区域在空间上更加弥散,与组织结构的对应关系也更为复杂。这反映了晚期肿瘤在细胞组成和微环境层面的高度异质性。

图片

图 3:MICA 提升免疫治疗反应预测能力,并识别晚期非小细胞肺癌中的空间蛋白质组特征。

对于早期肺癌患者,这些空间蛋白特征更多与长期预后相关,提示模型捕捉到的信号可能与肿瘤早期生物学行为及潜在进展风险有关。而在晚期患者中,预测信号则更多与治疗反应,尤其是免疫相关治疗结局相关联。

组织学+虚拟空间蛋白质组学

HEX 是一种高精度的预测方式,已扩展至 34 种组织类型和新的蛋白质标记,展示了相较于其他基于 H&E 图像预测蛋白质表达的方法的显著性能提升。相比临床风险因素,HEX 将预后预测的准确性提高了 20% 以上。

HEX 模型实现了更准确的靶向蛋白表达预测,虽然说,目前仍存有依赖抗体行免疫荧光成像等问题,但大都可以期待新型的细胞技术合作解决。该模型为标准组织病理学中的空间生物学研究提供了低成本且可扩展的方法,这使得原本受限于成本和通量的空间分子分析,首次有可能在更大规模的临床数据中展开。

Anki

Anki 是一款免费、开源的闪卡 (flash card) 程序。它运用了例如主动回忆测试和间隔重复的设计,帮助用户进行记忆。

优点

它优秀的点在于,所有卡面我们都可以用 css 自己设计,而且手机,电脑,ipad 之类的可以全端同步。所有卡的内容我们也可以自己制作 csv 文件来导入,拥有非常强大的客制化能力。

由来

这个软件通常的的使用场景为,零碎时间的背单词,或者记忆任何 “问题”,“回答” 的场景。

而,我自认为我的深度学习机器学习基础并不牢靠,很多基础概念甚至有时候都会有遗忘。传统意义上,可能最好的解决方法是去找一个哈佛斯坦福的深度学习公开课,然后啃下来。但实际上,学过公开课的人应该都知道,我们都没啥自控力,顶多看两三节就没然后了。或者是以输出倒逼输入,直接做相关项目,有不会的东西在学,做中学。我是觉得这样对以后的工程能力和整体理解能力都更有帮助,但是,也有一个问题,我没办法走到哪都能写代码,到哪都有一台电脑。我随身的只有手机。那,看深度学习的优秀教科书?《Deep Learning》《Understand Deep Learning》什么的?

我说实话,我试过看 C Primer Plus 或者托马斯微积分之类的大部头书籍,你真的在图书馆慢慢一点一点看还好说,就坐公交等公交那 10 分钟 15 分钟,真的很难有一点点知识吸收。大部分情况都是,努力理解英语本身,英语在脑子里翻译完成中文就到站了,每次看的都是那本书的 “序”。

能力

所以,我为了减轻认知负荷,给日常这种小的碎片时间能学习 DL 的可能,我去做了这么一个词组,我自己写的程序,让 Gemini3.0 pro 来一个章节一个章节的总结那两本经典教材,总结出启发式的问题和回答对。然后设计了整个 anki 的 UI,适配了电脑端,web 端,android 端,ios 端,设计了白天模式和黑夜模式。最终,现在能得到一个好看的,有内容的 “单词本”,我觉得挺有意义的,所以我发出来。

对了,我还让 Anki 的这个单词本支持了 Markdown 格式,也支持了 Latex 公式内嵌,所以,看起来应该还是挺赏心悦目的。

想要的可以找我,我看人多的话我就开源,人不多我就自己学着玩儿了。

展示

Anki:

卡牌示例:

windows:

Android:

[gaivrt (GAIVR) · GitHub]


📌 转载信息
原作者:
gaivrt
转载时间:
2026/1/1 15:25:23

前言

前阵子看到paddle发布SOTA的OCR模型,预览效果很nb,但看很少人去尝试使用。刚好公司有一些书籍类型的pdf(含公式,图片,表格等),内容双栏显示。使用场景够复杂了吧,也是日常会遇到的情况。于是就开始折腾部署PaddleOCR-VL模型。

配置

  • RTX6000(46G显存)
  • Windows11(配置wsl,Ubuntu-22.04)
  • python==3.12
  • 确保wsl内的CUDA 版本必须大于或等于 12.6(nvidia-smi查看)

开始操作

所有流程都在wsl中操作,包括python虚拟环境创建包安装等。我使用非Docker的方式安装
1.创建虚拟环境
conda create -n paddleocr python==3.12
2.安装paddle包

# 以下命令安装 CUDA 12.6 版本的 PaddlePaddle,对于其他 CUDA 版本以及 CPU 版本,请参考 https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/

连续使用以下命令即可

python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

3.python代码(单个pdf文档)

from pathlib import Path
from paddleocr import PaddleOCRVL

input_file = "./your_pdf_file.pdf"
output_path = Path("./output")

pipeline = PaddleOCRVL()
output = pipeline.predict(input=input_file)

markdown_list = []
markdown_images = []

for res in output:
    md_info = res.markdown
    markdown_list.append(md_info)
    markdown_images.append(md_info.get("markdown_images", {}))

markdown_texts = pipeline.concatenate_markdown_pages(markdown_list)

mkd_file_path = output_path / f"{Path(input_file).stem}.md"
mkd_file_path.parent.mkdir(parents=True, exist_ok=True)

with open(mkd_file_path, "w", encoding="utf-8") as f:
    f.write(markdown_texts)

for item in markdown_images:
    if item:
        for path, image in item.items():
            file_path = output_path / path
            file_path.parent.mkdir(parents=True, exist_ok=True)
            image.save(file_path)

4.完成到这部就可以运行了,第一次使用会下载模型比较慢。可能之前安装依赖中断过几次的原因,运行代码报错缺失系统依赖,错误日志丢ai解决即可。
我使用的文档是书中截取的三页内容,并非全书。消耗显存5.9G左右

效果

效果图
可以看到即使两栏内容,paddleocr也能很好的识别连接,公式使用latex,图表这里不知道为什么没识别成表格(官方演示效果)但还是完整保留下来了。有部分公式格式异常,导致公式没有正常渲染。后面写了脚本把二十多个pdf都进行ocr,占用显存44.5G。

结论

目前看效果已经非常好了,个人还没有做多模态检索,所以图片数据不是很重要,但确实已经很好的保留书籍的完整结构。这种文档结构识别再进行ocr的架构(类似于工作流)应该是未来OCR的方向了。

参考连接:使用教程 - PaddleOCR 文档