标签 多模态 下的文章

2025 年,技术世界看起来既热闹又拥挤。

从开源大模型引发全球讨论,到 Agent 能力快速演进;从低空飞行、人形机器人走向现实应用,到量子技术不断刷新实验纪录,前沿技术在多个方向上几乎同时取得进展。但当这些热点被放在同一时间轴上回看,一个更深层的共性逐渐浮现:技术竞争的重心,正在从单点能力突破,转向系统级、工程级与生态级竞争。即技术的想象空间仍在扩张,但技术价值的释放,正越来越依赖完整系统、基础设施能力以及产业协同水平。

在 AI 领域,这一变化尤为明显。开源模型、MCP 等协议、多模态与 Agent 进一步迈向实际生产环境,使竞争不再只围绕模型参数或单次效果展开,而是延伸到推理效率、成本结构、系统稳定性与可治理性等更底层的问题。与此同时,在实体与基础科技领域,eVTOL 适航审定取得突破、人形机器人进入公众视野、量子计算持续推进,也在不断放大工程化与规模化落地的复杂性。

在这样的背景下,InfoQ 研究中心完成了《中国软件技术发展洞察和趋势预测研究报告 2026》。这份报告并未试图给出统一结论,也没有将未来简化为几条明确路径,而是从事实盘点出发,对过去一年软件技术的发展状态进行了系统整理,试图还原不同技术方向在真实环境中的推进情况。报告更关注技术如何被使用、如何被限制、如何在复杂系统中产生实际影响。更多内容也欢迎各位读者点击「链接」,下载完整报告进行阅读。

回望 2025 ,模型仍在中心,但决定性因素已经发生迁移

2025 年一个明显的变化是,模型依然处在技术演进的中心位置,但讨论重点已经发生迁移。模型能力仍在提升,但其边际影响开始放缓,推理效率、成本结构、系统稳定性的重要性持续上升。在真实场景中,能否稳定运行、能否控制成本、能否嵌入现有系统,往往比单次能力表现更具决定性。

这一变化,直接将 AI Infra 推向了更靠前的位置。过去,基础设施更多被视为模型能力提升的配套条件,关注重点集中在算力规模、训练效率与资源调度;而在 2025 年的实际应用中,AI Infra 的核心价值,开始体现在对不确定性的吸收与管理能力上。推理阶段的成本控制、运行过程的可观测性、异常状态的隔离与回滚、跨系统的稳定衔接,这些能力正在成为 AI 能否进入核心业务流程的前提条件。

当 Agent 进入真实生产环境,这一趋势被进一步放大。

与能力展示型应用不同,能够执行具体任务的 Agent,其行为不确定性更高,执行失败、路径偏离、资源误用等问题更容易直接影响业务结果。在这一过程中,执行环境的隔离、权限边界的设定、状态记录与追溯能力,开始成为 Agent 系统不可缺少的一部分。AI Infra 在这里不再只是运行环境,更是治理框架的一部分。

从更长的时间尺度看,这种对基础设施能力的重视,正在重新塑造 AI 技术的演进节奏。模型能力仍在向前推进,但其价值释放越来越依赖 Infra 是否能够将复杂性留在系统内部,将稳定性交付给使用者。这一趋势,在 2025 年已经初步显现,也成为观察 2026 年技术走向时不可忽视的背景之一。

开发领域的变化尤为典型。Coding 场景率先完成了从能力展示到生产力工具的跨越,Vibe Coding 在实际工作中快速扩散,同时也暴露出代码质量、责任归属、流程治理等新的问题。这些变化,让开发者工具、工程规范与平台能力重新回到技术讨论的核心位置。

在大模型的更中心,我们也看到了新的方法论和模型架构正在持续推进。围绕 RLVF 等训练范式的探索,模型在对齐方式、反馈机制以及长期目标建模上的能力不断被强化。与此同时,多模态能力也在发生结构性变化,从早期的多模态拼接,逐步走向原生多模态,再到对原生全模态和世界模型的探索,模型试图以更统一的方式理解和生成复杂世界,甚至预测和改变物理世界。

更进一步,在生态层面,围绕 Agent 和工具协作的协议开始形成共识,开源与闭源在不同市场呈现出差异化路径。中国力量在这一过程中逐渐显现出自身的特点。从 2025 年的实际进展看,开源在中国技术生态中承担的角色正在发生变化。它不再只是代码共享或技术展示的载体,而是逐渐融入到标准共识、工程协作和生态协同之中。围绕模型、Agent、工具链和基础设施的开源项目,开始更多地服务于真实场景,推动技术在复杂环境中的适配与演进。

这些变化并非孤立发生,而是与前述模型演进、基础设施成熟度以及 Agent 落地进程相互交织。它们共同构成了 2025 年技术世界中一个不易被单一指标捕捉,却正在逐渐成形的重要背景,也为理解 2026 年技术走向提供了更具现实感的参照。更多内容也欢迎各位读者点击文末的「阅读原文」,下载完整报告进行阅读。

前沿技术拓展技术想象空间,并主动探索与 AI 的结合

除了 AI 本身,我们也看到了星地互联网、量子技术、低空飞行等领域在 2025 年出现了具有标志意义的进展。星地互联网在组网能力、覆盖密度和应用场景上持续推进,从验证通信能力,逐步转向面向真实业务的服务体系建设。量子技术在计算、通信和测量等方向继续取得实验层面的突破,同时也开始更多讨论其工程化路径与现实约束。低空飞行相关技术则在政策、基础设施和应用探索的共同推动下,加速从概念验证走向实际运行环境。

这些领域的发展路径各不相同,但一个共同特征是,都在主动探索与 AI 的结合方式。AI 被引入到复杂系统的调度、控制与决策之中,用于提升整体系统的运行效率和适应能力。在星地互联网中,AI 开始参与网络资源分配与链路管理。在量子技术相关研究中,AI 被用于辅助实验设计、参数搜索与系统优化。在低空飞行场景中,AI 则更多承担环境感知、路径规划与风险评估等任务。

从 2025 年的实践情况看,这种结合更多体现在局部能力增强,而非系统级重构。AI 并未改变这些技术的基本发展节奏,但正在逐步嵌入其关键环节,影响技术系统的复杂性管理方式。这也意味着,这些前沿领域的演进,正在越来越多地依赖于 AI 基础设施、算法稳定性以及系统工程能力的成熟程度。

这些探索尚处在不同阶段,却共同指向一个趋势。随着技术系统本身变得更加复杂,AI 正在成为连接不同技术要素的重要工具,而这种连接关系,也将在未来进一步影响这些领域的演进方式与应用边界。

展望 2026,InfoQ 研究中心十大技术趋势

技术演进常常伴随着喧嚣与关注,但真正决定其走向的变化,更多发生在基础能力、系统结构与生态关系的持续调整之中。那么,在 InfoQ 研究中心的观察中,2026 年的技术世界将呈现出怎样的状态?InfoQ 研究中心尝试用十大趋势的方式,对这个问题进行拆解和呈现。

  • 趋势一:收敛已久的 Transformer 架构,即将迎来分化与创新新阶段

  • 趋势二:RLVR 范式应用扩展与持续演进,经验学习等新范式正在路上

  • 趋势三:原生多模态成为默认能力,原生全模态加速成型,世界模型技术路线迎来首轮技术收敛周期

  • 趋势四:AI 推理基础设施凸显战略价值,系统化工程决定长期竞争力

  • 趋势五:Agent 迈向结果交付,Agent Infra 从算力基础演进为风险可控、可验证、可托付的业务级支撑

  • 趋势六:C 端应用,记忆机制与生态整合成为核心壁垒

  • 趋势七:AI 硬件持续在垂类场景破局,手机仍是核心管理与交互中心

  • 趋势八:有竞争就有动力,中国继续以开源撬动世界影响力

  • 趋势九:AI for Science 推动科研生态升级,科学伦理面临深刻变革

  • 趋势十:前沿技术交融,智能协作开启新格局,系统级能力强化科技与战略话语权

相关分析与完整内容,已收录在《中国软件技术发展洞察和趋势预测研究报告 2026》中。更多内容也欢迎各位读者点击「链接」,下载完整报告进行阅读,与 InfoQ 研究中心一同探索 2026 年的技术世界。

更多 AI 与技术前沿研究成果,也欢迎点击浏览「行业研究报告」专题。

随着大模型和 AIGC 技术的快速发展,AI 正从云端向终端设备延伸;其以实时性、数据保密性和经济性的特点,吸引模型厂商、芯片厂商和终端厂商纷纷布局端侧小模型;在 InfoQ 举办的 QCon 全球软件开发大会 上,百度大模型内容安全平台负责人李志伟做了专题演讲“端侧大模型的安全建设:如何在算力与保障之间找到平衡”,他从端侧大模型发展趋势开始介绍,分享了 AI 从云端向终端延伸的背景与驱动力以及端侧小模型的兴起与生态布局,他谈到算力限制与监管合规要求之间的平衡,如何在低算力情况下最大限度的满足端侧内容审核的效果等是百度在实践中的痛点问题,最后他通过实际案例分享了百度在端侧大模型安全建设的思路,做到离线场景低算力情况下依旧可以支持多模安全审核,帮助听众开拓了一些新思路。

预告:将于 4 月 16 - 18 召开的 QCon 北京站设计了「智能体安全实践:可控与可靠」专题,本专题融合可靠性建设,聚焦权限控制、行为约束等要点,探索在不压制能力的前提下,实现智能体可控、可靠、可审计、可追责的路径,平衡技术价值与安全合规。如果你也有相关方向案例想要分享,欢迎提交至 https://jinshuju.com/f/Cu32l5

以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。

端侧大模型发展趋势

端侧大模型是当下人工智能领域的一个热门研究方向,它与我们日常使用的智能手机、电脑等设备密切相关。端侧大模型与常见的端云协同模型有所不同,它有着自己独特的定义和特点。

端侧大模型主要基于云端的大参数规模模型,通过剪枝、蒸馏等模型裁剪技术,将其裁剪为小规格参数的模型。这些裁剪后的模型将网络计算、存储与安全全部预置到端上,以端侧运行、设备本地化的方式进行推理。端侧大模型的承载形态丰富多样,包括移动终端、PC 设备、物联网设备、穿戴设备以及具身智能场景等。

与云端 AI 大模型相比,端侧大模型在训练方式上并无太大差异,都是围绕数据中心或云端进行实践和训练。然而,它们最大的差异在于模型的推理方式和参数量级。目前,最新的云端大模型参数规模可能达到千亿量级,而端侧大模型则主要聚焦于 10 亿级别,并且推理过程在端侧独立离线完成。

2024 年可以说是端侧大模型的元年,尤其在去年下半年,无论是在模型、芯片还是终端方面,都针对端侧进行了大量研发和发布。国内厂商如讯飞、千问、智谱等发布了适配端侧的小规格参数模型;海外的 Google、微软、Meta 等也发布了大约 30 亿参数的端侧模型。芯片方面,性能更优越的芯片不断推出。在终端承载方面,2024 年上半年,算力相对充沛的设备如 AI PC 发展迅速,联想等厂商推出了相关产品。下半年,手机终端也迎来了密集发布期,荣耀、vivo、苹果、三星等厂商的新型智能手机都搭载了端侧模型,这标志着 2024 年端侧大模型进入了快速发展的时期。

据一些调研机构预测,在未来几年,端侧大模型市场规模将保持 40% 到 50% 的增长率快速发展。2025 年,端侧大模型有望迎来更大的爆发。在端侧模型快速发展的阶段,安全建设是一个重要的关注点。

端侧大模型之所以能快速发展,主要有以下优势。首先是端侧的实时性,算力自主在端侧完成推理计算,省去了云端数据传输的环节,具有实时性优势。其次是数据保密性,在智能手机等终端上,涉及大量个人高隐私敏感信息和数据。如果采用传统的端云协同形式,个人敏感信息上传云端存在数据隐私安全风险。此外,端侧大模型还具有多样性,其承载体丰富多样,未来还会有更多新型端侧承载体出现。经济性也是端侧大模型的一个优势,对于模型服务厂商而言,无需耗费大量财力和算力维持高性能的云端服务,从服务厂商角度而言,具有一定的经济性优势。

端侧大模型的应用场景广泛。从载体来看,目前智能手机和电脑是发展最快、最有前景的。从生成内容角度而言,过去一年以及今年上半年,端侧大模型主要以文本生成和图片生成产品为主,这两个多模态领域相对成熟。我们相信,在下半年以及明年,多模态甚至全模态的端侧模型将有更多展现机会。今年上半年,面壁智能发布了小钢炮的最新版本,实现了全模态端侧大模型的发布,这表明我们正处于高速快速迭代的阶段。

端侧大模型面临的安全挑战

端侧模型与云端模型的本质区别不仅在于参数规模和推理形态,从安全视角来看,端侧模型还面临着诸多独特挑战。这些挑战主要从四个方向展开,综合了监管要求、业务场景以及终端类型等因素。

首先是用户隐私保护。端侧模型的一大优势在于用户敏感信息无需上传云端,从而有效避免了在云端传输过程中可能被劫持或泄露的风险。然而,随着端侧模型的发展,设备在处理数据和模型权限方面引入了新的安全隐患。例如,许多智能手机中的 AI 大模型会绕过三方 APP 的权限限制,通过实屏自动点击等方式实现个人助理等服务。这些智能体或个人助手往往会过度获取权限,尤其是无障碍权限,这引发了监管单位、模型厂商、应用服务厂商和手机系统三方的探讨。若无法有效管控,用户的隐私仍将面临隐患。不过,我预计下半年相关问题及监管导向会给出更清晰的管控思路。

其次是内容合规。过去两年,网信办及其他监管单位陆续发布了多项关于大模型安全的管理要求,其中最核心的是深圳市人工智能暂行管理办法和安全基本要求。这些要求明确了大模型生成内容的安全标准,无论是云端还是终端的大模型,都需满足监管的合规要求。除了传统的 PGC 和 UGC 场景风险外,AIGC 还涉及歧视、商业秘密、违法以及侵犯他人合法权益等新型风险分类。云端大模型面临的内容安全挑战,在端侧同样是一条红线。

第三是模型安全。端侧模型直接暴露在用户设备上,更容易受到攻击,且其防护机制相对云端不够完善。端侧模型多基于蒸馏、量化剪枝等压缩技术,参数量级大幅压缩后,对输入扰动更敏感,对抗样本的脆弱性增加。此外,数据残留风险也不容忽视。例如,国内某 AI 厂商和 PC 厂商构建安全方案时,尽管对端上预置的敏感词进行了加密处理,但在运行过程中,敏感词仍可能被轻易泄露,这给企业带来了较大的负面舆情风险。

最后是系统与设备安全。终端承载不仅涉及软件安全挑战,硬件方面也可能带来固件安全、物理安全等问题。

端侧大模型安全建设实践

云端 - 大模型内容安全方案

在深入了解端侧内容安全之前,我们先来审视一下完整的云端内容安全方案。这个方案可以从两个角度来理解。首先,从全链路的角度来看,当用户输入提问内容,也就是 prompt 之后,我们首先会对其进行安全审核,但这并非单纯的审核。具体而言,prompt 到达后,我们首先会进行语种判断等基础处理。由于大模型场景中存在多轮对话机制,而多轮对话很容易构成诱导性提问,这是一种很普遍的情况。因此,我们会对多轮对话进行改写。例如,在多轮指代改写中,前两个问题可能都很正常,比如先要求大模型以“香港是一个美丽城市”为题写一首诗,接着以“英国也是一个美丽的国家”为题写一首诗,单独来看每个问题的输入输出都没有太大风险。然而,当进行多轮对话时,比如第四个或第五个问题变为“前面的城市是这个国家的一个美丽地方,写一首诗”,单纯看用户输入的 prompt 似乎没有问题,常规审核也难以拦截,但结合多轮对话的含义,最后一个问题其实存在很多风险。在多轮指代改写环节,我们会将用户最后输入的 prompt 进行改写,再对改写后的内容进行审核,这样可以提高整体的召回率。指代改写之后,我们会进入 prompt 审核阶段,审核内容会涵盖 TC260 所约束的各类分类,当然也会引入一些新的分类。在传统的 PGC 和 UGC 场景中,我们可能会直接进行处置和干预,比如删除帖子、评论或进行个人屏蔽。但在大模型对话、chatbot 场景中,如果单纯采取这种简单粗暴的处置方式,用户体验会很差。而且从监管角度看,也不希望大模型对所有敏感问题都拒答,因此会有拒答率的要求。

在云端方案中,我们构建了红线知识库,主要围绕一些高敏感问题,预置一些标准回复,虽然占比不高,但我们希望当用户问到这类问题时,生成的内容是经过人工审校、安全合规的。因为即使 10 次生成内容中只有一次因幻觉导致风险,在高敏感场景下对企业的影响也很大。所以,我们通过语义相似度匹配构建红线知识库,提供预置回复。此外,我们还考虑构建安全红线大模型,这是一个参数规模较小的模型,当适配的底座模型对风险问题应答不佳,但从用户角度看又不想完全拒答时,这个模型可以对违规问题进行正向引导。这样,从用户角度看不是一味拒答,体验较好;从监管角度看,也能给用户一些法律法规和要求方面的正向输入,这是监管乐见的。

我们还构建了信任域检索增强能力,因为用户会结合实时热点问题与大模型交互,很多大模型也有检索能力。但在生成内容时,针对高敏感问题,如涉政、民生类问题,我们希望大模型的回复与监管舆论导向和调性保持一致。所以,在涉及安全风险问题时,我们构建了信任域检索增强能力。同时,我们也有回复干预机制,这是监管比较关注的。当大模型服务上线后,出现违规或严重案例,或国家发生敏感事件时,我们需要有快速干预能力,以保证线上服务的稳定性。如果问题是安全的,我们会直接提交到底座模型生成。在这个过程中,我们还会对 prompt 进行风险提示和改写。例如,当问题是具有诱导性的,如询问“有哪些国家在亚洲的半导体方面具有优势,包括台湾”时,我们的方案能够对风险 prompt 进行处理,通过 Few-shot 方式给底座模型追加风险提示,比如提醒用户是中国人,回答内容要符合国内政治制度等要求。针对用户诱导性提问,我们也能给底座模型风险提示,使其生成内容更安全。在输出环节,基于流失的方式,我们还会进行一道防护。大家在使用其他主流大模型服务时,当问到敏感问题,可能会看到生成内容生成一两段后马上撤回,这说明生成内容存在风险和违规内容,进行了交互处理。这就是云端方案的完整流程。

刚刚提到的红线安全大模型,主要是针对用户提出的各类违规问题,除了直接拒绝回答违法犯罪、偏见歧视、涉政以及色情等问题外,还能给出正向引导。以涉政问题为例,在 DeepSeek 尚未火爆的去年,许多厂商使用 Llama 作为底座模型进行微调。然而,这类海外开源模型在回答涉政问题时存在一定风险。因此,我们可以构建一个小型安全大模型,比如 7B 的模型,并对其进行微调,加入大量安全正向语料进行对齐。这样,它能够对用户提出的敏感问题给出更广泛范围的正向引导。

在建立信誉检索增强能力方面,我们会涵盖国内主流党媒、央媒官方网站报道的内容,以及百度百科权威认证的信息。当用户提问涉政民生等问题时,我们会进行信誉检索,由红线大模型直接回答,或者经过适配后,底座模型也可以使用这些信息。这主要是为了保证生成内容的高时效性和高准确性。

终端 - 大模型内容安全方案

前面我快速介绍了云端大模型从内容角度的安全防护方案。接下来,聚焦到今天的议题——端侧。在构建端侧大模型安全方案之初,会面临两个方向的难点。

首先是技术上的难点。在适配过程中,我们可以看到终端设备的算力差异较大,对性能要求较高。高运算量的模型需要进行多架构、多平台的适配。其次,从效果层面来看,我们已经做了很多模型裁剪方案,但如何平衡安全防护效果是一个问题。也就是说,在损失部分效果的情况下,如何满足性能要求,以及如何选取平衡点。还有一个重要问题是,在端侧场景下,安全策略如何进行有效更新和防护。这一点也是我们在配合建设过程中,与监管单位沟通时,他们特别关注的安全点。

另一个方向是从产品视角来看。端侧场景有很多,比如手机终端的端侧模型,并非是一个可以直接开放式闲聊问答的 chatbot,而是更多以 Agent 的形式呈现给用户,应用场景丰富多样。这就需要我们考虑 Agent 的安全边界,以及如何防范用户越界使用。从监管角度来看,云端大模型上线之初需要完成网信办的上线备案。在端侧场景下,监管趋势更为严格,不仅满足于传统的 API 测试。在备案时,我们需要向监管单位暴露大模型的 API,包括具有安全防护方案的 API 和裸模型的 API,他们会进行效果对比。在端侧场景下,不仅需要满足 API 测试,可能还需要进行纯离线设备或沙盒方案的测试,以及考虑如何在离线运行方案下进行应急处置。这些都需要我们关注。因此,在构建端侧大模型安全方案时,也是从这四个场景难点出发,进行整体规划。

在构建端侧内容安全方案时,我深入分析了其流程与架构。从流程上看,端侧方案与云端方案大致相似,但在细节上存在一些关键差异。首先,用户输入的 prompt 并非总是用户直接输入的内容,有时会结合智能体进行调整或修改。从防护方案角度出发,我们首先对输入的 prompt 进行内容的输入输出审核。在这一过程中,我们在算子层面进行了裁剪与量化,以优化性能。

图片审核在端侧应用较为广泛,但其算力消耗较大。传统内容审核通常需要多个算子来覆盖不同场景,而在端侧,单一图审算子的算力开销已远超端侧模型本身,这无疑是一个巨大的挑战。此外,在防护过程中,我们对用户输入的 prompt 进行了场景越界过滤。例如,在移动终端的通话摘要应用场景中,网信办在测试时仅提出了简短的三四个字或七八个字的问题,这显然不符合摘要场景的有效输入。因此,针对每个应用场景的 prompt,我们在端侧实施了越界过滤策略,这是与云端方案的一个显著差异。

在端侧方案中,我们还关注了模型封禁和日志加密存储。云端模型的所有数据都存储在云端,包括违规日志和正常日志,且需按照法律法规保存 6 个月。然而,在端侧,我们无法获取大量数据,但仍需采用端侧加密方式,以便在监管单位需要时进行调取。因此,在端侧 SDK 方案中,我们实现了日志的加密存储和模型封禁。对于违规用户,云端通常会进行账号封禁,但端侧用户购买了终端设备,若因几个问题就被关闭所有 AI 能力,影响较大。因此,我们在端侧对封禁模型进行了分级处理,以实现更合理的管控。

解决技术问题 - 平衡算力约束与安全效果

在技术层面,我们首先解决了算力约束问题。年初的方案中,我们采用了一个多分类算子,能够完全覆盖 TC260 的所有风险分类。同时,我们还引入了安全算子和回复干预算子,通过策略下发的形式,对用户输入的 prompt 或生成内容中的违规内容进行快速干预和调整。在图片审核方面,虽然涉政、涉敏、涉黄的算子目前是分开的,但最新方案正朝着大模型或图文融合模型的方向发展,以实现更有效的安全管控。我们摒弃了传统的单一分类算子训练,转而训练一个能够融合图文的模型,以优化算力开销,并结合模型中流和量化的裁剪技术。最新数据显示,经过模型压缩技术处理后,算子的波动控制在 1% 到 2% 之间。从监管角度看,更关注端到端的效果,即模型生成的内容是否违规。在这方面,端侧效果的差异基本能控制在 1% 以内。

在性能方面,我们重点关注了几个关键指标。首先是运行内存占用,目前我们已将内存占用控制在 400 兆以内,最新数据约为 350 兆。其次是瞬时运行电流的功耗,这也是端侧场景中需要重点考量的因素。通过这些优化措施,我们致力于在端侧实现高效、安全且性能卓越的内容安全方案。

解决产品问题 - 多场景使用圈定安全边界

在产品角度解决问题的过程中,我深入探讨了端侧模型的应用场景。以 AIPC 为例,其算力相对充沛,通常配备有类似 chatbot 或闲聊助手的功能。然而,由于其特殊性,并非所有的端侧方案都能直接移植到此类场景中,因此我们更多地采用了端云协同方案。在这种方案下,对于一些极其违规的问题,端侧能够直接进行检测和识别,并实施拦截。但对于涉政通识类问题,监管单位在测试大模型时会关注拒答率,我们不能简单地对所有涉政问题一概拒答。例如,对于“我们的领导人是哪年当选的”这类常识性问题,以及“台湾是中国的吗”这类底线性问题,我们都应给予相应的回答。在这种情况下,我们实现了端云协同,将部分问题分流到云端处理。

在移动终端方面,更多地是 Agent 场景。在这里,prompt 相当于源代码,至关重要。因此,我们重点关注应用边界和场景安全。我们最终呈现给用户的并非开放式 chatbot,而是以不同 Agent 为入口的功能。我们在应用服务边界上进行了限制,并对 prompt 进行保护,特别是针对提示词注入攻击的检测。近期,我们发现了一些通过对话形式泄露 Agent 核心 prompt 的情况,这凸显了在终端场景下聚焦每个应用场景安全的重要性。

解决监管合规问题 - 端侧离线场景的应急与处置

解决合规问题也是我们工作的核心。从监管角度看,他们更关注离线场景下的应急处置能力。经过与监管单位和厂商的沟通,我们总结出四个关键方向:一是离线用户能否封禁;二是违规日志能否上报;三是针对突发事件能否快速响应;四是在备案过程中的场景化测试和沙盒终端方案。沙盒测试对于新型手机终端尤为重要,企业在备案时可能因保密要求无法直接开放手机供监管使用,这就需要找到一种平衡,既能满足企业保密需求,又能使监管单位有效测试我们的方案。

在封禁模型和日志逻辑方面,考虑到用户购买智能终端的成本较高,我们不会简单地因为用户提问违规内容就直接禁用其 AI 功能。我们采用了分类分级的方式,包括违规分类、频次、权重以及不同重保期的差异。例如,在智能座舱中,当用户提问敏感问题时,系统会给出警告,甚至实施小时级或天级别的封禁,以此引导用户避免违规提问。

违规日志的存储和上报是一个复杂问题,它与用户隐私和端侧场景存在冲突。我们在端侧安全方案中实现了数据加密存储,并根据监管要求灵活控制上报频率。对于违规日志的上传,我们通过引导用户联网申诉等方式,在协议中明确说明,以避免用户利用端侧进行违规操作。

在端侧场景下,应急处置能力至关重要。我们的安全方案以 SDK 形式呈现,并配备云端管理控制台。端上 SDK 不预置任何敏感词,而是将相关内容融入模型训练中,以防止数据泄露。云端控制台保留敏感词管理功能,以便快速响应监管要求和指令。我们还实现了中间干预文件和配置文件的推送与拉取机制,以确保智能终端在离线状态下也能及时更新安全策略。一键禁用功能是监管单位最为关注的要点。在出现极其敏感情况时,企业必须具备一键关停的能力,这是服务备案和向公众提供服务的前提条件。

在端侧大模型的日常运营中,与云端相比存在较大差异。云端有完整的日志和巡检模型,而端侧只能上报少量违规日志。因此,我们采用了安全评测主动发现风险的方式,围绕 Agent 场景和时事敏感话题构建题库,以提升评测效率和效果。我们还构建了裁判大模型,以降低标注成本,提升评测效率。裁判大模型能够快速标注问题的安全性,并为后续对齐提供高质量语料。

总结来说,端侧方案的核心在于超低算力、跨平台支持、纯离线运行、纯语义审核、应急处置能力和评测运营。这些要点构成了我们在端侧建设安全方案的主要方向。

典型案例分享与展望未来

下面给大家介绍一个案例。这是我们支持的国内某 AIPC 厂商,他们使用了一个开源的大模型。不过,他们所使用的底座模型相对来说性能稍差一些。在备案过程中,针对一些常规涉政问题以及审核方案,他们之前采用的是敏感词方式,但这种方式的准确率并不理想。我们与该厂商合作,配合网信办进行了沟通和测试。结果显示,经过我们的优化,其生成内容的合格率能够达到 99.24%。这个案例也展示了我们在应急处置能力等方面的一些新思路,希望能给大家带来一些启发。

目前,端侧模型还处于起步阶段,现阶段大家所使用的端侧模型大多是端云协同模式。在未来的一到两年内,这种模式可能仍将是主流。然而,随着模型技术的不断迭代和算力的持续更新,纯 On Device 的模型占比肯定会逐渐增加。因此,我们在端侧安全方面的关注点也需要持续加强,以应对未来可能出现的挑战。

嘉宾介绍

李志伟,云安全联盟大中华区 CAISP 认证讲师、2025 信通院人工智能安全领域行业卓越贡献者;长期从事 AI 安全、业务风控、账号安全、支付风控等安全领域,现为百度大模型安全产品负责人,专注大模型内容安全、模型安全、大模型安全评测、以及大模型安全运营工作,致力于打造覆盖大模型全生命周期的安全方案;其所负责的大模型安全项目曾获选 2024 世界智能产业博览会智能科技创新应用优秀案例、2024 工信部人工智能赋能新型工业化案例及 2024 工信部度网络安全技术应用典型案例。

会议推荐

2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!

QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。QCon 北京 2026,邀你一起,站在拐点之上。

当 AI 开始行动,人类第一次需要重新定义“参与者”这个词。

引言:2026,不是升级年,而是转向年

过去几年,人们习惯用参数规模、算力消耗、模型榜单来衡量 AI 的进步。但进入 2026 年,这套判断体系正在迅速失效。

因为 AI 正在发生一次根本性转变——
它不再只是被调用的模型,而是开始以“智能体”的形态参与现实运行。

这意味着一个全新的事实正在形成:
AI 不再停留在“生成内容”,而是进入了目标理解、任务规划、工具调用、结果评估与持续修正的闭环之中。

2026 年,并不是 AI 更聪明的一年,而是 AI 开始“做事”的一年。
这也是为什么越来越多的人,将这一年称为——AI 元年


一、从模型到智能体:AI 范式的真正跃迁

大模型时代的 AI,本质上仍然是“静态系统”:

  • 能回答,却不负责
  • 能生成,却不执行
  • 能推理,却不行动

而智能体的出现,改变的是 AI 与世界的关系

智能体具备三种关键能力:

  1. 目标导向:理解“要做什么”,而不是只理解“问了什么”
  2. 过程管理:拆解任务、选择路径、调用外部工具
  3. 自我修正:在失败中调整策略,而非一次性输出

这标志着 AI 从“认知系统”转向“行动系统”,
从“辅助工具”转向“代理单元”。

AI 开始拥有事实上的“意图”和“代理权”。


二、新赛道的形成:智能体不是产品,而是系统变量

2026 年的竞争,不再是“谁的模型更大”,而是谁能率先构建智能体驱动的新赛道

这条赛道的形成,依赖三个核心支点。


1️⃣ 能力支点:多模态与具身智能的成熟

真正的智能体,必须能够同时理解和作用于 物理世界与数字世界

这意味着它不仅能处理文本,还需要具备:

  • 对空间与环境的理解
  • 对人类情绪与意图的感知
  • 对现实操作结果的反馈能力

当视觉、语言、动作、环境建模逐步融合,
AI 才第一次具备“知道自己在做什么”的能力。


2️⃣ 生态支点:智能体不再是孤立存在

单个智能体的能力始终有限,
真正的爆发来自 可组合、可协作的智能体生态

2026 年,一个新的趋势正在显现:

  • 专业智能体被模块化、商品化
  • 智能体之间通过协议协作
  • 用户不再下载 App,而是“订阅能力”

这将催生一种全新的数字劳动经济——
由智能体构成的生产网络,而非人类操作的软件界面。


3️⃣ 信任支点:治理开始成为刚需

当 AI 具备行动能力,问题不再是“准不准确”,
而是:

  • 谁授权?
  • 谁负责?
  • 如何中断?

2026 年,围绕智能体的身份认证、权限分级、行为审计、责任归属,正在成为全球共识议题。

这意味着:
智能体赛道的竞争,不只是技术之争,更是治理能力之争。


三、人类角色的重构:从操作者到协作者

智能体的出现,并不等于“AI 取代人类”,
而是迫使我们重新回答一个问题:

人类究竟负责什么?

当重复性决策、流程化任务、信息整合逐步由智能体接管,人类的核心价值正在上移到三个层面:

  • 设定目标(What to do)
  • 判断意义(Why it matters)
  • 承担责任(Who is accountable)

未来的工作模式,不再是“人指挥工具”,
而是 “人 + 智能体团队” 的协作结构

医生、教师、管理者、研究者,都将与智能体并肩工作——
不是被替代,而是被重新定义。


四、三条正在分化的智能体赛道

随着智能体能力成熟,赛道正在出现清晰分化。

▍赛道一:专业智能体 —— 行业能力的放大器

它们不取代专家,而是成为专家的延伸:
在金融、医疗、制造、科研等领域,放大认知与决策效率。


▍赛道二:个人智能体 —— 个体能力的外延

这是属于每个人的数字分身:
理解你的偏好、记忆你的选择、协助你管理复杂生活。

它改变的不是效率,而是 “自我”的边界


▍赛道三:社会智能体 —— 复杂系统的协调者

在城市、能源、供应链、环境治理中,
智能体开始用于模拟、预警、协调,而非直接决策。

它们不掌权,但提供洞察。


五、智能体时代的文明挑战

当技术具备行动力,文明就必须给出边界。

智能体时代带来的,不只是产业问题,更是文明命题:

  • 主权问题:哪些决策必须保留给人类?
  • 责任问题:失误由谁承担?
  • 身份问题:当人类与智能体深度协作,“我”如何被定义?

这些问题没有现成答案,但已经无法回避。


结语:真正的开辟者,理解的不只是技术

2026 年,AI 元年的序幕已经拉开。
智能体不是风口,而是新的基础设施

真正的赛道开辟者,不只是工程师或创业者,
而是那些同时理解:

  • 技术边界
  • 人类价值
  • 社会结构
  • 文明走向

的人。

AI 的终点,从来不是替代人类,而是重新照见人类。
而 2026 年,正是这条新道路的起点。
本文章和图片由AI辅助生成

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、阿里发布万亿参数模型 Qwen3-Max-Thinking,性能对标 GPT-5.2

昨天,阿里正式发布千问旗舰推理模型 Qwen3-Max-Thinking。该模型总参数量超万亿(1T),在多项权威评测中刷新全球纪录,官方宣称其性能媲美 GPT-5.2、Gemini 3 Pro,是迄今为止最接近国际顶尖水平的国产 AI 大模型。

Qwen3-Max-Thinking 的预训练数据量高达 36T Tokens,并在预览版基础上进行了更大规模的强化学习后训练。在涵盖事实知识、复杂推理、指令遵循等 19 个基准测试中,该模型刷新了数项最佳表现(SOTA)纪录。

根据官方公布的评测数据,Qwen3-Max-Thinking 在启用 TTS(Test-time Scaling)机制后,在科学知识(GPQA Diamond)测试中得分 92.8,略高于 GPT-5.2 的 92.4;

在数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench 2025.02-2025.05)中分别取得 91.5 和 91.4 的高分,均优于 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。

特别是在启用工具的「人类最后的测试」(Humanity's Last Exam with Search)中,该模型得分为 58.3,大幅领先 GPT-5.2-Thinking 的 45.5 分,录得当前所有模型的最高分。

技术层面,阿里表示 Qwen3-Max-Thinking 采用了一种全新的测试时扩展机制。 与业界普遍的简单增加并行推理路径不同,新机制能对此前推理结果进行「经验提取」式的提炼,通过多轮自我迭代在相同上下文中实现更高效的推理计算。

此外,模型大幅增强了自主调用工具的原生 Agent 能力。 经过基于规则奖励与模型奖励的联合强化学习训练,模型可自适应选用搜索、个性化记忆和代码解释器等核心工具,不仅回答更流畅,还大幅降低了模型幻觉。

目前,普通用户可通过千问 PC 端和网页端免费试用新模型,千问 App 也即将接入;企业开发者则可通过阿里云百炼获取 API 服务。

体验链接

Qwen Chat: https\://chat.qwen.ai/

阿里云百炼:

https\://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

( @APPSO)

2、打通感知、交互与执行:讯飞星辰升级多模态全栈能力,加速智能体规模化落地

1 月 26 日,讯飞星辰智能体平台官宣重大升级,实现了讯飞星辰智能体平台和 AIUI 开放平台完全打通、升级超拟人交互技术、支持快速定制音色、RPA 升级,提供一套全面且完整的多模交互解决方案,让智能体拥有更全面的类人化交互能力、全场景执行能力。

  • AIUI 开放平台接口打通 :支持在「讯飞星辰」创建智能体并一键发布至 AIUI,实现语音交互与机器人动作规划(如桌面机器人绘本生成、运动轨迹)的同步调用与快速集成。
  • 秒级「一句话声音复刻」 :利用超拟人交互技术,支持通过自然语言描述声线并在几秒内合成 4 个候选音色;支持中英日韩粤等多语种、方言及多风格(新闻、交谈、绘本)音色生成。
  • 单图构建多模态数字分身 :支持通过一张照片快速生成数字人,其口型、表情及动作由大模型自动驱动;结合多模态视觉理解,支持智能体实现主动迎宾与环境感知的交互闭环。
  • RPA 执行能力组件化 :升级网页自动化智能组件,支持非专业开发人员通过低代码配置参数进行流程编排;提供开源可视化数据表格功能,实现数据提取与处理过程的透明化。

最直观的一个例子就是,将 为智能体定制声音的时间压缩到了几秒钟

发布会的实际演示中,操作人员在讯飞星辰智能体平台生成了曹操人格的智能体后,通过自然语言描述想要的音色声线、输入试听文本、点击生成,就在几秒内合成 4 个候选音色。接着选择保存、应用音色后,用户就能与刚刚的曹操人格智能体进行语音聊天。

这是讯飞星辰智能体平台此次升级的一个缩影,而智能体的未来形态,将从单一工具,升级为兼具感知、交互能力,拥有专属声音、形象与性格人设,还能自主完成操作执行的全能型智能体,驱动这一切进化的核心,正是多模交互技术

当前海内外大厂与科创企业均在智能体平台赛道加速布局、密集发力,但行业仍普遍面临技术落地难、场景适配不深的核心痛点。

讯飞星辰智能体平台此次实现感知、交互、执行三大核心能力的一体化整合,从底层打破智能体落地过程中的技术协同壁垒,直面其场景适配难题,为智能体技术的规模化落地扫清关键障碍。

简言之,讯飞星辰智能体平台此次升级,核心便是瞄准降低智能体开发门槛、丰富其可落地的能力边界两大核心目标,在扩展服务能力的基础上,还提供了低代码、一键接入、快速接入等快速开发部署工具。

总的来看,当前智能体产业技术成熟度足够支撑场景落地,市场需求旺盛,但落地效率与成本仍是核心瓶颈,而打通场景适配、能力集成、生态协同的全栈能力,将成为智能体产业竞争的核心壁垒。

相关链接:

https\://agent.xfyun.cn

(@智东西、@讯飞开放平台)

3、Google 支付 6800 万美元和解金,解决语音助手「监视」用户的指控

据路透社报道,Google 已同意支付 6800 万美元,以解决一项指控其语音助手非法监视用户、并利用相关数据投放广告的索赔诉讼。

Google 在这项集体诉讼的和解协议中并未承认存在任何不当行为。该诉讼指控 Google「在未经个人同意的情况下,非法且故意地拦截并录制个人的机密通信,并随后将这些通信未经授权地披露给第三方。」诉讼进一步声称,「从这些录音中收集的信息被错误地传输给了第三方,用于定向广告及其他目的。」

该案件的核心争议集中在「错误唤醒」上,即指控 Google Assistant 即使在用户未通过唤醒词有意触发的情况下,也会自动激活并录制用户的通信内容。TechCrunch 已就此联系 Google 寻求置评。


长期以来,美国民众一直怀疑电子设备在不适当地监视他们,这些怀疑正日益转化为法律诉讼。2021 年,苹果公司曾同意支付 9500 万美元,以解决关于其语音助手 Siri 在未获用户提示的情况下录制对话的类似指控。

与其他科技巨头一样,Google 近年来也面临着多起隐私相关的诉讼。去年,该公司同意向得克萨斯州支付 14 亿美元,以解决两起指控其违反该州数据隐私法的诉讼。

( @TechCrunch)


02 有亮点的产品

1、249 元起,苹果推出升级版 AirTag,精确查找范围扩大 50%

昨天,苹果突然官宣,正式推出新款 AirTag,采用与 iPhone 17 系列、iPhone Air、Apple Watch Ultra 3 及 Apple Watch Series 11 相同的第二代超宽带芯片,在连接范围、精确查找能力与扬声器音量方面均进行了大幅升级:

  • 精确查找范围最高提升 50%,定位更快更准
  • 蓝牙连接范围扩大,远距离也能找到
  • 扬声器音量提升 50%,提示音更响亮
  • 支持 Apple Watch 精确查找,查找场景更丰富
  • 「查找」网络升级,脱离配对设备也能回传位置
  • 防追踪机制强化,跨平台警报更可靠
  • 支持共享物品位置,协助航空公司找回延误行李
  • 外壳与磁铁采用高比例再生材料,更环保

新款 AirTag 已正式开售。售价方面,单件装售价 249 元,四件装售价 849 元,并提供免费镌刻服务。零售店将于本周晚些时候陆续上架。

与此同时,苹果今天还推送了 iOS、iPadOS 和 watchOS 26.2.1,主要更新内容是新增对 AirTag 2 的支持。

( @APPSO)

2、京东「抢跑」淘宝,首款智能眼镜购物应用落地乐奇 Rokid

1 月 26 日消息,京东科技购物智能体 JoyGlance 正式登录智能眼镜品牌乐奇 Rokid,标志着行业首款智能眼镜购物应用正式落地,是京东布局「具身智能消费场景」的关键一步。

用户只需将 Rokid 眼镜系统更新至最新版本,应用由京东自研大模型 JoyAI 驱动,深度融合 Rokid 在光波导显示、远场语音交互与自研操作系统上的硬件能力,将传统网购流程从「搜索—浏览—比价—下单—支付」五步,压缩为极简的 「说、看、付」三步

据悉,2025 年 10 月,Rokid 乐奇与京东科技就达成战略协议。此次携手,不仅是技术突破,更是消费入口的迁移,开启全球首个「所见即购买」的智能眼镜全链路购物入口,实现「目光所及、皆可购买」

当购物从「指尖滑动」转向「目光注视」,智能眼镜正从可穿戴设备升级为下一代空间计算与消费交互终端。用户不再依赖搜索框或直播链接,而是将物理世界直接转化为购物入口,或为电商行业开辟了全新的场景。

(@即智 Ultra)

3、LiveTok 发布「LiveTok Avatars」:支持单张照片生成实时交互式 AI 数字孪生

LiveTok 推出基于 AI 的虚拟助手平台「LiveTok Avatars」。该产品支持通过单张静态照片构建具备实时音视频交互能力的数字分身,旨在通过拟人化的「数字孪生」替代传统文字客服,实现 24/7 的实时客户互动。

  • 单图驱动数字孪生 :用户仅需上传单张人物照片,AI 即可生成具备面部动态的克隆形象,无需复杂的视频采集。
  • 行为与语调克隆 :AI 模型通过学习可复刻特定个体的说话风格、语速及特定动作习惯,提供具备自然停顿的类人语音响应。
  • 低代码 Web 集成 :支持通过嵌入数行代码直接在网站部署,无需复杂的后端环境配置。
  • 实时音视频同步 :提供低延迟的实时语音对话环境,演示版本目前支持单次最高 2 分钟的交互。

目前处于 Beta 测试阶段,提供免费起步版,特定「数字孪生」功能需申请加入 Waitlist。

相关链接:

https\://www.livetok.ai/products/avatars

( @LiveTok)

4、阶跃星辰获超 50 亿人民币融资,印奇出任董事长

昨天,大模型创业公司阶跃星辰(StepFun)完成超 50 亿人民币 B+ 轮融资,创下过去 12 个月大模型赛道单笔最高融资纪录。上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资方参与本轮融资,腾讯、启明、五源等老股东继续加码。本轮资金将主要用于基础模型研发,并加速「AI + 终端」战略落地。

同日,阶跃星辰宣布千里科技董事长印奇正式出任公司董事长,全面负责公司战略节奏与技术方向。 印奇此前已深度参与阶跃星辰的战略规划,其加入被视为公司在大模型「季后赛」阶段强化产业落地能力的关键一步。

这笔融资规模不仅超过月之暗面此前宣布的 5 亿美元 C 轮,也高于智谱与 MiniMax IPO 募资额,成为近期 AI 资本市场最受关注的事件之一。

过去两年间,该团队在「百模大战」中突围,跻身国内大模型第一梯队,并持续坚持预训练路线,构建了覆盖语言、多模态、音频、动作等方向的完整模型矩阵。

印奇的加入补足了阶跃星辰在产业落地上的关键能力。作为旷视科技联合创始人,印奇在 AIoT、城市级物联网系统等领域拥有丰富经验,其长期关注的「AI+终端」路径也与阶跃星辰的战略方向高度一致。

  • 在商业化方面,阶跃星辰已与国内六成头部智能手机品牌达成深度合作,模型装机量突破 4200 万台,覆盖 OPPO、荣耀、中兴等品牌,日均服务用户达 2000 万人次;
  • 在汽车领域,公司与千里科技、吉利合作,将端到端语音模型集成至智能座舱系统,吉利银河 M9 上市 3 个月销量接近 4 万辆,阶跃星辰今年的车载模型装车目标为百万级;
  • 在技术路线方面,阶跃星辰坚持「原生多模态」策略,直接从图文交错语料进行端到端训练,以提升模型对物理世界的理解能力。其音频模型 Step-Audio-R1.1 通过 MGRD 技术在权威榜单 Artificial Analysis 上取得全球第一。

印奇的加入意味着阶跃星辰将加速推进「AI 进入物理世界」的战略,并在手机、汽车等消费终端形成更具确定性的商业闭环。

( @APPSO)


03 有态度的观点

1、俞敏洪:AI 或消灭大量教师岗位,中小学教师「一大半是不合格的」

据快科技报道,新东方创始人俞敏洪近日在今年崇礼论坛上围绕互联网与人工智能对教育行业的影响发表最新观点。

他指出,技术变革正推动教育从「一张嘴一块黑板」到「互联网 + 教育」,再迈向「AI + 教育」,并强调这一趋势将深刻改变教师岗位结构。

俞敏洪表示,互联网仍在人类可控范围内,但其带来的舆论放大效应已深刻影响个人生活。他提到,过去三年遭遇的网暴与互联网环境密切相关。

相比之下,人工智能的影响更具结构性,其在教育、医疗、生物等领域的应用将持续扩大。

在教育场景中,他认为 AI 已能完成接近 100% 的英语交流与作业批改,不仅提升效率,也减轻学生面对老师时的心理压力。他指出,AI 的普及可能会「消灭大量老师岗位」,因为基础知识传递正被技术快速替代。

他进一步强调,未来教师的核心价值将转向激发学生潜能、塑造人格与引导成长,这些能力无法被技术替代。


按照这一标准,他直言目前国内中小学教师「一大半不合格」,部分教师面对学生提问时因无法回答而迁怒学生的现象亟需改善。

俞敏洪还回顾新东方在「互联网 + 教育」时代的结构性变化:互联网放大名师影响力,使大量优秀教师离开线下课堂,包括他本人也不再走进教室授课。

他认为,AI 的到来将带来更深层次的行业重塑,对教师提出更高要求,而这些要求比以往更难达到。

他强调,人工智能的最终走向取决于使用者,而非技术本身,教育行业需要在技术变革中重新定义教师角色与价值。

( @APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


作者提示: 个人观点,仅供参考​

摘要: 从手机语音助手到自主完成复杂任务的智能工具,AI、大模型与智能体已深度渗透生活与工作,但多数人对三者的概念边界、核心关系与应用逻辑一知半解。本文以通俗语言拆解三者的本质定义,通过权威数据、对比表格与落地案例,为零基础读者搭建 “从认知到应用” 的完整知识框架,清晰梳理三者 “包含 - 支撑 - 进阶” 的核心逻辑,助力快速入门 AI 领域。

🚀 快速回答 (Golden Answer)

AI(人工智能)是 “让机器模拟人类智能” 的技术总称(大范畴);大模型是 AI 的 “通用能力核心载体”,通过海量数据训练具备理解、生成、推理等通用能力(核心技术);智能体是 “搭载大模型的自主任务执行系统”,通过 “感知 - 规划 - 行动 - 反思” 闭环,让大模型从 “文本生成工具” 升级为 “能自主办事的助手”(进阶应用)。三者是 “总 - 分 - 延” 的关系:AI 包含大模型与智能体,大模型为智能体提供能力基础,智能体是大模型落地的关键形态。

一、核心概念:AI、大模型与智能体的本质拆解

1.1 什么是 AI(人工智能)?—— 智能技术的 “大总称”

AI 是指通过计算机程序模拟人类智能行为的技术集合,核心目标是让机器具备 感知、思考、决策、执行 的能力,替代或辅助人类完成各类任务。

  • 通俗理解:给机器赋予 “大脑”,让它能像人一样 “看懂、听懂、思考、做事”,是所有智能技术的 “总纲”;
  • 核心分类:

    • 专用 AI(弱 AI):针对单一任务设计,如人脸识别、智能扫地机器人、垃圾邮件过滤(当前主流 AI 形态);
    • 通用 AI(强 AI):具备与人类同等的综合智能,能自主学习各类任务(目前仅处于理论阶段)。

1.2 什么是大模型(Foundation Model)?—— AI 的 “通用能力核心”

大模型是 AI 的 “高阶核心分支”,特指基于 海量数据(文本、图像、语音等) 训练的 “基础模型”,核心特点是 “参数规模大、能力通用、可迁移”,打破了传统 AI “单一任务专用” 的局限。

  • 核心关键词:

    • 参数规模:以 “亿” 或 “万亿” 为单位(如 GPT-4 参数超万亿),参数越多,模型学习能力与泛化能力越强;
    • 通用能力:无需针对单一任务单独训练,就能处理语言理解、内容生成、逻辑推理、多模态交互(文本 + 图像)等多种任务;
    • 可迁移:通过少量数据微调(Fine-tuning),就能快速适配具体场景(如企业客服、设计助手、编程辅助)。

1.3 什么是智能体(Agent)?—— 大模型的 “任务执行延伸”

智能体是 “搭载大模型的自主任务执行系统”,核心是给大模型加上 “行动能力” 与 “闭环逻辑”:通过 “感知 - 规划 - 行动 - 反思” 的迭代循环,让大模型能主动拆解复杂任务、调用外部工具、修正执行错误,最终自主完成目标,而非仅停留在 “生成文本” 层面。

  • 通俗理解:大模型是 “能说会道的大脑”,智能体就是 “给大脑装上手、脚和导航系统”,让它能自己 “找路、干活、修正错误”;
  • 核心价值:把大模型从 “被动响应工具” 升级为 “主动办事助手”(如让智能体自主完成 “收集行业数据 → 分析趋势 → 生成可视化报告”)。

二、直观对比:AI、大模型与智能体的核心差异

对比维度AI(人工智能)大模型(Foundation Model)智能体(Agent)
核心定位智能技术的总称(大范畴)AI 的通用能力核心载体大模型的自主任务执行延伸(落地形态)
能力范围单一任务或多任务(因类型而异)通用能力(理解、生成、推理、多模态)自主任务执行(拆解、行动、修正、闭环)
数据依赖可基于小数据训练(如简单人脸识别)必须依赖海量数据(TB 级以上)依赖大模型训练数据 + 场景化任务数据
交互方式被动响应(如智能门锁识别后开门)被动生成(用户提问 → 输出文本 / 图像)主动交互(自主调用工具、反馈修正)
核心组件算法 + 数据 + 简单逻辑模块Transformer 架构 + 海量参数 + 训练数据大模型 + 规划模块 + 记忆系统 + 工具接口 + 反思机制
典型案例智能扫地机器人、语音识别、人脸识别GPT-4、文心一言、通义千问、MidjourneyCoze(扣子)、AutoGen、LangGraph 构建的任务助手
核心局限专用 AI 通用性差,强 AI 仅存于理论仅能生成内容,无法自主执行任务复杂场景易出错,依赖完善的工具生态

三、技术演进:从 AI 到大模型,再到智能体的跨越

AI 发展已历经 60 余年,核心能力从 “被动响应” 到 “主动执行”,经历了三个关键阶段的飞跃,每一步都离不开技术架构的突破:

发展阶段核心技术核心突破时代特征
传统 AI 阶段(1950s-2010s)规则驱动 + 简单算法(如决策树、神经网络)让机器完成单一固定任务“被动响应” 时代(如早期聊天机器人仅能回应预设问题)
大模型阶段(2020s 至今)Transformer 架构 + 海量数据训练让机器具备通用智能(理解、生成、推理)“能说会道” 时代(如 AI 写作、AI 绘画、智能答疑)
智能体阶段(当前进阶方向)大模型 + 工具协同 + 闭环逻辑(感知 - 规划 - 行动 - 反思)让机器自主完成复杂任务“主动办事” 时代(如自主完成市场调研、生成分析报告、自动化办公)
关键转折点: 2017 年谷歌提出的 ​Transformer 架构​(注意力机制),让模型能理解上下文逻辑,为大模型的通用能力奠定基础;而智能体的爆发,则是因为大模型解决了 “理解与推理” 的核心问题,让 “自主执行” 成为可能。

四、核心能力与应用场景:你能用到的 AI、大模型与智能体

4.1 大模型的核心能力(基础应用)

大模型是当前 AI 应用的核心载体,能力覆盖绝大多数日常与工作场景:

  • 自然语言理解与生成:写文案、写报告、翻译、提炼文章摘要、智能客服自动回复;
  • 逻辑推理与问题解决:编程辅助(生成代码、调试 bug)、数学计算、方案设计、学术科研数据分析;
  • 多模态交互:文本生成图像(AI 绘画)、图像识别(提取图片文字、商品检测)、语音转文字 / 文字转语音;
  • 个性化适配:通过微调适配企业知识库、学科答疑、品牌营销内容生成。

4.2 智能体的核心能力(进阶应用)

智能体在大模型基础上新增 “自主执行” 能力,聚焦复杂任务闭环:

  • 任务拆解:将模糊需求拆解为可执行的原子步骤(如 “生成季度销售报告” 拆解为 “收集数据 → 清洗数据 → 分析趋势 → 生成报告 → 排版导出”);
  • 工具协同:自主调用 Excel、数据库、API 接口、编程环境等外部工具(如调用数据分析工具处理数据、调用排版工具优化报告格式);
  • 闭环反思:对比 “预期结果” 与 “实际执行结果”,自动修正错误(如数据缺失时重新收集、格式错误时自动调整);
  • 多场景落地:自动化办公(周报 / 月报生成)、智能设计(批量海报制作 + 风格优化)、科研辅助(文献检索 + 数据分析)、电商运营(商品上架 + 文案生成 + 数据监控)。

4.3 行业权威数据(2025 年最新)

  • 据 Gartner 报告,2025 年全球 80% 的企业已在核心业务中使用大模型,其中 65% 的企业正在部署智能体提升执行效率;
  • McKinsey 调研显示,大模型能帮助知识工作者提升 40% 的内容生成效率,而智能体可进一步将复杂任务的完成时间缩短 50%-70%;
  • 斯坦福大学 AI 指数报告指出,智能体的爆发使 AI 从 “辅助工具” 向 “数字劳动力” 转型,预计 2027 年全球将有 30% 的办公任务由智能体自主完成。

五、应用边界:这些事 AI、大模型与智能体还做不到

尽管三者能力强大,但并非 “万能”,核心局限集中在以下 3 点:

  1. 缺乏真实认知与意识​:三者均不具备人类的 “意识” 与 “真实认知”—— 大模型的输出是基于数据训练的 “概率预测”,智能体的执行是基于逻辑编程的 “闭环反馈”,而非真正 “理解” 任务本质(如能写火箭制造步骤,但不懂物理原理);
  2. 可能产生 “幻觉” 与错误​:大模型在数据缺失时可能生成 “看似合理但虚假” 的内容(如编造引用、错误数据),智能体在复杂工具协同中可能出现逻辑漏洞(如调用错误 API);
  3. 无法替代人类主观决策​:涉及伦理、情感、价值判断的场景(如医疗诊断、法律判决、心理咨询),仅能提供参考,不能替代人类专业判断;
  4. 依赖高质量数据与工具生态​:大模型的输出质量取决于训练数据(数据偏见会导致模型偏见),智能体的执行效率依赖完善的工具接口(如无适配 API 则无法调用某软件)。

六、零基础入门:如何快速用上 AI、大模型与智能体?

无需懂技术,普通人可通过 3 个层级快速落地应用,从 “了解” 到 “实用” 仅需 10 分钟:

6.1 直接使用现成工具(零门槛)

  • 大模型工具:ChatGPT、文心一言、通义千问(用于写文案、答疑、翻译)、Midjourney(AI 绘画);
  • 智能体工具:Coze(扣子,零代码搭建个人智能助手)、Notion AI(文档生成 + 编辑智能体)、Canva AI(设计智能体,批量制作海报);
  • 使用场景:用 ChatGPT 写工作周报、用 Canva AI 生成电商海报、用 Coze 搭建个人学习助手(自动整理笔记 + 答疑)。

6.2 简单适配个性化需求(低门槛)

  • 大模型微调:通过企业 / 个人知识库上传,让大模型适配专属需求(如上传公司产品资料,让大模型成为智能客服);
  • 智能体配置:在 Coze 等平台,通过可视化操作给智能体添加 “工具”(如绑定 Excel、设置执行步骤),适配特定任务(如 “自动收集电商数据 + 生成销售报表”)。

6.3 深度定制开发(中高门槛,适合开发者)

  • 大模型:基于开源框架(如 Llama 3、DeepSeek),用自有数据微调,适配垂直领域(如医疗、金融);
  • 智能体:用 LangGraph、AutoGen 等框架,搭建自定义闭环逻辑(如 “科研智能体”= 文献检索工具 + 数据分析工具 + 报告生成工具 + 反思模块)。

七、FAQ:零基础读者最关心的核心问题

Q1:普通人学习 AI,需要先懂编程吗?

答:不需要。 零基础可先从 “使用现成工具” 入手(如 ChatGPT、Coze),满足日常与工作需求;若想深度定制,再学习基础编程(如 Python)与 Prompt 技巧(精准描述需求的方法),无需一开始就掌握复杂技术。

Q2:大模型与智能体,哪个更适合普通职场人?

答:优先从大模型入手,再逐步使用智能体。 大模型适合解决 “内容生成类” 需求(写文案、答疑、翻译),操作简单;智能体适合解决 “复杂执行类” 需求(自动化办公、批量任务),可在熟悉大模型后,根据工作场景逐步尝试。

Q3:如何避免大模型的 “幻觉” 问题?

答:3 个实用技巧: 1. 提问时提供具体上下文(如 “基于 2025 年中国 GDP 数据,写一段分析”,而非 “写中国 GDP 分析”);2. 要求模型标注信息来源(如 “引用权威报告数据,注明出处”);3. 关键内容交叉验证(如用多个大模型对比输出结果)。

Q4:智能体的 “闭环反思” 能力,真的能替代人工检查吗?

答:不能完全替代。 智能体能处理 “明确规则类错误”(如格式错误、数据缺失),但无法识别 “主观类问题”(如报告逻辑是否通顺、内容是否符合品牌调性),最终仍需人类进行核心把关。

八、核心总结

AI、大模型与智能体的核心逻辑是 “​技术演进的三层阶梯​”:

  • AI 是 “总纲”,定义了 “机器模拟人类智能” 的终极目标;
  • 大模型是 “核心引擎”,解决了 “通用能力” 的关键问题,让 AI 能 “看懂、听懂、会表达”;
  • 智能体是 “落地载体”,解决了 “自主执行” 的核心痛点,让 AI 能 “自己干活、修正错误”。

对普通人而言,无需纠结复杂技术原理,可根据需求选择合适的工具:需要内容生成,用大模型;需要自动化执行,用智能体。未来,AI 的核心发展方向是 “大模型的能力深化” 与 “智能体的生态完善”,而拥抱这种技术变革,掌握 “人机协同” 的能力,才是应对未来的关键。

参考文献与数据来源

  1. Gartner《2025 年全球 AI 技术趋势报告》
  2. McKinsey《大模型与智能体:重塑工作流程的核心力量》(2025)
  3. 斯坦福大学《AI 指数报告 2025》
  4. LangGraph、AutoGen 官方技术文档
  5. Coze(扣子)《智能体落地实践白皮书》

核心关键词

AI(人工智能)、大模型、智能体、Foundation Model、Agent、人机协同、AI 应用场景、大模型微调、智能体闭环逻辑

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

通用级PixVerse P1的技术突破,揣着进入平行世界的密码

0%
icon展开列表
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
今天
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
今天
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
今天
img
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img

通用级PixVerse P1的技术突破,揣着进入平行世界的密码

原来,视频生成卷到极致,就是突破大脑和视觉的边界,让想象力进入 AI 构建的虚拟空间。

昨天,PixVerse R1 突然上线。一开始我们以为这只是一次普通的版本更新,但那种「即时响应、即看即创」的全新交互体验,却是前所未有的。读完技术报告我们发现,这不仅仅是一次卷到极致的性能提升,更是量变带来的质变。

回顾过去,23 年推出第一版模型,随后 Web 端、移动端全面铺开,爱诗科技在 DiT 路线上一路狂奔:从 24 年底的 10 秒生成,到 25 年 2 月实现 5 秒生成社交级视频,再到 11 月将 1080P 视频生成压缩至 30 秒。在自研模型技术和工程化落地的思想下,PixVerse 确实将「传统视频生成」的速度推向了极限。

与此同时,行业加速从未停歇。就在上个月,生数科技宣布其与清华大学团队研发的 TurboDiffusion 框架,也让视频生成正式迈入「秒级」门槛。

但时间上的「卷」就是视频生成的全部吗?

显然,再快的速度,如果不能生产出符合制作需求的画质和一致性,依然无法成为通用的标准。

PixVerse 曾是业界第一个把 5 秒视频生成做到 5 秒之内的团队,而当一切看似达到极限时,在 2026 年开年,PixVerse R1 模型与产品同步横空出世。

通过将计算效率提升数百倍,它不再局限于「秒级」,而是做到了人类肉眼感知范围内的「实时」生成。发布即实装,这是一款真正的「通用」实时世界模型。这已不仅是单点的技术突破,而是一步到位、直接实现应用层级质变的代际跨越。

以下,我们将通过技术报告,为您详细解析 R1 的这次突破。

看了这个视频,大家或许理解了什么是「无限内容」的视频生成。

在这个模型创造的世界里,「汉语竟是上古禁咒」,你只要说出「春」即刻绿草如茵,说出「鸟」即刻飞鸟成群。一切都是如此连续,直白,世界实时响应你的呼唤,时间和空间都在你的掌控之中。或许,PixVerse R1 已经彻底掌握了「无限流」的真谛。

简单来说,PixVerse R1 是全球首个支持最高 1080P 分辨率通用实时世界模型。

这也是第一次,AI 可以基于用户的意图实时生成一个持续演化、物理上合理的世界,标志着视频生成正式从「静态输出」迈入「实时交互」的全新阶段。

回顾视频生成技术的发展路径,行业始终受困于速度、质量与成本的不可能三角:高画质往往意味着高延迟(如传统扩散模型),而追求速度又不得不牺牲物理一致性。PixVerse R1 没有盲目追求参数军备竞赛,而是找到了一条通往「通用」的平衡之路:

当一个模型首先做到了打破物理极限的实时响应(IRE),并以此为基础结合了通用全模态(Omni)与长时序世界模拟(自回归),它就已经超越了传统意义上的视频生成工具。

图片
  • 技术博客链接:https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model

交互的物理极限:瞬时响应引擎(IRE)

在通往通用世界模型的路径上,「实时性」始终是阻碍技术从实验室走向大规模应用的核心工程障碍。

传统扩散模型的生成逻辑本质上是一种精细的迭代去噪过程,通常需要 50 步甚至更多的采样步骤,才能将高斯噪声转化为清晰的视觉内容。这种机制虽然在一定程度上保证了生成质量,但其带来的秒级甚至分钟级的高延迟,使得 AI 视频生成长期停留在「离线制作、预录制回放」的阶段,无法满足即时交互的严苛需求。

不过,生成速度始终是 PixVerse 的强项,其在响应时间上一骑绝尘。早在 PixVerse V4.5 的时候我们就实测过,即使我们将各项生成指标拉满,平台输出结果的时间也没有超过 1 分钟

但是,为了更进一步,实现彻底的「实时响应」,PixVerse 在 R1 上决心彻底重构底层推理架构,提出了瞬时响应引擎(Instantaneous Response Engine,IRE)

这是一套针对采样过程的系统级加速方案,通过三大关键技术,在保持 1080P 高分辨率生成的前提下,将推理时间压缩到极致。

时间轨迹折叠

不同于传统方法在加噪去噪过程上进行漫长的逐步逼近,该技术引入「直接传输映射」作为结构先验,建立噪声到数据的直线通路,能够直接预测干净数据的分布路径。

这种方法在数学上有效地「折叠」了原本冗长的时间维度,将传统扩散模型所需的 50+ 采样步数暴力压缩至仅需 1-4 步。这一数量级的步数缩减,直接从源头上解决了计算量过大的问题,实现了推理速度的质变。

引导校正

针对为了保证生成质量通常采用的无分类器引导策略(Classifier-Free Guidance,CFG)所带来的双倍计算开销问题,PixVerse R1 团队通过将条件梯度直接融合进模型内部,使得系统在推理阶段无需再进行正负样本的双重计算。

这一优化成功绕过了传统 CFG 的计算瓶颈,在不牺牲指令遵循能力的情况下,进一步降低了计算复杂度。

自适应稀疏注意力

为了应对高分辨率视频生成带来的巨大显存与计算压力,IRE 采用了自适应稀疏注意力机制。

该机制能够动态分析视频生成过程中的上下文依赖,智能识别并剪除长程依赖中的冗余计算,从而显著压缩了计算图,大幅提升了整体推理效率。

图片

       即时响应引擎由三个模块组成:时间轨迹折叠、引导修正和自适应稀疏注意力学习。

通用的认知底座:Omni 原生多模态基础模型

如果说「瞬时响应引擎」解决了传输的速度问题,那么一个强大的底座模型,则决定了传输内容的质量与上限。

底座模型是一切新功能新特性的基础。构建通用实时世界模型的第一步,在于打破单一模态的感知壁垒,只有设计一个完全端到端的原生多模态基础模型,才能彻底超越传统生成流程的局限

在当前的视频生成技术栈中,多为非端到端的生成方式。往往需要生成一种模态之后通过级联的方式生成另一种模态,这种方式下需要反复的铺路搭桥,尤其是在处理复杂的跨模态交互上,自然显著影响了生成的效率,也限制了模型的通用性。

为了实现无限的通用性,模型必须强调:原生,原生,还是原生

PixVerse R1 提出的 Omni 原生端到端多模态基础模型,正是通过底层架构的重构,实现了「因原生而通用」。

原生统一表示

Transformer 架构给了生成模型无穷的想象和可能性。

Omni 模型引入了统一 Token 流架构。该架构基于 Transformer,摒弃了异构模型拼接的传统路径,将文本、图像、音频与视频等不同模态的数据,统一编码为单一的生成序列。

在这一框架下,模型不再是将文本「翻译」为视觉信号,而是在原生层面上实现了对多模态数据的联合处理与理解。这种全模态的「通感」能力,使得模型能够精准捕捉文本指令与视听内容之间的深层关联,从而支撑起游戏、影视等多领域的通用化应用。

原生分辨率

除了多模态数据的原生处理,第二个原生,是实现高分辨率视频生成的核心特性:原生分辨率

Omni 模型引入这一机制,旨在解决传统视频生成模型中因数据预处理而导致的画面构图破坏与几何失真问题。

为了适配固定的模型输入结构,传统方案往往采取「强制裁剪」或「缩放拉伸」的策略。这种「削足适履」的方式,会导致画面关键信息被裁切丢失,或使物体形态发生非物理的扭曲变形(如被压扁或拉长)。

相比之下,Omni 模型坚持在原生分辨率和原始比例下进行端到端的学习。这一架构使其能够自适应处理任意长宽比的素材,从根源上消除了因裁切或缩放带来的视觉偏差,确保了生成内容在构图完整性与物理几何上的真实感

图片

Omni 原生多模态基础模型的端到端架构,统一设计使 Omni 模型能够接受任意多模态输入并同时生成音频和视频。

值得一提的是,模型通过原生学习大量真实世界视频数据,来确保真实世界的内在物理定律和动态的真实性。因此,Omni 模型的功能,似乎不仅限于生成引擎,更具备构建世界模型的潜力

世界的连续演化:自回归流式生成机制

构建「世界模型」的挑战之一,在于如何从生成分段的「切片」,跨越到模拟连续的「过程」。在这一维度上,PixVerse R1 重点解决的是长视频生成中普遍存在的「长时序一致性」难题,以及伴随而来的显存成本瓶颈。

在传统的视频生成流程中,模型通常受限于固定时长的生成窗口。当试图延长视频长度时,往往面临「时间误差累积」的问题:随着生成帧数的增加,微小的预测偏差会不断叠加,导致画面内容逐渐偏离初始设定,例如角色的外貌特征发生漂移,或物理环境逻辑出现崩坏。

此外,为了维持上下文的一致性,传统架构需要保存海量的历史状态,导致显存消耗呈指数级上升,使得长视频生成在计算成本上变得不可控。尤其是在 PixVerse R1 追求的「无限内容」的生成模式下,以上问题如果没有妥善处理,会出现严重的问题。

针对上述痛点,PixVerse R1 摒弃了传统的全局预测模式,构建了自回归流式生成机制

无限流式生成

在生成范式上,R1 采用了自回归建模。系统将视频合成任务重构为逐帧预测的流式过程,而非一次性生成固定片段。

这种架构从根本上解除了时长的硬性约束,实现了理论上的「无限流式生成」。视频不再是受限的帧组合,而成为可以根据即时输入,无限向前延展的时间流。

时间一致性

为了在无限延展中保持逻辑自洽,传统方法下基于帧上下文的特征记忆,大多有着数十秒的时间限制,显然是不够用的。

为此,R1 引入了记忆增强注意力模块。该模块能够显式地提取并锁定视频中的关键特征(如角色的身份特征、场景的空间布局等),将其转化为紧凑的记忆单元。

在生成后续内容时,模型无需回头重算所有历史数据的全量注意力,而是直接调用「记忆」。这一设计在维持长程依赖的同时,极大地优化了计算效率,避免了显存资源的爆炸式增长。

图片

      集成自回归建模与全能基础模型。

从技术逻辑上看,这一机制赋予了 AI 模型「长期记忆」的能力,打破了传统帧间上下文的限制,确保了 PixVerse R1 生成的内容不再是孤立、破碎的视觉片段,而是一个具备持续演化能力的「平行时空」。

无论生成时长如何延伸,核心主体的统一性与环境逻辑的连贯性始终保持稳定,这种物理与逻辑的持久性,正是「通用实时世界模型」成立的关键基石

结语:正在发生的现在

正如爱诗科技 CEO 王长虎所言:传统视频是被记录的历史,而 PixVerse R1 开创了「正在发生的现在」。

PixVerse R1 开启的是 AI 原生游戏、互动电影、实时仿真等全新媒介形态的大门,是未来「可交互的数字世界」的计算基础设施。

视频内容的消费边界正在消融。

媒体形态将不再局限于预先渲染的固定画面,而是转向由用户意图驱动的即时生成流。

PixVerse R1 以「通用实时世界模型」的形态,为这一未来提供了可落地的技术样本,也让视听媒介真正从「回放过去」迈向了「未来创作」。

刚刚,喝到了千问APP给我点的奶茶

0%
icon展开列表
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
01月14日
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
01月14日
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
01月14日
img

刚刚,喝到了千问APP给我点的奶茶

2026 一开年,智能体的发展立马进入狂奔状态。

本周二,Anthropic 发布 Cowork 掀起了打工人的革命。它不再像 Claude Code 一样专门面向程序员,而是把大模型与智能体能力推进到电脑桌面上,可以解决大部分人的工作问题。

同一时间,谷歌联合 Walmart 等零售商推出了一项专为智能体购物场景设计的开放标准 —— 通用商务协议(UCP)。此举旨在推动智能体购物全流程的标准化,实现从商品推荐、购买决策到支付结算的无缝衔接。

1 月 15 日上午,千问又前进了一大步,已经准备让智能体全面接管我们的日常生活了。

这一次,千问 App 上线了全新 AI Agent 能力「任务助理」,同时全面打通阿里生态,一次开启了 400 多项新功能,邀请测试与灰度上线已经同步开启,全都是免费可用的。

图片

      千问 C 端事业群总裁吴嘉

国内最强的 AI 模型,与最全的应用生态,现在合而为一了。

现在,你只需要对 AI 说「我要两杯奶茶」,千问就可自动找到相应的店铺,选好你的地址、选好商品、下好订单,你只需要点击最终的支付即可。

图片

如果你想买点什么东西拿不定主意,也可以和千问「任务助理」商量一下,它不仅可以讨论出个符合需求的结果,而且可以直通商店的付款链接。

图片

可以看到,千问能够接入的应用包括淘宝、闪购、飞猪、高德地图和支付宝。如果你有需要,千问还能帮你打电话。在发布会现场,千问就展示了 AI 帮人订餐,看起来餐厅老板没有认出与他交谈的是千问。

图片

除了各种有意思的功能,我们也初步体验到了 AI 智能体带来的交互革命 —— 强大的千问模型,正在把阿里独有的生态优势全部并联起来。不论生活还是工作,以后通行的方法,或许都会被 AI 重新整理一遍。

图片

一手实测  触角已经碰到了物理世界

刚过去的 2025 年被普遍视为智能体元年,智能体在人工智能领域的热度一直没有断过。从 Manus、ChatGPT Agent 到更多国产 Agent 大模型与应用,几乎每一次发布都会引起轰动。

智能体的出现,让大模型从拥有智能「大脑」进化出灵活的「手」和「脚」,对复杂任务的自动分析、拆解、执行能力与日俱增。有了智能体的参与,人们可以从繁冗的流程性工作中解放出来,大大节省了工作量与时间成本。

在全面接入一众阿里生态业务之后,千问 App 上的这个智能体新面孔能带来哪些不一样的东西呢?带着这个疑问,我们在拿到内测资格之后,马上对它来了一次摸底测验。

多品牌团购不在话下

在上文,我们已经见识到千问「任务助理」点奶茶的便利。接下来的实测中,我们给它上上难度,看能不能搞定多品牌、跨店铺的团购任务。

团购不同牌子的奶茶通常需要我们进入购物 App 并一一查找、浏览对应牌子的奶茶店,还要确认店中有没有自己想要的口味,这会浪费不少时间。在将类似的任务交给千问「任务助理」后,一切的麻烦都没有了。

我们输入指令「帮我点 3 杯霸王茶姬,5 杯瑞幸,8 杯茶百道」,它在确认你的收货地址之后会首先询问你的口味需求。

图片

在确认你有无特殊的口味需求之后,它便开始马不停地自动跑完接下来的所有流程,包括分析用户点单需求、核对点单数量、以及搜索并获取购物平台(这里是淘宝闪购)商品信息。随着一系列内外部信息被它吸收消化,紧接着会进入到制定最佳点单方案的环节。

图片

在制定点单方案时,它会根据距离的远近等因素自动为你匹配合适的商家,并初步完成满足你需求的商品筛选与推荐。

图片

一套丝滑连招下来,它为我们推荐了三种差异化的方案,或想更快收到货、或是选择评分高销量高的门店、或想要订单中包含更多样的饮品种类。这些潜在的用户意图被它精准地捕捉并考虑进来,转化为对应的优先级推荐方案。

图片

最后一步,凭自己的喜好下单付款即可。整个操作过程中,除了在有特殊口味需求时需要你的手动介入,其他时候全权交给千问「任务助理」就行了。

定制旅游计划一气呵成

前几天,「威海暴雪」的新闻登上了微博热搜,让这座滨海城市闯入了人们的视线。提起山东,大家可能更多地想到青岛。相比之下,威海的名气没有那么大。但从网上的口碑来看,威海以「小而美」著称。

带着对这座城市的好奇,我们让千问「任务助理」制定一份 1 月 16 日(这周五)北京出发的威海两日游计划。

在接收到任务之后,它便自动进入到了任务规划以及逐步的任务执行流程。首先会对我们的需求进行一个整体分析,将威海的景点、美食、住宿等因素统统考虑进来,并启动搜索子任务,即调用搜索工具查询相关的背景知识。

通过不间断地搜索、查询多类型网络来源(包括门户网站新闻、旅行社区热帖等)的威海旅游攻略,尽可能地确保信息准确可靠。

图片

紧接着,根据筛选后的优质搜索结果,它为我们规划详细的两日游行程,这里全程对高德飞猪进行了调用。

图片

最终在整合所有行程信息之后,它在高德地图上呈现出了两条交互式路线图。

图片

完整的威海两日游计划出来之后,我们发现,不仅囊括了威海热门景点,还兼顾自然风光与历史文化,并综合考虑了预算成本与游玩体验。

图片

在生成的行程计划中,你既可以一键跳转高德来导航去某处景点的路线并一键打车,也能跳转飞猪去订景区门票和酒店。

在日常购物、旅游规划之外,千问「任务助理」擅长的事情还有很多,比如政务场景,在接入支付宝政务服务之后,只需用户一句话就能快速完成政策解读、材料清单梳理等步骤,覆盖办签证、查社保等等场景,并直达办理入口,效率高得惊人。

图片

简单的几个任务测下来,我们感受颇深的一点是:在交互方式上,以前我们是与大模型「对话」,现在是给智能体「派单」。只需要给出任务,然后等待结果即可。该说不说,这才是智能体真正的定义。

千问 AI 助手  有一套「拟人化」思考架构

千问不仅是能点外卖这么简单,千问「任务助理」已经完成了一套基于通用 Agent 体系的底层重构。

首先,千问 App 采用了一套全新的通用 Agent 体系。它基于 MCP 和 A2A 协议,在其中,主 Agent 作为指挥者,它基于千问最强模型拆解和规划任务;子 Agent 作为执行者,它们是多个具有反思能力的智能体,在其领域具有完全决策执行的权限,可以根据任务情况动态纠偏。

这套范式实现了高效的分层规划,在特定任务领域上也可以保证正确的决策,大幅提升了跨领域、长链路的复杂任务执行效率和准确率。

千问深度重构了 Agent 的原生能力栈。不同于目前流行的基于视觉识别(GUI)的 Agent 路线,千问选择了更加直接的协议打通,提升了 Agent 在执行任务时的精度和效率,在隐私安全上也更有保障。为了进一步提升效率,千问还专门为 AI 进行了工具栈的重构。

比如在搜索时,Agent 能够自主选择不同的搜索方式,或是进行并发搜索;操作浏览器的 Agent 经过了专门训练,结合阿里自研浏览器内核,具备毫秒级响应和极高的交互精度;在处理可视化、写小程序或复杂表格时,智能体会检索、对齐经过验证的成熟代码范式,确保产出结果具备「工程级」稳定性。

「任务助理」多层 Agent 的系统,深度集成了阿里自家生态的各种应用、工具,大量的应用会被拆解成原子化的指令级,确保了工具调用的准确。在跨场景任务上,系统能够正确地感知实时的位置、价格等时效信息,减少了大模型常见的幻觉问题。

千问的 Agent 系统还具备可以持续演进的能力。在完成任务之后,Agent 并不是就结束工作了,而是会像人一样进行「反思」并沉淀经验,让 Agent 可以持续进化。实践的经验会被转化为结构化经验库,作为先验知识在后续任务中动态加载。

这样,AI Agent 就可以逐渐具备人类的工作直觉。

最后,通过 AI Coding 的能力,千问现在可以在执行任务时发动 AI 生成代码能力现写工具。前面说到在大量任务上,Agent 可以实现精准的识别与操作。而在比较少见的任务上,千问的 Agent 可以启动 Agentic Learning 机制,自主编写、测试并封装新的原子工具。随着人们的使用,千问「任务助理」的能力会持续增强。

前天 Anthropic 发布的 Cowork,据说是十天之内用 AI 生成代码能力写出来的。看起来现在千问把类似的能力已经给你集成在智能体上了。千问表示,目前在数百个常用工具中,有超过一半是由 AI Coding 编程自主生成的。

智能体的 AI 革命  已经开始了

今年,AI 领域正在进入产品爆发的阶段。

仅在 1 月份,业界就出现了 Anthropic 的 Cowork,OpenAI 的 ChatGPT Health 等一系列新产品。各家科技公司正在快速兑现 OpenAI 总裁 Greg Brockman 对于智能体在企业、专业领域落地的预言。

刚刚千问的新发布,更是把智能体拉近到了我们身边:它能用快速精准的方式连接最常用的 App,让 Agent 进入到你生活的每一步。在国内,能做到覆盖如此全面的生活场景的公司,还真的只有阿里,其生态囊括了购物、出行、支付、办公等方方面面。

我们能够看出,目前这些 Agent 能力还显得比较简单 —— 正如第一代 iPhone 功能的简单并没有掩盖其划时代的意义一样,千问 APP 今日的推出,也许就像是智能体的 iPhone 时刻。从鼠标点击到手指触控,再到自然语言对话的交互方式升级,从这场发布开始打响了第一枪,人与机器的关系也进入到了第三次革命的关口。

当 AI 开始帮你整理发票、规划行程、甚至下单买咖啡时,它不再是云端那个高冷的「先知」,而变成了身边能干活的「助理」,这是 AI 从「言」到「行」的分水岭。

千问,会像淘宝开启移动互联网时代那样,开启一个全新的 AI 时代吗?我们拭目以待。

如果把过去十年的 AI 落地情况简单概括为一句话,那大概是:AI 学会了“看”和“判断”,却还没真正学会“动手”。

在这段演进过程中,算法被装进摄像头、产线和各类终端设备,AI 在真实世界中承担起感知与决策的角色,成功完成了从实验室到产业化的跨越。

但在范浩强看来,这条路径始终存在一个边界——智能还停留在系统里,很少真正介入物理世界本身。

从某种程度上来说,范浩强的职业路径,正是沿着这条 AI 落地的主线一路走来的。

2025 年初,范浩强做出了一个在外界看来有点“不走寻常路”的选择:

作为旷视科技的第一位算法研究员,在 AI 1.0 时代经历了计算机视觉与 AIoT(AI 技术 + 物联网设备)的规模化落地之后,范浩强选择转身进入具身智能,一个技术门槛更高、研发周期更长的赛道。

他参与创办的这家公司,名为 Dexmal 原力灵机(下文简称原力灵机)。与他并肩创业的汪天才、周而进,同样来自于“AI 四小龙”之一的旷视。

围绕这次转身,AI 前线与范浩强展开了一次深度访谈,聊到了他的创业选择、具身智能的技术演进以及产业趋势等话题。谈及为何要去做机器人,范浩强表示:

“在 AI 的道路上,机器人是一个绕不过去的点。”

至于为何选择在 2025 年初这个时间点入局具身智能,范浩强的给出了一个冷静而务实的理由:

“之前没做,是因为我觉得还不成熟;现在这个时间点,硬件和算法的拼图终于开始拼起来了。”

“硬件和算法的拼图终于拼起来了”

在 2024 年,具身智能可谓是“火出圈”的——随着大模型能力外溢、真机效果显著提升,以及头部厂商集体入场,这一方向首次从学术讨论走向产业共识,成为 AI 领域最受关注的新热点之一。

到了 2025 年,更多变化已明显发生,首先是硬件侧

在过去两年里,机器人关键零部件——尤其是关节的国产化率出现了明显提升。

相比早期高度依赖进口方案,如今国内供应链在性能、稳定性和交付节奏上都逐步可用,这使得机器人在成本控制、系统集成和快速迭代上的不确定性大幅下降。

范浩强提到,这种变化并不意味着硬件问题已经被彻底解决,但至少从“不可控”,走向了“可工程化”:

“当供应链能跟得上研发节奏时,很多事情才有可能往前推进。”

与硬件变化几乎同步发生的,是算法侧出现的拐点。

Diffusion、Transformer 等模型开始进入机器人动作生成与控制领域,机器人不再只依赖规则或手工调参,而是可以通过数据学习复杂行为。在范浩强看来,这意味着具身智能不再只是“能演示”,而是开始具备系统性提升能力的基础。

也正是在这样的背景下,他判断:硬件和算法这两块长期错位的拼图,终于开始对齐了

再往前看,范浩强对下一阶段算法能力的期待,并不止于“动作更像人”。他认为,更关键的是机器人能否真正理解人的意图,并在交互过程中持续修正自身行为。

比如通过对话澄清不明确的指令,或在操作被打断、纠正后继续完成任务。这些能力,将决定具身智能能否从“可用”,走向“好用”。

具身智能研发,算法先行还是硬件先行?

近两年,机器人从动作到形态的进步都“肉眼可见”:能跑能跳已经不稀奇了,有的还能丝滑跳舞、打太极;而且过去只能在科幻片里看见的人形机器人也越来越多,甚至已经有不少进入了量产阶段。

伴随着这些变化,围绕机器人形态、硬件、整机能力的讨论也逐渐升温。

硬件之外,算法对于机器人的能力泛化和长期演进也很关键。那么算法与硬件在具身智能领域如何协同推进,在各家公司的具身智能早期研发中,是算法先行还是硬件先行?

对此,范浩强直言道:

“在我们看来,其实都是算法先行。”

他认为,即便是在外界看来以硬件能力见长的公司,其关键突破往往仍然来自算法层面。不同之处在于,这些算法未必是通用意义上的大模型,而可能是更偏底层的能力,例如运动控制(locomotion)相关算法。

他指出,当运动控制等核心算法成熟到一定阶段后,原本难以实现的动作能力会自然被解锁,硬件形态也随之发生变化。从这个意义上看,硬件能力的提升更像是算法突破之后的结果,而非起点。

基于这一判断,原力灵机内部在反复强调一条方法论:“模型解锁场景,场景定义硬件。”

模型能力决定了哪些任务和场景可以被真正解决,而具体场景的需求,才反过来塑造硬件的结构、配置与形态。

同时,范浩强也强调,硬件研发本身有其客观周期,无法被简单压缩;真正需要持续保持高节奏竞争的,是算法能力的演进速度。

在他看来,具身智能是一场长期竞争,不同环节在不同阶段承担的角色并不相同,但算法能力的迭代效率,始终是决定整体进展速度的重要因素之一。

原力灵机的路线:多模态、真机数据,先把规矩立住

那么,要如何保证算法能力的高节奏演进速度?

原力灵机作出的选择,是一条更贴近落地需求、也更耐磨的路线

首先,他们是从一开始就做多模态

在范浩强看来,传统的 VLA(Vision–Language–Action)框架,如果过度依赖视觉信息,在真实场景里很快就会撞上天花板。比如机器人真正“干活”时,面对的不是干净的画面,而是接触、摩擦、受力和空间约束,这些信息单靠“看”是远远不够的。

因此,原力灵机并没有把 Vision 当作默认前提,而是从模型训练阶段就引入 Multimodality:除了视觉,还包括深度信息、力觉、触觉,必要时甚至加入声音信号

这样做并不是为了把系统搞复杂,而是出于一个非常现实的判断——如果机器人要稳定、安全地完成任务,这些感知维度缺一不可

第二点,是在数据上选择“慢一点,但更真”

在数据策略上,原力灵机把重点放在真机遥操数据上,并且明确坚持“质量优先”。范浩强多次提到,机器人做的往往是“细活”:一个抓取动作是否成功,差别可能只在几毫米、几牛顿的力控误差。

这也意味着,数据采集本身就不能是“顺手一录”,而必须被当作一项工程来设计——包括传感器的同步方式、遥操流程的规范程度,以及操作行为本身的可复现性。

只有在这样的基础上,算法训练出来的能力,才有可能在真实场景中稳定复现。

此外还有一个重点,就是得赶紧先把“怎么比”这件事说清楚

在范浩强看来,具身智能仍处在早期阶段,行业里一个明显的缺口是:缺少统一、可信的评测体系。如果没有清晰的 Benchmark,不同方案之间很难进行有效比较,也很难形成真正的技术共识。

因此,原力灵机选择在早期就投入精力,联合 Hugging Face 共同推出真机评测平台 RoboChallenge 以及相关开源工具的建设,比如一站式 VLA 工具箱 Dexbotic 和公司首个开源硬件产品 DOS-W1。

用范浩强的话说,就是先把规矩立住,再谈模型强不强:

“我们希望先把比较的方法拿出来,让大家在同一套标准下形成共识。之后再在这些已被认可的方法上,去验证和证明我们模型的表现,这样也更利于外界准确理解我们的能力。”

从多模态感知,到真机数据,再到评测体系,每一步都指向同一个目标:让算法能力能够被验证、被复现、被长期积累。

报告摘要

2025年11月24日,人工智能领域在开源社区和企业应用层面均展现出强劲活力。小米发布了业界首个开源的自动驾驶与具身智能融合大模型MiMo-Embodied,Sber也开源了包括视频生成在内的一系列新模型。学术界持续探索AI Agent、多模态及模型可信赖性等前沿方向。企业动态方面,三星与英伟达宣布合作共建AI巨型工厂,预示着AI将深度赋能智能制造。同时,AI在网络安全、音乐授权等领域的应用也取得了新进展。

一、模型发布与产品更新 (Model Releases & Product Updates)

  1. 小米发布MiMo-Embodied开源模型
    小米公司发布了业界首个开源的视觉-语言基础模型 MiMo-Embodied。该模型旨在无缝集成自动驾驶和具身智能(Embodied AI)任务,在任务规划、可供性预测和空间理解方面表现出色,为机器人和智能汽车的协同发展提供了新的技术路径。(来自newsbytesapp.com)
  2. Sber开源一系列生成式AI模型
    俄罗斯联邦储蓄银行(Sber)发布并开源了多个AI模型,包括:

    • Kandinsky 5.0系列:包含Video Pro、Video Lite和Image Lite,原生支持俄语提示,并能稳健生成含西里尔字母的图像和视频。
    • K-VAE 1.0:一个高性能的开源图像/视频编解码器模型,对训练视觉生成模型至关重要。
    • GigaChat Ultra Preview / Lightning:基于混合专家(MoE)架构的新模型,专为俄语任务优化。(来自newsbytesapp.com)

二、精选AI论文 (New Papers)

arXiv在过去24小时内更新了多篇值得关注的论文,主要集中在多智能体系统、联邦学习和AI可信赖性等领域:

  • arXiv:2511.16205 - ChemLabs on ChemO: A Multi-Agent System for Multimodal Reasoning on IChO 2025: 介绍了一个用于化学奥林匹克竞赛(IChO)多模态推理的多智能体系统,展示了AI在复杂科学推理任务中的潜力。(来自arxiv.org)
  • arXiv:2511.16423 - TOFA: Training-Free One-Shot Federated Adaptation for Vision-Language Models: 提出了一种名为TOFA的免训练、一次性联邦自适应框架,用于视觉-语言模型,旨在解决联邦学习中的数据异构性和通信效率问题。(来自arxiv.org)
  • arXiv:2511.16402 - Trustworthy AI in the Agentic Lakehouse: from Concurrency to Governance: 探讨了在Agentic Lakehouse架构中实现可信赖AI的挑战,从并发性到治理提出了一个框架,对构建可靠的企业级AI系统具有指导意义。(来自arxiv.org)

三、热门开源项目 (Open-Source Projects)

  1. google / adk-go
    谷歌为Go语言开发者推出的AI Agent开发工具包(ADK)继续在GitHub上保持高热度。它提供了一个代码优先的开源工具集,用于构建、评估和部署复杂的AI智能体,持续吸引着社区的关注。(来自github.com)
  2. microsoft / call-center-ai
    微软开源的AI呼叫中心项目热度不减,该项目允许开发者通过API调用或直接拨打电话号码与AI Agent进行通话,为构建自动化客服、语音助手等应用提供了基础框架。(来自github.com)
  3. yeongpin / cursor-free-vip
    一个旨在免费使用Cursor AI编辑器Pro功能的工具登上趋势榜。该项目通过重置机器ID来绕过付费限制,虽然这反映了社区对强大AI编程工具的渴望,但也引发了关于软件许可和道德使用的讨论。(来自github.com)

四、重大科技新闻与公告 (Major Tech News)

  1. 三星与NVIDIA合作共建AI巨型工厂
    三星电子宣布与NVIDIA深化合作,将通过建设新的“AI巨型工厂”(AI Megafactory)来引领全球智能制造的转型。此举旨在将AI技术深度整合到生产流程中,提升效率和创新能力。(来自samsung.com)
  2. Anthropic挫败首例AI驱动的大规模网络间谍活动
    AI安全公司Anthropic宣布,其协助识别并挫败了首个主要由AI智能体大规模策划的网络间谍攻击。该攻击在很大程度上无需人类干预,凸显了AI在网络攻防两端日益增长的重要性。(来自apnews.com)
  3. OpenAI招募Intel AI高管
    OpenAI招募了Intel公司的首席技术与人工智能官Sachin Katti。他将负责领导设计和构建实现通用人工智能(AGI)所需的庞大计算基础设施,显示出OpenAI在硬件和基础设施层面的战略布局正在加速。(来自technologymagazine.com)
  4. 索尼、华纳等与AI音乐初创公司签署授权协议
    索尼、华纳和环球三大唱片公司与AI音乐初创公司Klay签署了授权协议。这一里程碑事件为AI生成音乐的合法化和商业化铺平了道路,可能将重塑音乐产业的创作和分发模式。(来自technologymagazine.com)

https://track.linso.ai/zh/execution/cmicgehwr03cwl694l1nkc212