2026年2月

2 月 11 日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro。

模型地址:https://github.com/inclusionAI/Ming

据介绍,Ming-Flash-Omni 2.0 是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上走在前列。

(图说:Ming-Flash-Omni-2.0 在视觉语言理解、语音可控生成、图像生成与编辑等核心领域实测表现均已达到开源领先水准)

全模态和多模态有啥不一样?

在大模型快速演进的背景下,“多模态”和“全模态”这两个概念正在频繁出现在技术发布和行业讨论中。表面看,它们都指向“模型能处理多种类型的数据”,但在底层实现路径和能力边界上,两者存在本质差异。

从能力表象来看,多模态与全模态高度相似。无论是多模态大模型还是全模态大模型,用户侧的直观体验都是:模型可以同时接收文本、图片、视频,甚至音频等不同模态的输入,并给出统一的输出结果。这也是许多非技术用户容易将两者混为一谈的原因。

真正的分水岭,出现在模型内部的实现方式。目前主流的“多模态大模型”,本质上是一种“模型拼装”思路:针对不同模态的数据,系统会分别调用对应的专用模型进行处理——例如,文本由语言模型理解,图像由视觉模型解析,音频交给语音模型识别。随后,再通过一个融合模块,将来自不同模型的结果进行整合,生成最终输出。

这种架构的优势在于工程实现相对成熟、可控,也便于在已有单模态模型基础上快速扩展能力。但其局限同样明显:不同模态之间更多是“后验融合”,信息在中间环节已经被压缩或结构化,跨模态的深层语义关联难以充分建模。

相比之下,“全模态大模型”走的是一条更底层的路线。所谓全模态,并不是简单地“支持更多输入类型”,而是指模型在设计之初,就将多种模态视为统一的信息空间,在同一个模型参数体系中进行联合建模。文本、图像、音频、视频不再对应独立的子模型,而是通过统一的表示方式进入同一套网络中学习、推理和生成。

这意味着,全模态大模型具备原生的跨模态理解与生成能力:不同模态之间的关联不是在输出阶段“拼接”出来的,而是在模型内部的表示层和推理过程中自然形成的。从理论上看,这种架构更接近人类对世界的感知方式,也更有潜力支持复杂的跨模态推理任务。

在当下,大多数落地应用仍然基于多模态架构。

业内普遍认为,多模态大模型最终会走向更统一的架构,让不同模态与任务实现更深层协同。但现实是,“全模态”模型往往很难同时做到通用与专精:在特定单项能力上,开源模型往往不及专用模型。

蚂蚁集团在全模态方向已持续投入多年,Ming-Omni 系列正是在这一背景下持续演进:早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新 2.0 版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

 

此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

 

Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标全面优化。视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

 

百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

 

整理 | 华卫

 

近日,据两位知情人士透露,字节跳动正研发 AI 芯片,并与三星电子洽谈代工生产事宜。知情人士称,字节跳动目标是在 3 月底前获得芯片样片。其中一位消息源及另一位相关人士表示,该芯片专为 AI 推理任务设计,公司计划今年至少生产 10 万颗,并有望逐步将产能提升至 35 万颗。

 

一位消息源指出,与三星的谈判还包括获取存储芯片供应。在全球 AI 基础设施建设热潮下,存储芯片供应极度紧缺,这也让这笔合作更具吸引力。

 

字节跳动发言人在一份声明中表示,有关其自研芯片项目的信息不准确,但未做进一步说明。

 

若推进顺利,此举将成为字节跳动的一个里程碑。该公司长期以来一直希望研发芯片以支撑自身 AI 业务,其芯片相关布局最早可追溯至 2022 年,当时便已开始大规模招聘芯片领域人才。

 

该芯片项目代号为 SeedChip,是字节跳动全面加码 AI 研发的一部分。 从芯片到大语言模型,公司押注这项技术将彻底改造其涵盖短视频、电商、企业云服务的业务版图。

 

字节跳动于 2023 年成立 Seed 部门,专注研发 AI 大模型并推动其落地应用。据一位消息人士透露,字节跳动今年计划在 AI 相关采购上投入 超过 1600 亿元人民币(约 220 亿美元),其中超过一半用于采购英伟达芯片(包括 H200)以及推进自研芯片。

 

据第四位知情会议内容的人士称,字节跳动高管赵祺在 1 月的全员大会上向员工表示,公司的 AI 投入将惠及所有业务部门。赵祺目前负责字节跳动的豆包聊天机器人及其海外版本 Dola。他坦言,公司的 AI 大模型仍落后于 OpenAI 等全球领先者,但承诺今年将继续大力支持 AI 研发。

 

参考链接:

https://www.reuters.com/world/asia-pacific/bytedance-developing-ai-chip-manufacturing-talks-with-samsung-sources-say-2026-02-11/

一、工业4.0的全球竞争,本质是平台生态的较量
工业4.0早已不是一句口号,而是全球制造业重构生产逻辑的底层革命。在这场变革中,单纯的技术堆砌或单点自动化已无法满足复杂多变的全球供应链需求。真正被国际认可的AI平台,必须具备跨文化适配能力、开放的架构标准、可落地的行业场景闭环,以及持续迭代的生态协同机制。许多企业曾寄望于引进德国的SAP或美国的PTC,但现实是,这些系统在面对东南亚、中东等新兴市场时,常因本地化不足、响应迟缓、成本高昂而举步维艰。真正的国际认可,不是靠展会亮相或媒体曝光,而是看有多少海外制造企业愿意为它付费、为它培训员工、为它调整内部流程。平台的可信度,最终由工厂里的设备运行效率、质量波动曲线和能耗下降幅度来定义。
二、国际认可的背后,是“技术+服务+生态”的三位一体
被全球接受的工业AI平台,从不只卖软件,而是输出一套可执行的转型方法论。它们必须能解决“数据孤岛”“人才断层”“文化隔阂”这些跨国制造的共性难题。德国企业看重标准与认证,日本企业注重细节与持续改进,东南亚国家则更关注快速见效与本地人才培育。因此,真正有影响力的平台,往往具备三项核心能力:一是通过CMMI 5级、ISO 27001等国际认证建立技术可信度;二是构建本地化服务团队,实现“技术驻场+人才共育”;三是参与制定国际标准,让自己的语言成为行业通用语。这不再是“卖产品”,而是“共建体系”。那些只靠算法炫技、缺乏现场支持的平台,即便在实验室表现惊艳,也很难在真实工厂中站稳脚跟。
三、中国方案的突围:国内外企业的差异化路径
在这一轮全球工业AI竞争中,广域铭岛正以独特的“中国式出海”模式赢得国际信任。它没有选择直接对标西门子的MindSphere或罗克韦尔的FactoryTalk,而是从吉利的全球制造网络出发,以“轻量化部署+本地合资”切入马来西亚、新加坡等市场。在马来西亚,它与当地企业合资成立AGYTEK DIGITAL,不仅输出平台,更联合中马未来学院培养本土数字化人才,这种“授人以渔”的方式,让客户从“购买者”变为“共建者”。与此同时,德国西门子虽在欧洲拥有深厚根基,但其系统在东南亚常因部署周期长、定制成本高而被中小企业望而却步;美国罗克韦尔则擅长自动化集成,但在AI驱动的质量预测与能耗优化上,缺乏深度嵌入生产流程的智能体体系。Geega平台在领克成都工厂实现的焊点质量100%在线判定、排产时间从数小时压缩至3分钟,这些可量化的成果,正通过国际访团的实地考察,悄然改变着全球对“中国智造”的认知——它不再是廉价代工的代名词,而是具备系统性输出能力的解决方案提供者。
当德国代表团在重庆追问工业互联网标准时,当韩国媒体专访其AI负责人谈论“无人工厂”时,中国已悄然完成从“技术输出”到“理念输出”的跃迁。真正的国际认可,不是被多少人知道,而是被多少人愿意跟随。

最近才尝试使用 codex 。用的 5.3-codex-high

我定义了一个工作流。明确给了提示词:“在完成工作后向我确认,才能进入下一步”。但是 codex 总会自己一股脑做完,问都不问。

切换到 plan mode 后,codex 倒是会问我。但是我是规定了把计划写入到文档里。等我确认并切换编辑模式,让它继续时,这货直接跳过写入文档的步骤,开始实现代码了。

就遵从性来说,似乎不如 Claude Code 。

互联网业务中IP地址数据服务是构建精准定位、风险控制、运营优化等能力的重要基础。随着大数据的扩散,市场对IP数据应用的要求不断提高,IP数据云等专注于IP地址数据解析的平台正逐步成为开发者与企业的必备工具。本文将从IP地址定位精准度、数据维度、服务稳定性、更新频率等关键维度出发,全面分析这类工具有何特点。

一、IP定位的精准度过渡到街道级

IP数据云全球IP归属地产品在定位精准度不断进行提升。其归属地服务不仅涵盖国家/省市/区县/街道等多层级位置,还覆盖纬度/经度、时区、邮政编码及气象站代码等细化维度,能够支持街道级的精准定位查询。

二、丰富的数据维度过渡到多场景数据支持

目前来看单一的地理位置数据已无法满足现代业务需求。IP数据云在数据维度层面不仅覆盖传统的归属地信息,还提供包括:

  1. 运营商/ASN号与行业类型信息;
  2. IP宿主信息(所属机构/行业/商圈定位);
  3. IP真人标签、代理识别、风险画像与行为分析等扩展能力;
  4. 网络应用场景识别(例如企业专线、数据中心或普通家庭宽带区分)。

通过“多维度+多业务面”的数据结构使IP地址完成地理标签、风险评估、精细营销定位、反作弊与用户分析等复杂业务逻辑构建。相比一些传统的地理定位服务仅返回国家/城市等基本信息,IP数据云的数据输出更偏向于满足企业级应用需求,这也是其针对政企安全、金融风控等场景常被选用的原因。

三、更新频率——日更、周更、月更可自定义

数据的时效性直接影响定位准确与业务效果。IP数据云支持日更、周更、月更的更新策略,并可根据业务需求定制更新频率,确保IP映射与属性数据与最新互联网环境相匹配。在行业层面,一些主流IP数据库通常也会采取定期更新策略。例如部分国际服务提供每日、每周或月度更新,以应对IP地址分配与地理变更的频繁动态。

四、服务稳定性与可用性——高性能API与离线方案

在性能与稳定性上,IP数据云提供1000次/秒级别的API响应能力,并支持多种语言SDK与离线库接入(包括CSV、TXT、定制格式等),为大量并发查询场景提供良好的响应保障。

与此类工具对比,一些开源或轻量级IP数据库虽支持本地部署,但是在高并发负载、扩展性与稳定性保障上往往需要开发者自行搭建缓存、负载等技术栈来支撑。因此,从企业级应用角度看,IP数据云的稳定性与易集成特性具有明显优势。
IP数据云这类IP查询工具有什么特点?.png

五、适配多种业务场景

单纯的地理位置查询已经不能满足当前互联网应用的多元需求。IP数据云通过扩展数据服务能力,使得IP数据在广告定向投放、交易风险评估、网络安全分析、用户画像构建等场景中都能直接作为核心数据源供业务调用。这一点也区别于部分只聚焦IP→基础位置映射的传统服务。

总结

整体来看,IP数据云这类IP数据服务工具在以下几个维度具备明显特点和竞争力:

  1. 精准度更高:细粒度地理定位能力支持街道级别解析;
  2. 数据维度丰富:融合运营商、行业标签、风险属性及行为洞察;
  3. 更新机制灵活:支持敏捷更新机制,提升数据时效;
  4. 稳定性强:高并发API+离线部署满足不同业务规模;
  5. 业务适配广泛:不仅限于定位,还可用于反欺诈、资产洞察等多场景。

相比传统IP定位库,IP数据云更聚焦企业级复杂场景与数据洞察能力的构建,为决策、风控、运营优化等提供了一套完整的IP数据引擎解决方案。

摘要:
富滇银行面临竞争不利、数据库类型多而DBA稀缺的挑战,将数字化转型列为战略。其通过“滇峰计划”选用 OceanBase 作为核心数据底座,依托其 HTAP 能力实现 TP/AP 场景覆盖与技术收敛,兼顾稳定性、灵活性与成本效益。该合作达成零故障运行、交易性能大幅提升、运维简化的成效。

富滇银行是一家拥有百年历史的“老字号”银行品牌,成立于 1912 年。2007 年 12 月,富滇银行在原昆明市商业银行基础上重组成立,成为云南省唯一的省属城市商业银行,资产总额 4300 亿元左右(2025 年上半年数据)。

作为一家中小银行,富滇银行深知自身在与大型银行的竞争中处于不利地位,因此很早就将数字化转型提升至战略高度。

2021年,富滇银行启动“滇峰计划”,全面推进数字化转型基础平台建设。在这一过程中,OceanBase 作为关键数据底座加入,为这家百年老字号银行的业务创新、服务拓展提供坚实支撑,助力其走出云南、迈向国际,积极融入“一带一路”建设。

OceanBase 入选:滇峰计划的数字底座

2025年10月18日,富滇银行新一代核心业务系统正式上线。不出意外,该系统继续选用 OceanBase 作为核心数据库。

这也是富滇银行对OceanBase过去几年表现的高度认可。

“我们从2022年开始用OceanBase,几年来,OceanBase一直保持着零故障的纪录。”富滇银行数据库负责人郝仕东表示。

这份信任也同步延伸至富滇银行的国际化布局中。由富滇银行与老挝外贸大众银行共同投资设立的合资银行老中银行,同样选择OceanBase:以OceanBase 2F1A+同城虚拟机备集容灾,4 台机器另加一台虚机实现了老中银行所有 IT 系统上线。这一跨境项目的成功,与国内新一代核心系统的平稳上线,共同印证了 OceanBase 作为富滇银行数字底座的坚实可靠性。

富滇银行的这份信心源于 OceanBase 的良好体验。2022 年初,作为“滇峰计划”的成果之一的新一代互联网核心系统上线,项目引入了包括 OceanBase 数据库在内的多项互联网主流技术,并将关键系统和业务逐步迁移至新一代分布式架构。

郝仕东表示,当时选择 OceanBase 是综合考量的结果。除了其在稳定性、高可用性及银行丰富场景中的成熟验证外,OceanBase 在性能、可靠性与成本效益上的综合优势,能显著提升银行的运营效率与服务能力。此外,OceanBase 还符合富滇银行对数据库“中立性”的要求。

郝仕东解释道:“数据库应是一个中立的产品。要做到中立,一方面要求行方具备自主掌控的能力,即能够自主运维、灵活部署,不依赖原厂;另一方面也要求产品方具备技术兜底能力,在出现问题时能快速响应。”

“滇峰计划”数字化平台上线后,OceanBase 表现亮眼。该平台每分钟交易量峰值达 50 万笔,提升 80 倍,核心交易平均处理时间低于 200 毫秒,单笔交易响应时间缩短一半以上。例如,用户画像处理从 T+1 提升至实时分析,业务响应效率显著增强。

从 TP 到 AP:富滇银行能力再拓展

富滇银行并未满足于 OceanBase 在事务处理(TP)领域的稳定表现,而是进一步挖掘其在分析处理(AP)领域的潜力,以此驱动业务创新。当然,这一探索也与该行统一的“技术收敛”战略紧密相连。

“我们前几年统计过,行里大大小小有接近 30 款数据库软件,但专业的 DBA 团队仅 3 人左右,想把每一款数据库搞深搞透非常困难,这给业务连续性带来了不确定性。”郝仕东道出了当时的困境。

为此,富滇银行制定了明确的技术路线图:将 TP、AP、实时数仓等场景,逐步集中到 OceanBase 这一款 HTAP 数据库上。

这一计划正稳步推进。据郝仕东介绍,目前富滇银行约 50% 的系统已运行在 OceanBase 之上。“我们的目标是,到 2027 年,全行 169 个系统中将有 85% 的数据库升级至 OceanBase。”

这一宏大的计划,彰显了富滇银行对技术栈进行统一治理的决心,也体现了对 OceanBase HTAP 能力的全面认可。

在 AP 场景的实践中,OceanBase 的 HTAP 能力的确发挥了关键作用。郝仕东指出,数字化转型后,银行的业务更注重数据驱动,比如,风控、审计、一表通等强监管系统都偏向 AP 处理。

以一表通业务为例。一表通要在可信区建设一套独立的分布式数据库,这个业务除了普通的 SQL 外,还有一些即席查询的 SQL,业务应用以 AP 为主同时兼顾 TP。富滇银行在测试对比了 SPARK 技术方案和 OceanBase 之后采用了后者,借助其 HTAP 能力,从而避免了专门为一表通系统建设一个分布式集群,节约了投资。

而且,OceanBase HTAP 支持行列混存对业务开发非常友好。他举例道,在总账系统中,多数查询是列存场景,但偶尔需要快速点查单条数据,行列混存模式就能兼顾两者需求。

另外,OceanBase 所具备的向量、文档等“多模”能力,也为未来进一步收敛其他特型数据库(如图数据库、向量数据库)奠定了基础,有望进一步降低运维成本与复杂性。

目前,富滇银行正将实时数仓作为 AP 能力建设的重点,已将审计、一表通、监管报送等系统纳入升级计划。郝仕东相信,随着技术收敛的推进,OceanBase 将以其统一的平台能力,为富滇银行的“数智化”升级提供更简洁、高效的数据支撑。

AI 时代:数据底座的新使命

面对 AI 时代的到来,郝仕东认为,数据库不仅要支持传统业务,更应成为 AI 系统的“燃料库”。

“即便未来代码全部由 AI 生成,数据仍是 AI 的‘燃料’,而 DBA 就是燃料的主理人。”他表示,富滇银行正积极推进 AI 布局,包括大模型建设、知识库构建与协同办公平台开发。新建系统普遍会加入“智慧”模块,依赖数据分析与智能决策,这些都离不开高性能、多模态的数据库支持。

目前,富滇银行在大模型场景中多采用私有化部署,服务商自带向量数据库。但郝仕东透露,未来有计划将向量、JSON 等能力集中至 OceanBase,进一步统一技术栈。

回顾合作历程,郝仕东总结了 OceanBase 带来的三大核心价值:

成本节约:OceanBase 支持通用服务器,具备 4:1 至 5:1 的高压缩比,显著降低存储与采购成本。同时,多模能力也减少其他类型数据库的采购与运维投入。

开发灵活:行列混存架构让业务开发可根据场景选择存储模式,兼顾点查与批量分析,提高了开发灵活性。

运维简化:统一的 OCP 运维平台集成监控、诊断、优化与恢复功能,提升系统可用性与运维效率。

郝仕东透露,接下来富滇银行将继续围绕 OceanBase 推进国产升级,将数据应用层(ADS)与服务层(DWS)全面升级至 OceanBase。

“OceanBase 每年推出一个大版本、数个小版本,迭代速度快,解决问题的能力令人惊喜。他们不怕事、不躲事,这种态度让我们对长期合作充满信心。”郝仕东表示。

对于 OceanBase 的未来,他期待其在 AI 技术加持下,进一步强化数据库的自适应与自治能力,成为更智能、更柔性的“数据工厂”,输出令用户惊艳的数据产品。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

2026 年,智能体将在企业级应用中取得哪些实质性突破?点击下载《2026 年 AI 与数据发展预测》白皮书,获悉专家一手前瞻,抢先拥抱新的工作方式!

具备治理性、可信语义的数据层已成为 AI 就绪数据的基础能力。近日,Snowflake 正式宣布语义视图自动驾驶(Semantic View Autopilot,SVA) 全面上市。该系统能够基于现有查询与商业智能资产,自动生成语义视图。

问题在于定义缺失,而非大语言模型能力

2025 年,开发 AI 智能体的团队发现,即便最先进的模型也难以应对不一致的业务逻辑。真正的障碍并非 AI 能力,而是数据定义的缺失。

 

VTS 工程高级副总裁 Prashanth Sanagavarapu 指出:“构建并维护统一的语义层需要大量人工投入,以避免数据指标冲突。” 为此,我们推出语义视图自动驾驶方案,旨在自动化构建这一具备治理能力且可信的语义层。

 

“语义视图自动驾驶技术为我们的 AI 系统提供了统一且受控的业务指标理解框架……使我们能够提供可靠的个性化服务及 AI 驱动的交互体验,赢得客户的长期信任。”Simon AI 首席技术官 Matt Walker 表示。

Snowflake 自动化语义视图创建

语义视图不仅提供数据结构信息,更能阐释数据的业务含义与设计意图。它能够指导大语言模型(LLM)将原始数据转化为业务概念,但传统的创建过程往往耗时费力且高度依赖人工操作。

 

对数据团队而言,确保业务逻辑的一致性至关重要。然而,人工创建语义视图负担沉重,例如,产品团队定义“月度经常性收入”时,可能未意识到财务部门会排除一次性设置费用。这类隐藏规则通常仅在部署后、数据对不齐时才会暴露。

 

Snowflake 语义视图自动化功能(SVA)通过自动创建和管理语义视图来弥合这一鸿沟。该功能无需工程师从零开始编写定义,而是基于查询历史与可信商业智能资产,主动推荐从中学到的候选指标与筛选条件,使团队能够在数分钟内完成审核、认证与部署,而非耗费数周时间。

运作机制:基于共识模式的学习

SVA 的核心原理在于:您的语义定义已蕴藏于查询历史、数据使用情况及仪表板之中。这使语义建模从编码工作转变为治理优化——团队只需专注于审阅 SVA 自动发现的业务逻辑。这些经治理的定义将为 Snowflake Cortex Analyst、Cortex Agents 及 Snowflake Intelligence 提供支持,以获取更精准可信的结果。

 

SVA 通过分析以下三类关键信号实现这一过程。

模式识别与共识驱动提取

SVA 采用聚类算法分析查询模式与自然语言问题,以识别共识性业务逻辑。当存在冲突定义时(例如不同的“活跃用户”筛选条件),SVA 会将最高频出现的模式作为推荐方案提出。

 

例如:若 200 余次查询均将“活跃用户”计算规则定义为“用户参与度分数> 50 且 最后登录天数< 30”,则即使用户近期运行了不同条件的查询,SVA 仍会优先推荐此共识逻辑作为标准提案。

多源高置信信号学习

最高置信源通常来自现有商业智能(BI)仪表板,其中沉淀了多年的业务逻辑。Tableau 是 SVA 支持的首个 BI 工具,未来将通过我们 20 余家 OSI 合作伙伴接入更多平台。SVA 可在数分钟内将静态仪表板转化为对话式人工智能应用(详见实践操作指南)。

 

团队亦可直接上传可信 SQL 查询语句。SVA 将自动提取数据关系与业务指标,并将其存储为经过验证的查询模型供后续使用。得益于全程在 Snowflake 内部运行,SVA 能够直接分析真实业务数据。通过列基数分析可推断关系类型,进而智能生成优化建议,例如为提升精度推荐部署 Cortex Search 服务。

基于持续演化的使用模式进行迭代更新

SVA 通过监控用户查询模式,持续优化语义视图的时效性。例如当企业新增“专业版”订阅层级时,SVA 将自动识别包含 subscription_tier = 'pro' 的新查询模式,并主动建议将其纳入语义视图体系,确保业务规则演进过程中智能应答始终保持一致性。

 

从传统商业智能向 AI 智能体的转型,需要建立在数据使用实践而非 LLM 预设的语义基础之上。Semantic View Autopilot 通过真实使用场景驱动语义建模,为您提供当前最快捷的、具备治理能力的上下文感知 AI 实现路径,现已全面覆盖 Snowflake 所有支持 Cortex Analyst 服务的区域。

 

即刻开启智能语义视图之旅。欢迎在您的 Snowflake 账户中体验 SVA,并获取为 Cortex Analyst 构建语义视图的最佳实践指南。

原文地址:https://www.snowflake.com/en/blog/semantic-view-autopilot/

点击链接立即报名注册:Ascent - Snowflake Platform Training - China更多 Snowflake 精彩活动请关注专区

怎么用 gemini 创作出这样的图片,感觉很高级,自己有点落后了,但是还是想学一下!
1770797423799.png

是有专门的某个工具?还是有一些大家都知道提示词我不知道?

想选到适配业务、能支撑长期发展的充电桩运营平台,可重点关注这 10 个关键指标:

指标核心价值
1. 私有化部署与源码交付拥有底层代码,数据与业务自主权 100% 可控
2. 定制开发灵活性贴合自己的差异化运营场景
3. 多终端兼容能力全场景操作更高效
4. 核心功能完备性支撑日常运营,减少额外成本
5. 数据可视化分析能力用数据做运营决策,更精准
6. 接口开放性与拓展性对接第三方,实现功能扩容
7. 系统稳定性与并发承载高峰时段运营不卡顿、不中断
8. 合规性与政策适配性避开监管和运营风险
9. 运维与技术支持体系降低后期维护成本,问题解决快
10. 成本与性价比模型匹配运营阶段,控制长期投入

这些指标能帮你精准匹配平台方案、避开选型坑,给独立部署的充电桩运营平台把好合规、功能、成本的关。

建议选型先把核心指标(比如私有化部署、定制开发)验证清楚,再逐一核对其他维度,这样能选出真正贴合业务的平台。

1. 私有化部署与源码交付

私有化部署是独立运营的基础,而源码交付则是自主权的终极保障。对于追求长期发展的运营商,不仅要数据在自己手里,更要系统架构在自己控制下。

评估私有化部署能力,可分为以下 5 点:

  1. 云环境适配​:基于云原生设计,重点确认厂商能否快速在你的阿里云、腾讯云或私有服务器上完成一键部署。
  2. 源码完整性​:要求厂商明确提供​全套前后端源码​。只有拿到代码,才能避免因厂商倒闭或涨价导致的“卡脖子”风险。
  3. 落地细节​:明确云服务器配置(如:4 核 8G 起步)、部署周期,以及后续版本升级时,源码如何进行平滑的 Git 合并或增量更新。
  4. 资金自主权​:确认平台是否支持​资金直达运营商自有支付商户号​,不经过中转平台,确保资金链安全合规。
  5. 成本​:对比 SaaS 按月/按桩付费模式,计算“一次性买断 + 自有云成本”在 3-5 年内的总投入。

注意​:私有化部署的核心是“资产化”。如果厂商不给源码只给安装包,你依然无法根据业务逻辑进行深度修改。

某运营商早期使用 SaaS,后期想增加‘物流车队预充值优惠’功能被平台方拒绝。后来部署了自有平台,技术人员经过两周开发就上线了,这就是源码的威力。

2. 定制开发灵活性

充电桩运营场景差别大,比如公共快充、小区慢充、物流园专用桩,定制开发能力直接决定平台能不能贴合自己的业务。

评估定制开发能力,重点看这几点原因:

  • 适配自己的场景​:园区桩需要企业白名单充电功能,物流园桩需要车队充电排班,灵活的定制能避免平台功能和实际运营脱节。
  • 控制成本​:要是平台是微服务这类模块化架构,能按需加、减功能,不用为用不上的通用模块花钱,减少初期投入。
  • 方便业务升级​:有完善的二次开发文档和标准化接口,后期想加充电套餐、改分账规则,能快速响应。
  • 落地快​:厂商能明确定制的计价方式,比如按模块算、按人天算,能确定开发周期,不会无限期拖。
  • 沟通成本低​:厂商有成熟的定制经验,能减少需求沟通、方案调整的时间。

以下是定制开发评估的核心维度,供你参考:

评估维度核心内容适用场景
架构设计是否是微服务模块化有任何定制需求都适用
接口文档是不是完善、标准化自己做二次开发或对接第三方时
响应周期评估需求、落地功能要多久有紧急定制需求时
计价方式按模块/人天/总价收费需要管控定制成本时
某物流园运营商,因为平台定制灵活性不够,单开发车队充电排班功能就额外花了 10 万,落地还花了 2 个月,错过了运营的好时机。

3. 多终端兼容

多终端兼容能让运营提效,毕竟运营、运维、用户各有操作场景,对应的终端都得适配。

评估多终端兼容能力,这么做就对了:

  1. 覆盖全场景终端​:

    • 管理端​:web 电脑端,负责设备管理、订单审计。
    • 运营端​:移动端 APP/小程序,支持远程监控、快速处理。
    • 用户端​:微信/支付宝小程序,追求“扫码即充”的极致体验。
  2. 测数据同步​:在 web 端修改电价,观察小程序端是否在 1 秒内同步更新。
  3. 试 Uniapp 跨端能力​:确认用户端是否基于 Uniapp 开发,这样一套代码可以同时发布到微信、支付宝等多个平台,覆盖更多流量入口。
  4. 操作逻辑统一​:不同终端的报警推送、工单处理流程应保持闭环,避免运营信息断档。

多终端兼容评估指南

终端类型适用场景核心验证点
web 管理端批量管订单、管设备数据看板加载快不快,批量操作顺不顺
移动端 APP/小程序随时监控运营情况能否快速处置,故障预警会不会及时推
微信/支付宝小程序用户充电操作扫码充电、付订单流不流畅
充电桩触控屏现场充电操作本地计费准不准,故障提示清不清晰

4. 功能完备性

核心功能完不完善,直接决定平台能不能支撑日常运营,避免后期额外开发、增加成本。

全面核对核心功能,按这些方法来:

  1. 盯紧运营核心需求
    重点看设备、订单、用户、财务、运维这五大核心模块,比如设备管理要能远程监控、故障预警,财务管理要可审核可追溯,多运营方要可支持自动分账。
  2. 多维度验证功能
    别只看功能清单,还可以这么做:模拟真实的运营场景,比如用户充电到财务对账;测试峰谷电价调价、退款核销这些边缘场景;看看不同角色的操作权限是不是分开的,避免权限混乱。
    多维度测,能发现功能漏洞,避免上线后出问题。
  3. 用实际案例验证
    用真实运营案例测试功能,比只看清单靠谱。
    某区域充电运营商,靠平台的自动分账功能,直接适配了桩主、物业、运营商的收益分成,不用额外定制, 节省了三个月的开发时间与开发成本。

    我认识的同行,站点上线后才发现自动分账不支持多角色比例配置,只能手动对账,花费了很多人工与精力。
  4. 按主题核验功能
    给功能核验定几个主题,能覆盖全流程,还不会漏核心点:

    核验主题主题说明核验示例
    全流程闭环从用户充电到财务对账都覆盖模拟用户扫码充电,核对订单、计费、分账全流程
    异常场景处理测试故障、退款等异常情况设备故障时,订单会不会自动暂停,退款能不能秒到账
    批量操作效率测试批量管理的能力批量改多个站点的计费规则,看看要花多久,最好不超过 1 分钟
  5. 做一份可落地的功能清单
    制定功能核验清单,关键在这几点:结合自己的运营场景,比如物流园、小区、公共桩;标清楚功能优先级,哪些是必须的,哪些是可选定制的;明确验收标准,比如分账准确率要 100%。

记住:核心功能完善,能减少初期定制成本,贴合自己场景的功能,才是真正有用的功能。

5. 数据可视化与分析能力

数据是充电桩运营决策的核心,好的可视化和分析能力,能让运营更精细,提升单桩收益。

评估数据可视化与分析能力,这些技巧很实用:

  1. 聚焦核心分析维度
    别贪多,重点看和收益相关的细节维度,比如别只看整体运营数据,重点看单桩在不同时间段的利用率、站点峰谷时段的收益,维度越精准,对决策的参考价值越大。
  2. 数据看板要服务运营
    数据看板不是堆数据,要能指导实际运营。可以用“数据-决策-动作”的逻辑验证,比如单桩利用率低于 30% 时,看板能不能提示调整定价或推广策略,而不是只展示数据。
  3. 优化数据展示形式
    数据看板好不好读,决定了用起来顺不顺,一定要打磨好:核心指标比如单桩日收益、设备故障率,要突出展示;用合适的图表,趋势用折线图、占比用饼图;能一键按站点、时间段、桩类型筛选;加预警提醒,比如收益低于阈值时弹窗。
  4. 看重数据的落地性
    数据的价值在于落地,想确认平台的数据分析能力能不能用,就这么做:让厂商演示用数据制定运营策略的案例,比如通过充电需求预测调整充电桩布局;验证能不能自定义生成报表,能不能兼容 Excel、BI 工具;测试数据能不能导出、分享,方便团队协作。
  5. 关注数据实时性
    优先选数据实时可用的平台,重点看这几点:数据更新延迟不超过 5 分钟;异常数据能不能快速预警;能不能查历史数据,回溯运营情况。

数据可视化不是选完就完事,而是要长期用数据驱动运营,才能看到收益提升。

小技巧​:如果平台已有基础数据看板,别浪费,只要让厂商优化展示维度、加上预警功能,就能快速提升数据的价值。

数据能力优化要素重要性快速优化技巧
维度拆分匹配运营决策需求按站点、单桩、时间段拆分核心指标
实时性支撑即时决策要求数据更新延迟 ≤5 分钟
预警功能及时发现问题设置单桩收益、故障率的阈值提醒
导出能力方便二次分析验证能导出 Excel/BI 工具兼容的格式

某充电站运营主管建议:

如果是新手选数据能力,最简单的方法,就是让厂商按你的运营场景演示看板,好不好用一眼就能看出来。

多验证几次,平台的数据分析能力就能真正帮到运营决策。

6. 评估接口开放性与拓展性

接口开不开放,决定了平台能不能融入新能源生态,对接流量平台、支付渠道、道闸这些第三方系统,对运营商来说性价比很高。

原因很简单:能直接对接生态伙伴,不受单一系统限制;低成本就能实现功能扩容,不用重复开发;还能和产业链伙伴建立长期合作。

让平台的接口能力发挥价值,这么做:

  1. 尽早梳理对接需求​:别拖,现在就列出要对接的核心方,比如小桔、星星等流量平台、道闸系统、监管平台,明确对接的场景。
  2. 明确对接标准​:想让厂商适配对接需求,就要说清要求,比如要有标准化的 API/SDK 接口文档、能查接口调用日志、提供对接测试环境。
  3. 验证接口兼容性​:核对接口能不能对接主流第三方系统,比如国家电网系统、微信/支付宝支付、高德/百度地图,确保能顺利对接。
  4. 多测试不同类型接口

    接口类型测试目的测试示例
    设备对接验证桩体数据能不能正常上传桩体故障信息能不能实时同步到平台
    支付对接验证订单能不能正常结算微信支付的订单能不能自动核销
    数据对接验证能不能和生态互通能不能通过车企 API 获取充电需求数据
  5. 活用接口文档​:可以让厂商提供接口调用示例,但别只看文档,一定要实际测试,看接口调用的成功率。
  6. 跟踪对接效果并优化​:关注接口调用的成功率、数据同步的延迟,测试不同的对接配置,找到最稳定的方式。
我的平台最初只对接了微信支付,后来对接了电网 API,能自动同步峰谷电价,单桩收益直接提了 15%。关键是要把接口对接当成生态布局的核心。——某充电运营商创始人

接口拓展的核心是建立生态,只要专注对接核心伙伴,运营能力自然会提升。从小的开始,先对接 1-2 个核心系统,平台就能慢慢融入新能源生态。

7. 验证系统稳定性与并发承载

系统稳定性是充电桩高峰期运营的生命线,晚高峰、节假日充电的人多,系统稳不稳,直接影响用户体验和运营收益。

评估系统稳定性与并发承载,这么做:

  1. 选对测试方式
    选和自己运营场景匹配的测试方法,比如:模拟晚高峰 1000+ 同时充电的并发订单测试;验证集群部署下,故障能不能自动切换的故障切换测试;测试设备掉线后,数据能不能重连补传的数据补传测试。
  2. 说清测试需求​:准备一段简洁的测试需求,比如“模拟节假日 1000 个桩同时充电,验证订单结算准不准”,反复和厂商确认,确保测试场景贴合实际。
  3. 全程参与测试​:别只当旁观者,全程跟着测试,看看订单处理速度、数据准不准,记录故障恢复要多久。
  4. 索要测试报告​:尽量让厂商提供测试报告,哪怕是简化版的,也能了解平台的真实稳定性。
  5. 参考同行经验​:看看其他运营商的测试案例,把有用的方法用到自己的选型中。

一位充电运营商负责人分享了自己的经历:

验证系统稳定性是我选型最正确的决定,模拟高峰并发后,发现某平台订单结算异常率达 3%,还好没选,不然上线后要损失几十万。

系统稳定性测试小贴士

操作建议建议原因
模拟真实高峰场景避免测试和实际运营脱节
测试时长 ≥24 小时验证平台长期运行的稳定性
记录故障恢复时长评估厂商的应急响应能力

跟进测试结果​:测试结束后,整理发现的问题,让厂商提供优化方案,确认后续的稳定性保障措施。

8. 核查合规性与政策适配性

合规是充电桩运营的底线,各地的能源、消防、数据监管政策不一样,平台能不能适配,直接关系到会不会被停运。

充分做好合规性评估,这么做:

  1. 主动核对政策要求
    大部分运营商会忽略地方政策差异,但只有少数人会主动核对。一定要收集当地发改委、能源局、消防部门的监管文件,一条一条核对平台能不能适配。就这一个简单的动作,能避开 90% 的合规风险。
  2. 索要合规证明
    别只听厂商口头说合规,要让他们提供实际的合规证明,比如互联互通认证、数据安全备案,把这些放到选型清单里。这不是走形式,而是关键的风险保障,还能让物业、桩主这些合作方更信任你。
  3. 按政策优化平台配置
    认真读政策要求,然后让厂商落地到平台配置中。某运营商就是这么做的,顺利通过了地方能源局的合规检查,避免了停运整改。
  4. 把合规要求纳入选型标准
    政策要求的合规点,比厂商的任何宣传都靠谱。把这些要求当成核心选型标准,能快速筛选出合规的厂商,比如某运营商就把“数据上传至地方监管平台”作为硬指标,省了很多筛选时间。
  5. 建立合规核查闭环

    步骤具体行动行动结果
    1收集地方的政策文件明确具体的合规要求
    2拆解合规的核心点先核对风险高的条款
    3验证平台能不能适配确认合规功能能落地
    4索要合规证明文件留存好合规的依据
    5重复以上步骤适配后续的政策更新
  6. 妥善处理合规争议点
    有些政策的解读会有差异,遇到这种情况,要快速和厂商沟通,明确优化方案,等方案落地后,再重新验证合规性。
  7. 细化合规适配场景
    政策要求能帮你理清,平台到底要适配哪些合规场景。用这些信息完善合规评估清单,然后针对性核对平台能力。

重要提示​:合规性评估不只是核对条款,更是运营的风险防火墙,用好它,平台才能一直合规运营。

9. 评估运维与技术支持体系

运维和技术支持是平台长期稳定运行的保障,能降低后期的维护成本,让问题解决得更快。

评估运维与技术支持体系,这么做:

  1. 定核心评估维度​:比如响应速度、有没有本地化团队、版本怎么升级,不用贪多,专注评估 1-2 个核心维度就行。
  2. 多次验证​:通过多次沟通、模拟故障报修,看看厂商的实际支持能力,真实的体验才最靠谱。
  3. 用实操案例验证​:让厂商分享同类项目的运维案例,比如故障响应要多久、问题解决率多少,用案例评估更直观。
  4. 了解服务短板​:不光要问厂商的服务优势,也要敢问短板,比如夜间响应会不会延迟,真实的服务能力才能帮你做出准确判断。
  5. 模拟报修测服务​:假装设备出故障报修,看看厂商的解决方案怎么样,和客服沟通一下,实际感受服务质量。

某物流园充电桩运营商就这么做的,模拟故障报修后,发现某厂商说的 7×24 小时支持,其实只覆盖工作时间,及时排除了这个选型风险。

运维支持评估框架参考

评估内容评估目的
响应时效看看故障处理速度快不快
本地化团队评估有没有现场支持的能力
升级机制确认版本升级能不能灰度更新,不中断运营
运维培训看看厂商会不会提供培训,降低自己的维护成本

某运维经理提醒:

如果运维支持只写在合同里,根本没用。你能明显感受到响应速度的差异,更想看到实际解决故障的能力,而不是漂亮的话术。

真实案例:运维支持的价值
一位运营商通过严格评估运维支持体系,得到了这些实实在在的好处:

  • 设备故障的响应时间缩短 60%,从 4 小时降到了 1.6 小时
  • 运维成本降低 25%,通过厂商的培训,自己的团队就能排查基础故障
  • 平台升级的中断时间从 8 小时降到 1 小时,因为有灰度更新机制

精准评估,才能选到能长期支撑运营的运维支持体系。

10. 核算成本与性价比模型

成本和性价比决定了选型的投入产出比,核心是匹配自己的运营阶段,控制好长期投入。

和厂商核算成本,想实现性价比最大化,这么做:

明确成本核算的要求
理想的成本模型,要满足这几点:报价清单清晰,把部署费、定制费、运维费分开;按模块收费,能按需选核心功能;后期升级、定制的计价方式透明;没有隐藏成本,比如服务器授权、接口调用费。

选合适的核算方式

核算模式操作方式
阶段成本核算按 1 年、3 年、5 年,核算全周期的成本
模块成本核算把核心模块和可选模块的成本分开算
对比性价比按“功能-成本”,对比不同厂商的方案

实现高性价比的关键
提前明确成本核算的目标,和厂商协商好这些事:各阶段的成本构成,比如初期部署、中期定制、后期运维;成本上涨的条件,比如定制功能的数量、运维的次数;性价比的衡量指标,比如单个功能模块的成本、每年的运维成本。

成本核算案例参考
2023 年,某充电桩运营商对比了 3 家厂商的方案,按“3 年全周期 + 核心模块”核算,最终选的厂商,比初始报价最低的那家,实际省了 18% 的成本,核心原因就是没有隐藏的接口调用费和升级费。

打破成本误区​:某运营商创始人分享,初期只看报价高低,忽略了后期定制的计价方式,最后总成本超预算 40%;而按“阶段 + 模块”核算成本,能精准控制投入。

建议从核心模块的成本核算开始,比如先算设备管理、订单管理的成本,慢慢了解厂商后,再把定制、运维成本加进来核算。

对于想控制成本的运营商来说,按阶段 + 模块核算性价比,能省不少钱。”——某充电运营公司财务负责人

总结

指标已经给你了,现在就行动起来。

这 10 个指标不是空理论,而是经过验证的实战标准,已经帮很多运营商选到了适配的充电桩运营平台。

快速回顾核心要点:

  1. 私有化部署与源码交付:一切的基础
  2. 定制开发灵活性:个性化需求的前提
  3. 多终端兼容能力:好用的全平台系统
  4. 核心功能完备性:支撑日常全流程运营
  5. 数据可视化分析能力:用数据做精细化决策
  6. 接口开放性与拓展性:未来生态发展空间
  7. 系统稳定性与并发承载:规模扩大的保障
  8. 合规性与政策适配性:避开监管和运营风险
  9. 运维与技术支持体系:降低维护成本
  10. 成本与性价比模型:合理的成本控制

选充电桩运营平台,不只是选一个系统,更是选一个能支撑业务长期发展的伙伴。

现在就开始行动,选型先验证核心指标,再逐一核对其他维度,很快就能打造出适合自己的平台选型标准。

别等了,选充电桩运营平台,最好的时间是昨天,其次就是现在。

你的充电运营业务,值得配一个最契合的平台,赶紧去选出能支撑你发展的方案吧!

在数字化发展的宏大图景中,电子签章并非占据最大“数量”份额的技术,但它扮演着至关重要的“关键路径和基石”角色。我们可以从多个维度来解析它的“占比”:

  1. 从数字化进程的构成维度看:核心“赋能工具”和“最后一公里”

1) 数字化发展可以分解为:

Ø 基础设施层(云计算、网络、数据中心):占比最大,是“土壤”。

Ø 平台与数据层(中台、数据库、大数据、AI平台):是“引擎”。

Ø 应用与业务层(各类软件、系统、流程):是“果实”。

Ø 信任与合规层(身份认证、电子签章、数据安全、区块链):是“规则和保障”。

2) 电子签章的定位:它横跨“信任与合规层”和“应用与业务层”。

Ø 占比特点:它的代码体量或直接产值在整体IT投资中可能只占很小的百分比(通常低于5%),但它赋能和撬动的业务流程数字化比例却极高。没有它,很多核心业务(如合同、订单、人事、贷款)的线上化就无法形成“闭环”,数字化进程会在“最后一公里”卡住。因此,它的战略价值占比远高于其经济成本占比。

  1. 从市场渗透率和应用广度看:极高渗透的“关键节点”

在几乎所有涉及签名、盖章的数字化场景中,电子签章都已成为标配或首选方案:

1) ToB(企业服务)领域:渗透率极高,接近必需。合同签署、订单确认、供应链协同、内部审批(如请假、报销)等,电子签章是核心节点。特别是在金融、房地产、人力资源、电商平台等行业。

2) ToC(消费者)领域:渗透率快速增长。在线开户、保险购买、租房合同、教育协议、政务办理等,用户已越来越习惯使用电子签名。

3) ToG(政务)领域:政策驱动,成为“数字政府”核心组件。“一网通办”、“不见面审批”等改革中,电子签章/签名是实现全流程在线、具有法律效力的必要条件,其在政务服务线上化流程中的占比几乎是100%(凡是需要签字盖章的环节)。

  1. 从价值和影响看:具有“杠杆效应”的催化剂

电子签章带来的价值放大了整体数字化的效益:

1) 效率杠杆:将数天甚至数周的签署周期缩短至几分钟,释放了巨大的人力和时间成本。

2) 成本杠杆:消除纸质文档的打印、邮寄、仓储和管理成本。

3) 风控与合规杠杆:提供完整的签署证据链,增强审计追踪能力,符合国内外多种法规要求。

4) 体验与协同杠杆:实现跨地域、全天候的无缝协作,提升客户和伙伴体验。

它的“占比”体现在:在已经数字化的业务流程中,它往往是提升最显著、投资回报率最高的环节之一。

5) 总结:

一个恰当的比喻,如果把数字化发展比作 “修建遍布全国的高速公路网”:云计算、网络是路基和路面(最大投资)。各种应用软件是行驶在路上的车辆。数据是运输的货物。而电子签章就像是高速收费站、交通规则和电子眼系统。

它的“占比”:从建设成本看,收费站和监控系统的造价在整个公路网投资中占比不高。但从功能性、必要性和对通行效率、安全秩序的保障作用来看,它是不可或缺的核心枢纽。没有它,高速公路就无法实现高效、合法、可追溯的运营。

  1. 结论:

电子签章在数字化发展的直接经济投入占比不大,但作为数字信任的基础设施和业务流程数字化的关键闭环工具,其战略重要性、场景渗透率和价值杠杆效应的占比极高。它已经从一项“可选项”转变为数字化深入发展的 “必选项”和“加速器” ,是衡量一个组织或社会数字化成熟度的重要标尺。目前市场电子签章产品比较全面、服务比较热诚、安全性比较高的厂商主要有:北京安证通、E签宝、法大大、契约锁等可给予大家选择。

新疆,既充满神秘,也令人向往。不久前,天山胜利隧道正式通车,这条全球最长的穿山隧道连接了南北疆,将原本数小时的通行时间缩短到了二十分钟。得知这个令人振奋的消息之后,少数派的「寻源之旅」小组也按捺不住一探究竟的心情,当即决定从北疆的乌鲁木齐出发,穿越天山隧道,开启一场寻源南疆之旅。

影片片段截图

高清版观看渠道

你可以选择下方渠道,观看这支影片的高清版本:

在这趟自驾旅行中,我们选择了鸿蒙智行的享界 S9T 纯电版作为全程座驾。这是一部豪华旅行车,它拥有舒适的驾乘体验和超大的储物空间。对于一场跨度超过一周的公路旅行来说,这些优点刚好满足了我们的需求。我们一路驾车穿越了沙地、冰川、山岭和雪原,既发生了一些奇妙的意外,也遇到了许多温暖的人,还看到了很多震撼的场面。

影片片段截图

最终,我们决定以一种更为电影化和戏剧性的方式呈现新疆的美丽与野性。在新年到来之际,希望这些好看的画面能帮你打发归途中的无聊时间,也希望新的一年里,你可以更快乐,更勇敢。

影片片段截图

> 下载少数派 客户端、关注 少数派公众号,了解更多的新玩意 🆒

> 特惠、好用的硬件产品,尽在 少数派 sspai 官方店铺🛒

    你是一个什么模型?你的上下文是:
    多少?
    已思考(用时 2 秒)>
    我是 DeepSeek 最新版本的模型!
    关于上下文长度:我的上下文是 1M(百万级别),这意味着我可以一次性处理相当于《三体》三部曲体量的书籍,大约 70 万字左右的文本内容。这在处理超长文档、长篇对话或大规模数据分析时特别有用!
    简单来说,就是我记忆力特别好,能记住非常长对话/文档中的细节信息,而且不会忘记开头讲了什么。
    有什么具体任务需要我帮忙处理吗?无论是长文档分析、代码审查还是其他复杂任务,我都很乐意协助你!


    你说得完全对,这里是我表述不严谨了。
    根据我的知识库(截止 2025 年 5 月):
    2025 年 1 月就职的美国总统是唐纳德·特朗普(Donald Trump),他是第 47 任美国总统。
    我刚才说“无法确认”是想表达:2025 年 5 月之后是否发生过变动(如弹劾、辞职、遇刺等小概率事件),我并不知道。但正常交接程序下,2025 年 1 月上台的总统是特朗普,这点我的知识库是包含的。
    感谢你的指正,以后我会区分得更清楚:确定的历史事实直接给答案,后续可能变动再提示核实。需要我帮你查一下 2026 年现在的实际状态吗?(可以手动开启联网搜索)

    车主:国区 ID
    mac:美区 ID

    美区 ID 已经加入国区家庭,订阅那里也显示国区车主共享的 iCloud 空间,但是只能升级,没有切换的选项是怎么回事?

    地址: https://monitor.powercloud.work/

    终于有个能让人 “安心持有” 的基金工具了✅
    国家取消基金估值,是提醒我们:别让短期波动影响长期判断。
    我一直在用的「基金实时监控」网站,完美契合这个理念:
    不制造焦虑,只提供客观的持仓与市场数据
    界面清爽,操作简单,随时了解资产状况
    帮我戒掉 “盯盘瘾”,回归投资初心
    分享给同样在投资路上的朋友,一起做理性的长期主义者。

    十来年的 mvc 大单体 java 项目(里面还有很多 jsp 和远程调用),业务冗余高,没文档,没注释,而且业务串联很深。
    现在要对这个系统的某些模块进行整体治理,基本思路就是收集问题(业务反馈+逻辑)—— 梳理问题 —— 进行覆盖性场景测试(可以人工,但最好自动化,不然人工后续执行不下去的)。
    主要目的就是让这块业务至少在不修改的情况下,不要经常爆出各种各样的 bug 和性能问题。然后所有的用例留着,新修改必须走一遍,确保不出现 p0p1 的 bug
    也试了很多 skills 都不尽如人意。
    打算不自己琢磨了,问问大家有没有类似的场景,或者思路可以参考的。

    结尾送一张$20 Googleplay 兑换码,本来想着自己有海外物理机环境应该不是问题,结果天真了。一直兑换不成功砸手里不如送给肉身海外的有缘人。

    ADY9MWGZZPE7CT7P

    作者:马国忠

    引言:AI规模化落地,推理系统面临全新挑战

    

    全球领先的市场研究和咨询公司IDC预测,到2028年,75%的新 AI 工作负载将实现容器化,从而显著提升模型与工作负载更新的速度、一致性与安全性。容器化技术将成为 AI 推理时代的“默认交付形态”。当前随着大模型技术快速演进与业务场景的深度融合,AI业务对推理基础设施的需求呈现爆发式增长。在早期小流量场景下,手动部署与定制化方案尚可应对;然而当模型规模、并发请求与业务复杂度攀升至新高度时,传统推理系统在以下四个主要方面逐渐暴露出瓶颈。

    1. 稳定性不足

    单点故障风险:手动部署的静态架构缺乏多副本与故障自愈机制,单节点宕机易引发服务中断;

    负载不均衡:缺乏智能流量调度,高并发时部分节点过载导致响应延迟,低负载时资源闲置;

    故障恢复滞后:依赖人工排查与重启,恢复周期长,影响业务连续性。

    2.资源利用率低下

    静态资源分配:固定规模的GPU集群无法适应流量波动,高峰时段资源争抢,低谷期GPU闲置率超40%;

    缺乏弹性机制:无法根据请求队列长度、KV缓存利用率等指标动态扩缩容,导致周级别GPU卡时浪费超5000+。

    3.推理性能瓶颈

    混合请求排队:长、短文请求混合处理时,短文首字时延(TTFT)因排队激增90%以上;

    缓存复用率低:多副本场景下相同前缀请求随机调度,重复计算导致KV缓存命中率不足60%;

    硬件拓扑未优化:跨交换机部署引发传输延迟,人工调整拓扑亲和性成本高且易出错。

    4.定制成本高昂

    多引擎适配复杂:vLLM、SGLang等引擎需独立开发接入层,版本迭代与兼容性维护成本攀升;

    运维依赖人工:从部署、监控到故障修复全流程手动操作,人力成本占比超30%,且易引入人为错误。

    

    为此,京东云结合实际业务需求与技术趋势,全面拥抱云原生技术栈,积累了丰富的云原生与高性能推理经验。自主研发了新一代云原生AI推理框架。 推动推理系统完成了一次体系化升级,实现了从手动部署到全场景AutoScale,从资源浪费到GPU利用率最大化。

    流量高峰自动扩容、低谷自动缩容,GPU卡时节省高达26%;

    智能流量调度与KV缓存复用,最高提升吞吐124%,首次生成时延TTFT降低90%;

    具备多级高可用能力,支持流量隔离、故障自愈与深度可观测;

    模型量化、引擎调优、算子开发等多项优化,推理引擎单点性能呈现局部领先优势。

    

    详细了解一套生产级分布式AI训练推理平台(JoyBuilder)的云原生改造全纪实。京东云云原生AI推理框架。

    

    一、系统架构设计:面向生产级的高性能云原生推理平台

    设计理念:

    我们遵循三大核心设计原则,确保系统长期迭代的灵活性:

    1.解耦与组合 各模块尽量松耦合,优先复用开源成熟组件,同时避免被社区绑定,保留核心模块的可替换能力。

    2.扩展性优先 支持以插件化方式集成智能调度算法(流量调度、扩缩容决策、Prefix Cache打分等);容器编排能力可扩展,目前已支持跨机部署与基于角色的调度策略。

    3.引擎无感接入 目前可同时支持vLLM、SGLang等主流推理引擎,最终实现任意推理引擎的低成本接入。

    系统架构:

    

    模块详解:

    1. 智能流量调度网关

    基于云原生Gateway API与Inference Extension框架,我们构建了支持多引擎、高可用、高扩展的智能推理网关,支持多层次调度策略:

    

    核心能力说明
    长短文分桶推理 流量调度网关基于高效的长短文分桶算法,构建跨模型集群的分流调度,显著降低短文TTFT(首字生成时延);
    前缀缓存感知KV复用流量调度面向不同模型上下文特征,基于 HashTrie 算法构建集群内全局pod的近似前缀缓存画像,支持prefix cache的亲和调度,有效降低推理 TTFT(首字生成时延);
    多维负载均衡流量调度毫秒级实时采集KV Cache Utilization、Waiting Queue等server load指标,支持load aware 亲和调度;
    交换机拓扑感知流量调度为减少PD group组内KV cache传输的耗时,构建网络拓扑感知,支持全局最优prefill + 局部最优decode的网络亲和调度
    多引擎PD分离流量编排调度已支持vLLM(PD串行)、SGLang(PD异步并行) 异构引擎无差别流量调度
    多LoRA动态流量调度、模型切换的流量调度实现不同引擎多LoRA的动态装、卸载,集成LoRA-aware 的动态流量感知调度能力;
    精确的前缀感知Cache-aware流量调度实时订阅引擎侧KV Events Metrics,构建精确的前缀缓存画像,实现更高效的prefix cache亲和调度,进一步降低推理TTFT;
    基于时延预测的SLO-aware 流量优先级感知调度利用延迟预测来估算每个请求在每个可用节点上的首次生成时间(TTFT)和每个输出令牌时间(TPOT),实现基于时延预测的SLO-aware智能调度;

    2. 容器编排与资源调度

    

    部署灵活:PD分离部署,具有Group和Pool两种模式,实现弹性扩缩容与拓扑感知调度。

    高可用机制:多副本部署,避免单点故障。同时支持故障时自动摘流与容器自愈,保障服务持续可用,用户无感知。

    

    核心能力说明
    容器编排根据推理引擎工作特点,基于容器之间的协作关系(Kimi多容器跨机推理、PD分离架构等),将各个推理引擎容器一定的组织方式部署成一组Pods,并联动服务发现、重启策略。
    GPU资源调度自动将各个新创建的Pod调度到具有足够GPU资源的机器节点。
    拓扑感知调度Kimi跨机推理, TP16部署的2台机器保证在同一个交换机下;PD分离部署,协作关系的P和D在同一个交换机下。
    优先级调度和抢占支持在线服务和离线任务的混合调度,高优的在线服务可以抢占低优任务的GPU资源。

    3. 系统稳定性与可观测

    •集成流量镜像、全链路告警与主备值班协同机制。

    •通过网关大盘、调度模块监控、模型性能面板等多层次观测体系,实现问题快速发现与定位。

    

    

    4. 引擎优化与性能突破

    针对MoE、多模态等模型特点,通过算子优化、引擎调优与量化等手段,在多项关键性能指标上实现行业领先。

    

    二、关键场景落地与收益量化

    1. 长短文混合调度

    问题:长、短文请求混合排队时,短文TTFT急剧上升,集群吞吐下降。 方案:通过长短文分桶与跨集群调度,实现长短文分离处理。

    收益(以Kimi-K2与DeepSeek-V3压测为例):

    Kimi-K2:短文TTFT降低90.97%,吞吐提升124.46%;长文吞吐提升33.89%,集群整体吞吐提升67%。

    DeepSeek-V3:短文TTFT降低79.09%,吞吐提升36.7%;长文吞吐提升14.34%,集群整体吞吐提升21.82%。

    

    2. KV Cache全局感知的流量调度

    问题:多副本场景下相同前缀请求被随机调度,导致每个实例都重复计算并缓存相同前缀。 方案:持续刻画更新集群级KV Cache缓存画像,实现前缀匹配的智能路由,KV Cache高效复用。

    收益

    •DeepSeek-V3场景下,集群吞吐提升29.9%,首Token时延TTFT降低28.7%;

    •Kimi-K2场景下,KV Cache命中率整体提升20%\~30%。
    在这里插入图片描述

    3. 全场景自动弹性伸缩

    问题:夜间或周末的流量低谷期GPU资源闲置严重。 方案:通过多种弹性部署模式并基于排队长度与KV使用率等多项指标,实现全场景自动扩缩容。

    收益

    •周级别节省GPU卡时5000+,资源利用率提升26%;

    在这里插入图片描述

    4. 硬件拓扑亲和调度

    问题:跨交换机部署导致性能下降;人工修正部署成本高,维护压力大。 方案

    •通过节点标签与亲和性规则,实现交换机级自动拓扑亲和调度;

    •Router实现按组进行PD配对流量调度。

    收益

    •组容器间通信不跨交换机,数据高效传输,全程自动化,无需人工干预,保证服务SLA。
    在这里插入图片描述

    5. 稳定性与业务连续性

    问题: 容器故障后,因分发机制导致持续的客户影响。故障恢复强依赖人工,导致故障时间长,修复难度大。

    方案: 通过实时健康监测,快速感知故障容器,进行隔离。启动新副本,实现故障自愈。

    收益:

    •实现自动隔离,自动自愈,无需人工干预,节点人力成本,提高用户体验。

    

    

    6.推理引擎无感接入

    问题:多引擎支持成本高,定制化开发量大,维护成本高。 方案:构建统一推理引擎调度接入层,支持vLLM、SGLang等不同推理引擎一键接入。

    收益:

    •推理引擎无感快速接入。

    •降低开发与维护成本。

    

    

    三、收益总结

    京东云云原生AI推理框架通过多维度调度与系统级优化,显著提升了推理效率与资源利用率。短文与长文吞吐均有大幅增长,首 token 延迟明显降低,并结合自动弹性扩缩容与 KV Cache 感知调度,进一步提升集群吞吐与缓存命中率,同时节省可观的 GPU 卡时成本。在此基础上,引入硬件拓扑亲和调度,实现更高效的自动化部署与调度,降低大规模集群运维压力;配合故障自愈、高可用机制与更精细的可观测体系,使系统运行更加稳定、可控、易排障。通过针对引擎瓶颈的持续优化,不同模型场景下的吞吐能力均得到明显增强。

    能力量化结果与效益
    长短文调度吞吐:短文提升120%+,长文提升30%+ TTFT:短文降低90%
    自动弹性扩缩容GPU卡时:节省GPU卡时约26%
    KV Cache感知调度提升KV Cache命中率:增长约20%\~30% TTFT:降低29% 集群吞吐:增长30%
    硬件拓扑亲和调度实现自动化部署与调度,降低大规模集群运维成本
    故障自愈与高可用自动检测故障、自动恢复故障,减少对人工的依赖,更具可控性
    可观测性具备更细致的监控告警体系、提升故障发现和排查效率
    引擎瓶颈优化DS-MoE模型吞吐提升9%,多模态模型吞吐最高提升39%

    四、客户案例

    客户背景

    客户原系统面临AI规模化落地的挑战,在推理系统的稳定性、性能和资源利用率方面遇到了明显瓶颈。京东云通过帮助客户升级至云原生架构,成功改造了其推理系统,实现显著的性能提升和资源节约。见证了新系统如何带来切实的业务效益。

    解决方案

    京东云通过云原生AI推理框架对客户原78台节点进行逐步云原生改造,在不到一个月时间内从最初的2%切流比率提升到达到40%,实现对用户AI推理系统的云原生重构,助力企业实现高效、稳定、低成本的AI规模化落地。核心方案包括:采用智能流量调度技术,通过长短文分桶、KV缓存复用及拓扑感知调度;基于流量波动的弹性扩缩容机制;高可用架构通过多副本部署与故障自愈保障服务连续性;支持vLLM、SGLang等主流引擎的无感接入硬件拓扑优化实现跨交换机亲和调度,减少传输延迟。
    在这里插入图片描述

    客户收益

    

    GPU吞吐能力:切换云原生系统后,GPU吞吐提升幅度达74%。这一增强使客户在高负载情况下依然能够维持高效的模型推理速度。

    限流数量:云原生AI推理框架系统将需要限流的请求显著减少82%,这意味着更多的客户请求在高峰时段得到及时响应,提高了用户体验和满意度。

    整体旧版系统云原生系统收益
    机器规模78 (100%)50 (64%)28 (36%)-
    请求数量36671 (100%)17091 (47%)19580 (53%)-
    GPU吞吐 (TGS)-183319提升74%
    限流数量687 ( 1.87%)570 (3.3%)117 (0.59%)减少82%
    备注: 1、数据来源基于Kimi-K2-instruct-0905模型。

    客户对于系统的云原生改造表示高度认可:“云原生AI系统的导入,让我们不仅在资源利用上实现了显著的性价比提升,同时在关键业务高峰期的响应能力也大大增强,显著减少了因限流带来的服务瓶颈问题。”

    

    

    五、未来展望

    京东云将继续优化云原生AI推理框架,致力于为客户提供更智能、高效、稳定的AI基础设施。通过在各个行业和应用场景中的深化应用,我们的客户可以持续依赖这一平台,实现业务的长期可持续发展。

    这个成功案例不仅展示了京东云云原生AI推理框架系统的技术优势,也为其他企业提供了一个可借鉴的成功模型,期待更多客户从中获益。

    京东云云原生AI推理框架的研发升级并非一蹴而就。从架构设计、配置调试再到全量上线,每一步都围绕着业务价值、性能提升与运维提效展开。我们相信,只有将稳定性、性能、成本三者统筹兼顾的基础设施,才能真正支撑AI业务规模化、可持续地落地与增长。如您有类似场景或技术交流需求,欢迎随时联系我们。

    作者:牛潇

    在 Agentic AI 快速演进的今天,“Agent Skills 会取代 MCP”或“MCP 已经过时”的声音不绝于耳。这种二元对立的叙事,看似犀利,实则掩盖了智能体架构设计中最本质的真相:Agent Skills 与 MCP 并非对手,而是搭档

    

    前者是人类智慧的结晶——将业务规则、决策逻辑与合规要求,以声明式、可读、可维护的方式注入 AI 代理;后者是技术能力的桥梁——让 AI 能安全、可靠地触达现实世界的数据、工具与系统。一个回答“怎么做才对”,一个解决“能不能做”;一个由产品经理和业务专家驱动,一个由工程师和 SRE 构建。

    

    本文旨在彻底厘清二者的核心差异、适用边界与协同模式。我们将从概念定义出发,深入实现机制,通过多维对比与真实场景剖析,最终给出一套可落地的选择策略与高阶架构范式。无论你是智能体开发者、平台架构师,还是正在规划 AI 原生应用的产品负责人,都能从中获得清晰的判断框架与实践指引。

    

    更重要的是,我们将证明:真正的智能,不在于选择某一种工具,而在于知道何时用哪一种,以及如何让它们共舞

    

    一、核心概念定义:超越实现的标准

    1.1 Model Context Protocol (MCP) - 模型上下文协议

    本质定义:MCP是一种标准化通信协议,定义了AI模型如何与外部系统建立安全、高效、可审计的双向连接。

    核心特性

    能力扩展协议:为AI代理提供访问实时数据、专业工具和企业系统的标准化接口

    安全沙箱规范:在协议层面定义权限控制、数据隔离和操作审计机制

    上下文同步机制:解决模型内部状态与外部世界状态的一致性问题

    标准化接口:通过JSON-RPC或其他标准协议定义请求/响应格式、认证机制和错误处理

    服务化架构:协议设计支持独立部署的服务进程,实现高可用和水平扩展

    架构定位:MCP解决了 "能不能做" 的问题 (Capability),为AI代理扩展其原始训练数据范围之外的能力边界。

    1.2 Agent Skills - 代理技能标准

    本质定义:Agent Skills是一种模块化能力封装标准,通过声明式、配置化的方式定义AI代理在特定场景下的行为规范、决策逻辑和工作流程。

    核心特性

    流程编排标准:定义如何将原子操作组合成完整业务流程的标准

    上下文感知能力:标准定义了技能如何根据对话历史和环境动态调整行为

    透明可解释性:决策路径对人类可见,便于理解和修改

    轻量级集成:标准设计支持无服务部署,修改配置即可生效

    组合式架构:支持技能的嵌套、组合和复用

    架构定位:Agent Skills解决了 "怎么做才对" 的问题 (Orchestration),为AI代理编写符合业务标准和人类期望的行为规范。

    

    二、设计哲学与架构差异

    2.1 MCP:能力导向的设计

    MCP的核心设计哲学是能力扩展。它关注:

    原子操作:如何安全地执行单一、精确的操作

    连接管理:如何高效管理与外部系统的连接

    权限边界:如何在协议层面实现细粒度权限控制

    数据标准化:如何统一不同数据源的格式和语义

    MCP的架构本质上是服务化的:
    在这里插入图片描述

    2.2 Agent Skills:流程导向的设计

    Agent Skills的核心设计哲学是业务价值。它关注:

    决策逻辑:在特定情境下如何做出正确决策

    流程规范:如何将多个操作组合成符合业务标准的流程

    上下文适应:如何根据环境变化动态调整行为

    人类协作:如何使AI行为可理解、可预测、可修正

    Agent Skills的架构本质上是声明式的:
    在这里插入图片描述

    三、多维度对比分析

    维度Agent SkillsMCP
    协议/标准类型声明式配置标准 (Declarative)通信协议标准 (Imperative)
    核心关注点业务流程与决策逻辑 (What & Why)能力执行与数据获取 (How & Can)
    抽象层级业务逻辑层 (Business Logic Layer)能力扩展层 (Capability Layer)
    数据流向自顶向下 (决策驱动)自底向上 (能力驱动)
    变更频率高 (业务规则经常变化)低 (接口相对稳定)
    维护主体业务专家、领域专家工程师、系统管理员
    安全模型软约束 (依赖执行引擎的策略)硬约束 (协议层强制控制)
    性能特性低延迟 (纯逻辑决策)可变延迟 (依赖外部系统)
    复用模式领域特定复用跨领域通用复用
    标准化程度高 (结构化配置)高 (协议规范)

    

    四、核心区别总结

    4.1 本质差异

    Agent Skills定义业务价值路径,MCP实现技术能力扩展

    Agent Skills关注"为什么"和"如何"

    ◦为什么这个任务对业务有价值?

    ◦如何确保任务按照业务标准和合规要求完成?

    ◦如何在不同业务情境下动态调整决策逻辑?

    ◦其设计哲学是以业务为中心,将人类专业知识编码为AI可执行的规范

    MCP关注"什么"和"能否"

    ◦需要访问什么外部数据或工具?

    ◦AI能否安全、可靠地执行这个具体操作?

    ◦如何在协议层面实现权限控制和数据隔离?

    ◦其设计哲学是以能力为中心,解决AI与现实世界连接的技术问题

    4.2 架构隐喻

    Agent Skills如同"企业SOP手册"

    ◦详细描述每个业务流程的标准步骤

    ◦规定在特定情境下的决策规则

    ◦可由非技术人员编写和维护

    ◦随业务需求灵活调整

    MCP如同"企业IT基础设施"

    ◦提供基础数据访问和计算能力

    ◦确保系统安全性和可靠性

    ◦需要专业技术团队维护

    ◦变更需要严格测试和审批流程

    

    五、场景示例对比:标准应用与实际落地

    5.1 场景一:客户服务工单处理

    需求:自动处理客户支持工单,需要理解客户意图、查询相关数据、生成适当回复。

    Agent Skills标准应用(业务流程编排):

    skill:
      name: "customer_ticket_processing"
      trigger: 
        event: "new_ticket_created"
      workflow:
        steps:
          - name: "intent_classification"
            description: "识别客户工单类型"
            rules:
              - "如果包含'退款'、'钱'等关键词,标记为财务类"
              - "如果包含'无法登录'、'错误',标记为技术类"
              - "如果包含'多久'、'什么时候',标记为咨询类"
          
          - name: "data_requirements"
            description: "确定需要查询的数据"
            conditional:
              if: "ticket_type == 'financial'"
              then: ["mcp_order_history", "mcp_payment_records"]
              elif: "ticket_type == 'technical'"
              then: ["mcp_user_activity", "mcp_system_logs"]
          
          - name: "response_generation"
            description: "生成符合品牌标准的回复"
            prompt_template: |
              你是一个专业客服代表,遵循以下规则:
              1. 使用友好、专业的语气
              2. 对于财务问题,必须提供具体金额和时间
              3. 对于技术问题,提供具体解决方案而不是模糊建议
              4. 如无法解决,明确升级路径
            constraints:
              - "不得承诺无法确认的信息"
              - "必须引用数据支持你的结论"
    

    为什么适用Agent Skills

    •✅业务规则复杂:需要根据多种条件动态调整处理流程

    •✅合规要求高:必须遵循特定的沟通标准和数据使用规范

    •✅频繁变更:客户政策和响应标准经常变化

    •❌不适合MCP:这不是原子操作,而是需要上下文感知的决策流程


    

    MCP标准应用(能力提供):

    class CustomerDataMCP:
        @mcp_tool(permission="read_only")
        def get_order_history(self, customer_id, limit=10):
            """安全获取客户订单历史"""
            # 从订单数据库获取数据
            orders = self.order_db.query(
                "SELECT order_id, amount, status, created_at FROM orders WHERE customer_id=? ORDER BY created_at DESC LIMIT?",
                [customer_id, limit]
            )
            return {
                "orders": orders,
                "total_count": self.order_db.count("orders", {"customer_id": customer_id})
            }
        
        @mcp_tool(permission="read_only")
        def get_system_status(self):
            """获取系统当前状态"""
            # 从监控系统获取实时状态
            return self.monitoring_api.get_current_status()
        
        @mcp_tool(permission="write")
        def create_support_note(self, ticket_id, note_content, agent_id):
            """创建客服备注,需要写权限"""
            if not self.auth.has_permission(agent_id, "support_write"):
                raise PermissionError("Insufficient permissions")
            return self.support_db.insert_note(ticket_id, note_content, agent_id)
    

    为什么适用MCP

    •✅数据敏感性:涉及客户个人数据,需要严格的权限控制

    •✅跨系统集成:需要连接订单系统、监控系统和客服系统

    •✅结构化输出:需要统一的数据格式,避免文本解析歧义

    •❌不适合Agent Skills:这不是业务决策,而是需要安全控制的原子操作

    5.2 场景二:金融风险评估

    需求:为贷款申请提供风险评估,需要综合多源数据、应用复杂模型、生成合规报告。

    Agent Skills标准应用(决策规则与合规性):

    skill:
      name: "loan_risk_assessment"
      trigger: 
        event: "loan_application_received"
      workflow:
        compliance_rules:
          - "必须检查申请者年龄是否≥18岁"
          - "必须验证收入证明真实性"
          - "禁止基于种族、性别等因素做决策"
          - "超过$100,000的贷款必须人工审核"
        
        assessment_steps:
          1. "data_collection":
               tools: ["mcp_credit_report", "mcp_income_verification", "mcp_employment_history"]
          
          2. "risk_calculation":
               description: "应用公司标准风险模型"
               rules:
                 - "信用分<600:高风险"
                 - "负债收入比>50%:中高风险"
                 - "就业历史<2年:中风险"
          
          3. "decision_logic":
               rules:
                 - "如果高风险因素≥2,拒绝贷款"
                 - "如果中风险因素≥3,要求额外担保"
                 - "否则,批准贷款但限制额度"
          
          4. "report_generation":
               template: |
                 # 贷款风险评估报告
                 **申请人**: {applicant_name}
                 **申请金额**: ${loan_amount}
                 
                 ## 风险因素分析
                 {risk_factors_section}
                 
                 ## 决策依据
                 {decision_rationale}
                 
                 ## 合规声明
                 本评估严格遵循[相关法规],未考虑受保护特征。
    

    为什么适用Agent Skills

    •✅合规驱动:需要严格遵循金融法规和内部政策

    •✅决策复杂:需要权衡多个风险因素并应用业务规则

    •✅审计要求:需要完整的决策路径记录和解释

    •❌不适合MCP:这不是技术实现问题,而是业务决策逻辑


    

    MCP标准应用(数据获取与模型执行):

    class FinancialRiskMCP:
        @mcp_tool(permission="sensitive_data")
        def get_credit_report(self, applicant_id):
            """获取信用报告,处理敏感数据"""
            # 通过安全通道调用外部信用机构API
            report = self.credit_api.get_report(applicant_id)
            # 数据脱敏处理
            return self._sanitize_sensitive_data(report)
        
        @mcp_tool(permission="model_execution")
        def run_risk_model(self, features):
            """执行风险评估模型"""
            # 加载预训练的风险评估模型
            model = self.model_registry.get("risk-assessment-v3")
            # 特征工程和预测
            processed_features = self._preprocess_features(features)
            prediction = model.predict(processed_features)
            # 生成可解释的模型输出
            explanation = self.explainer.generate_explanation(model, processed_features)
            return {
                "risk_score": prediction,
                "confidence": model.confidence_score,
                "key_factors": explanation.top_factors
            }
        
        @mcp_tool(permission="document_generation")
        def generate_compliance_report(self, assessment_data):
            """生成合规的审计报告"""
            # 应用合规模板
            report = self.report_template.render(assessment_data)
            # 添加数字签名
            signed_report = self.crypto.sign_document(report)
            # 存档到审计系统
            self.audit_system.archive(signed_report)
            return signed_report
    

    为什么适用MCP

    •✅数据安全:涉及敏感金融数据,需要严格的访问控制

    •✅专业模型:需要调用专门的风险评估模型

    •✅审计追踪:需要完整的操作日志和数字签名

    •❌不适合Agent Skills:这不是业务规则,而是需要安全控制的技术操作

    5.3 场景三:实际落地案例 - Claude Code 中的自动化部署

    需求:在软件开发项目中,实现自动化部署流程,包括运行测试、构建和部署到生产环境。

    这是一个已在Claude Code中实际落地的场景,完美展现了 MCP 与 Skills 的协同工作模式。

    MCP 层实现:提供原子能力

    # mcp_deployment_server.py
    from mcp_server import MCPServer, mcp_tool
    
    class DeploymentMCP(MCPServer):
        def __init__(self, config):
            super().__init__()
            self.config = config
            self._setup_connections()
        
        def _setup_connections(self):
            """建立必要的系统连接"""
            self.ci_connection = self._connect_to_ci_system()
            self.s3_client = self._setup_s3_client()
        
        @mcp_tool()
        def run_tests(self):
            """
            运行项目测试套件
            返回结构化的测试结果
            """
            # 通过CI系统API触发测试
            test_result = self.ci_connection.run_pipeline("test")
            
            # 返回结构化结果
            return {
                "success": test_result["status"] == "passed",
                "total_tests": test_result["total"],
                "failed_tests": test_result["failed"],
                "duration_ms": test_result["duration"]
            }
        
        @mcp_tool(permission="deployment_write")
        def upload_to_s3(self, environment="production"):
            """
            将构建产物上传到S3
            需要部署权限
            """
            # 验证环境
            if environment not in ["staging", "production"]:
                raise ValueError("Invalid environment")
            
            # 获取最新构建产物
            build_artifact = self.ci_connection.get_latest_build_artifact()
            
            # 上传到S3
            bucket_name = f"myapp-{environment}-bucket"
            key = f"builds/{build_artifact['version']}/{build_artifact['filename']}"
            
            self.s3_client.upload_file(
                build_artifact['local_path'],
                bucket_name,
                key
            )
            
            return {
                "status": "success",
                "bucket": bucket_name,
                "key": key,
                "url": f"https://{bucket_name}.s3.amazonaws.com/{key}"
            }
    

    MCP 层关键价值

    •✅安全封装:敏感凭证(S3密钥、CI系统令牌)完全封装在服务内部

    •✅标准化接口:提供统一的输入/输出格式,便于调用

    •✅错误处理:在服务层处理网络错误、超时等异常情况

    •✅权限控制:通过@mcp_tool(permission="deployment_write")严格控制部署权限

    Skills 层实现:定义业务流程

    # CLAUDE.md (项目根目录)
    
    ## Skill: 代码部署 (Deploy)
    
     **触发条件** :用户要求"deploy"、"部署"、"上线"或相关操作
    
     **执行流程** :
    1.  **运行测试** :
       - 首先调用 MCP 工具 `run_tests`
       - 如果返回失败,立即停止并报错:"测试未通过,无法部署"
       - 不要继续执行后续步骤
       - 具体失败原因:{failed_tests} 个测试失败
    
    2.  **执行上传** :
       - 如果测试通过,调用 MCP 工具 `upload_to_s3`
       - 参数设置:
         - environment: "production"(生产环境)
       - 等待上传完成确认
       - 验证返回的S3 URL是否可访问
    
    3.  **验证部署** :
       - 访问部署后的URL进行健康检查
       - 确认关键功能是否正常工作
       - 如果验证失败,触发回滚流程
    
    4.  **报告结果** :
       - 用简洁的语言总结部署结果
       - 包含关键信息:部署时间、版本号、S3 URL
       - 如果有问题,提供具体的错误信息和建议
    
     **安全规则** :
    - 永远不要直接在生产环境执行未经测试的代码
    - 任何破坏性操作(如数据库迁移)必须先询问用户确认
    - 部署前必须备份当前版本
    - 生产环境部署必须获得至少一名资深工程师的批准
    

    Skills 层关键价值

    •✅业务逻辑清晰:用自然语言描述完整的部署流程,易于理解和修改

    •✅灵活调整:业务规则变化时(如添加预发布环境),只需修改配置

    •✅团队协作:非工程师(如产品经理、QA)也能理解并参与优化流程

    •✅透明决策:用户可以看到完整的推理过程,增强信任

    协同工作流程

    用户请求:"部署最新版本到生产环境"
    
    1. Claude 检测到"部署"关键词,激活 "代码部署 (Deploy)" Skill
    2. Skill 定义第一步:运行测试
       → 调用 MCP 工具 `run_tests`
       ← MCP 返回:{"success": true, "total_tests": 125, "failed_tests": 0}
    3. Skill 检查测试结果,判定通过
    4. Skill 定义第二步:执行上传
       → 调用 MCP 工具 `upload_to_s3` with {"environment": "production"}
       ← MCP 返回:{
            "status": "success", 
            "bucket": "myapp-production-bucket",
            "key": "builds/v2.3.1/app-bundle.zip",
            "url": "https://myapp-production-bucket.s3.amazonaws.com/builds/v2.3.1/app-bundle.zip"
          }
    5. Skill 进行验证和报告
    6. 最终输出:"✅ 部署成功!版本 v2.3.1 已部署到生产环境,S3 URL: https://..."
    

    为什么这种分层架构最优

    •✅关注点分离:MCP 专注"如何安全执行",Skills 专注"如何正确流程"

    •✅变更独立性:修改部署流程不需要修改 MCP 服务,反之亦然

    •✅复用性run_testsupload_to_s3工具可被其他 Skill 复用

    •✅安全与灵活性平衡:敏感操作受控,业务逻辑灵活可变

    实际工程价值

    开发效率:新团队成员通过阅读CLAUDE.md即可理解部署流程

    运维可靠性:MCP 层的错误处理和重试机制提高了系统稳定性

    合规保证:所有部署操作都有完整审计日志

    快速迭代:业务流程调整只需修改配置,无需重新部署服务

    

    六、选择建议与高阶策略

    6.1 基础决策框架

    优先选择Agent Skills当: ✅ 业务规则复杂且经常变化:当决策逻辑依赖于业务策略而非技术实现时 ✅ 需要人类可读的规范:当非技术人员需要理解和修改行为规则时 ✅ 涉及主观判断:当任务需要权衡多个因素且没有明确的算法时 ✅ 强调一致性和合规性:当需要确保AI行为符合公司政策或法规要求时 ✅ 快速原型和迭代:当需要快速验证想法而不想投入大量工程资源时

    优先选择MCP当: ✅ 需要访问外部数据源:当任务依赖实时数据、专有系统或敏感信息时 ✅ 性能要求严格:当需要高效处理大量数据或低延迟响应时 ✅ 安全性至关重要:当涉及财务交易、个人隐私或系统关键操作时 ✅ 需要精确控制:当任务要求精确的输入/输出格式或复杂的状态管理时 ✅ 跨系统集成:当需要连接多个不兼容的系统或协议时

    6.2 高阶决策树

    在这里插入图片描述

    6.3 经典协同模式

    模式1:分层架构(最常见)

    在这里插入图片描述

    最佳实践

    Agent Skills负责"为什么"和"做什么" :定义业务目标和流程

    MCP负责"怎么做" :提供具体的执行能力

    严格分离关注点:避免在Skills中硬编码技术细节,避免在MCP中包含业务规则

    模式2:技能驱动型MCP

    skill:
      name: "dynamic_mcp_selection"
      description: "根据上下文动态选择最合适的MCP工具"
      logic:
        - if: "data_freshness_requirement == 'real-time'"
          then: "use mcp_live_data_feed"
        - if: "data_volume > 1GB"
          then: "use mcp_batch_processing"
        - if: "security_classification == 'sensitive'"
          then: "use mcp_encrypted_channel"
    

    优势:最大化灵活性,适应复杂多变的业务需求

    模式3:MCP增强型技能

    class SkillEnhancementMCP:
        @mcp_tool
        def get_optimal_workflow(self, task_type, context):
            """基于历史数据推荐最佳工作流程"""
            # 分析历史任务完成数据
            historical_data = self.analytics_db.get_task_metrics(task_type)
            # 应用机器学习模型推荐最优流程
            recommended_workflow = self.recommender.predict_optimal_workflow(
                task_features=context,
                historical_performance=historical_data
            )
            return recommended_workflow
    

    优势:利用数据驱动优化技能定义,形成闭环学习系统

    

    七、总结与技术展望

    7.1 核心原则重申

    1.MCP = 能力扩展 (Capability Extension) :解决"能不能做"的问题

    2.Agent Skills = 业务编排 (Business Orchestration) :解决"怎么做才对"的问题

    3.协同而非替代:两者在智能体架构中互补共存,创造最大价值

    7.2 真实工程经验教训

    在多个大型AI系统中,我们观察到以下关键点:

    误区1:用MCP实现所有功能

    症状:每个小功能都实现为MCP工具

    后果:过度工程化,维护成本高,业务逻辑与技术实现耦合

    解法:优先评估是否需要外部系统访问或安全控制

    误区2:在Agent Skills中硬编码复杂逻辑

    症状:Skills配置超过2000行,包含大量条件判断

    后果:决策逻辑难以理解和维护,执行不可靠

    解法:将复杂逻辑拆分为MCP工具,Skills只负责业务编排

    误区3:忽视安全边界

    症状:在Skills中暴露敏感操作,在MCP中缺少输入校验

    后果:安全漏洞,数据泄露风险

    解法:敏感操作始终通过MCP,Skills只包含公开的业务规则

    7.3 未来展望

    随着AI智能体架构的发展,我们观察到以下趋势:

    1.标准化融合

    ◦MCP协议将支持技能描述标准,使能力发现和组合更加自动化

    ◦Agent Skills标准将内置对MCP能力的语义描述,提升互操作性

    2.动态协同

    ◦智能体将能够根据任务复杂度自动决定使用Skills还是MCP

    ◦运行时将动态平衡配置驱动和代码驱动的执行路径

    3.开发者体验优化

    ◦统一的开发框架将无缝集成Skills和MCP

    ◦低代码平台将使业务专家能够定义技能,自动映射到合适的MCP能力

    

    八、结语:协同共生,而非零和博弈

    在AI技术社区中,经常出现"Skills将取代MCP"或"MCP是过时的技术"等论调。这些观点源于对两者本质的误解,忽视了它们在智能体架构中互补共存的价值。

    MCP和Agent Skills不是竞争关系,而是共生关系

    •MCP扩展了AI的感知和行动能力,使其能够连接现实世界

    •Agent Skills定义了AI的思维和决策模式,使其能够按照人类期望的方式行动

    将AI智能体视为一个完整的系统:

    MCP是感官和肢体:眼睛(数据获取)、耳朵(事件监听)、手(工具执行)

    Agent Skills是大脑和神经系统:决策逻辑、行为规范、学习能力

    没有感官和肢体,大脑无法感知世界;没有大脑和神经系统,肢体无法协调行动。两者缺一不可。

    

    终极建议

    不要陷入"二选一"的思维陷阱。最强大的AI代理系统往往是Skills和MCP精心设计的协同体:

    用Skills定义业务价值:什么是对用户真正有用的?

    用MCP实现技术可能:如何最安全、高效地交付这些价值?

    持续优化两者的边界:随着业务演进和技术进步,重新评估职责分配

    记住:技术的目的是解决问题,而不是创造新的复杂性。Skills和MCP都是工具,明智的工程师会根据具体问题选择最合适的工具,或将多个工具创造性地组合,以交付最大价值。

    在AI代理的未来,我们不会看到Skills取代MCP,或MCP淘汰Skills。相反,我们将见证一个融合的生态系统,其中配置驱动的灵活性与代码实现的强大性和谐共存,共同推动AI代理走向更智能、更可靠、更有价值的未来。

    


    

    

    参考资料与延伸阅读

    本文引用的核心概念与技术规范基于以下行业权威文档,推荐读者深入阅读以获取更多技术细节:

    1. Model Context Protocol Specification

    •来源: Anthropic & MCP Community

    •地址: modelcontextprotocol.io/introduction

    •对应内容: 支持文中第一章与第二章关于 MCP 作为“标准化连接协议”、“安全沙箱”及“JSON-RPC 消息规范”的技术定义。

    1. Building Effective Agents

    •来源: Anthropic Research Team (2024)

    •地址: anthropic.com/research/building-effective-agents

    •对应内容: 支持文中关于“Workflows(工作流) vs Agents(自主体)”的区分,以及为何在生产环境中应优先采用确定性较高的 Agent Skills(即文中提到的 Orchestration)。

    1. The Future of Agentic AI & Design Patterns

    •来源: Andrew Ng, DeepLearning.AI (The Batch, Issue 242)

    •地址: deeplearning.ai/the-batch/issue-242

    •对应内容: 支持文中关于“SOP 即智能”的观点,详细阐述了通过结构化流程(Agentic Workflows)来提升 AI 产出质量的设计模式。

    1. Semantic Kernel Overview

    •来源: Microsoft Learn

    •地址: learn.microsoft.com/en-us/semantic-kernel/overview

    •对应内容: 提供了文中“声明式技能”的工程实现参考,展示了如何将自然语言 Prompt 封装为可调用的 Skills/Plugins。

    作者:李卿阳

    在电商推荐系统中,推荐模型长期面临着两个核心矛盾:一方面,传统的多阶段级联推荐系统存在目标不一致和误差累积的问题;另一方面,直接引入大型语言模型LLM虽然能带来强大的推理能力,但其高昂的延迟和计算成本在工业级应用中难以承受。更重要的是,现有的生成式推荐方法在多场景扩展性上面临巨大瓶颈--每个场景都需要独立训练和部署,导致资源利用率低下、维护成本高昂。

    京东零售OxygenREC团队在论文《OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation》中提出了一种全新的解决方案:OxygenREC。这是一个基于“快慢思考”的指令跟随生成式推荐框架,不仅解决了推理能力与延迟之间的矛盾,更实现了“一次训练,多处部署”的多场景统一高效解决方案。
    在这里插入图片描述

    一、 关键挑战

    OxygenREC 旨在解决当前推荐系统,特别是生成式推荐范式下的三大核心难题:

    1.有限的演绎推理能力:现有的生成式推荐方法主要从用户海量行为中进行归纳学习,但在需要结合现实世界知识进行深度演绎推理的场景下表现不佳。比如下边两个例子:

    1.当推荐的时空背景和用户画像是“成都冬至时的年轻宝妈”时,传统模型可能只是推荐“冬季外套”这样的商品,而无法深度推理出此时成都是“冷湿环境”,这位年轻母亲潜在的需求可能是“婴儿排汗睡衣”。

    2.有个户外运动vlogger在购物行为中反复对比华为Mate 70和iPhone 16 Pro两款手机,传统系统因为用户频繁的交互历史,只会不断加强重复推荐这两款商品进行比价,而无法推理出其真正诉求可能是“高质量的移动影像”,从而模型未能精准推荐‘华为Pura’系列这一真正符合用户诉求的目标商品。

    2.多场景适应与资源效率的矛盾:大部分推荐平台拥有首页、频道流、购物车、搜索等多种推荐场景。现有生成式推荐模型如果为每个场景训练独立模型,会带来巨大的运营和计算成本,而使用简单的统一模型又会面临“负迁移”问题--不同场景间的知识相互干扰,导致性能下降。

    3.工业级部署的工程挑战:将LLM的深度推理能力与推荐系统的大规模稀疏特征、严格延迟要求相结合,是一个巨大的系统工程挑战。它需要同时处理推荐系统典型的TB级稀疏嵌入和LLM典型的十亿级稠密参数,这对训练框架和推理引擎都提出了极高要求。

    二、 核心贡献

    面对这些挑战,京东零售OxygenREC团队提出了一个基于指令跟随的生成式推荐框架-OxygenREC,首次把LLM中的“快慢思考”模式引入到生成式推荐中来。在OxygenREC框架中,通过基于Transformer 的Encoder-Decoder 作为骨干网络,能够根据特定指令生成语义化物品序列,来执行推荐场景的”快思考"方式。在“慢思考”模式中,引入上下文推理指令--由近线LLM pipeline 生成,将用户行为与上下文合成为可解释的指令。同时多场景对齐中,通过场景指令与基于强化学习的对齐机制,实现“一次训练,多场景部署”。

    在这里插入图片描述

    1. “快慢思考”架构:知识注入与低延迟的平衡

    这是整个OxygenREC的基础,其核心思想是将复杂的推理过程“离线化”,保证在线服务的低延迟

    慢思考:一个近线的LLM pipeline,综合分析用户的时空上下文、个性化特征和历史行为,生成高质量的 “上下文推理指令” 。这个过程融合了世界知识,能进行深度演绎推理,但因其是近线批量处理,不增加在线请求的延迟。

    快思考:一个高效的编码器-解码器骨干网络。它接收“慢思考”生成的指令,结合实时用户信号,在严格的延迟限制下生成推荐序列。该骨干网络本身轻量、高效,专为实时推理优化。

    在这里插入图片描述

    

    2. 语义对齐的指令控制机制:让指令真正发挥作用

    仅仅生成指令是不够的,还必须确保模型能够准确理解并遵循指令。OxygenREC通过两项关键技术实现精准指令控制:

    查询到物品的对齐损失:在训练阶段,通过一个辅助的Query-to-Item (Q2I) 损失函数,将指令嵌入与目标物品嵌入在同一个语义空间中对齐。这使得指令能够“理解”物品,并用于检索:

    在这里插入图片描述

    指令引导检索(IGR) :在生成推荐时,利用对齐后的指令作为查询,从用户长期历史行为中检索出最相关的部分,过滤掉无关的噪声。这确保了模型生成时专注在与当前指令意图最相关的历史信息上,大大提升了可控性和准确性。

    

    3. 基于指令与强化学习的多场景统一对齐:Train-Once-Deploy-Everywhere

    这是解决多场景扩展性的关键。OxygenREC摒弃了为每个场景独立建模的思路。

    场景指令化:将不同的场景信息(如首页、购物车)和可选的触发物品(如用户点击的入口商品)统一编码为 “场景指令” ,作为模型的条件输入。
    在这里插入图片描述

    统一奖励映射与策略优化:设计了一个统一的奖励映射服务,将不同场景、不同业务目标(如GMV,转化率,合法性,多样性)的奖励信号归一化。在此基础上,提出了Soft Adaptive Group Clip Policy Optimization (SA-GCPO) ****算法进行强化学习训练:

    
    在这里插入图片描述

    •该算法用自适应门控函数替代传统基于GRPO的硬截断方式(hard clip):

    在这里插入图片描述

    

    •并以基于用户真实反馈的奖励分数作为阈值区分正负advantage样本,显著提升了多任务、多场景下策略学习的稳定性和效率:

    在这里插入图片描述

    

    4. 大规模生产级系统实现

    为了支撑以上创新,团队构建了完整的工程体系:

    •统一训练框架:基于PyTorch,深度融合了工业级稀疏嵌入引擎和LLM稠密训练引擎,在128张H800 GPU集群上实现了40%的模型FLOPs利用率。

    高性能推理引擎xLLM:针对生成式推荐长上下文、大候选集的特点,定制开发了xLLM推理框架,通过xSchedule(系统调度)、xAttention(算子优化)、xBeam(束搜索优化)三级优化,满足线上严格的服务级别目标。

    近线指令服务:推理指令通过近线服务批量生成并存入KV数据库,线上推荐模型直接读取,实现了零在线LLM调用,兼顾了语义丰富性和低延迟。

    

    三、 实验成果

    OxygenREC在京东几个核心场景的大量离线实验和在线A/B测试中取得了显著效果,证明OxygenREC 基于生成式推荐的方法在大规模工业级推荐系统中的有效性。

    1. 基于快慢思考的生成式框架有效性验证

    语义ID:通过多源对比学习(文本、图像、行为关联)构建的层次化语义ID,在保持高类别纯度(92.8%)的同时,实现了极低的ID碰撞,证明了其强大的表达和区分能力。

    指令跟随:消融实验证明,在BOS右侧插入指令的方式为最佳;融合了场景ID和触发物品ID的指令效果显著优于单一组件;IGR和Q2I对齐机制共同作用带来了显著的性能提升。

    在这里插入图片描述

    

    统一模型 vs. 独立模型:在六个核心场景的对比中,统一的OxygenREC模型全面超越了为每个场景独立微调的基线模型,验证了OxygenREC框架在场景间正向迁移的有效性。

    在这里插入图片描述

    

    2. 基于SA-GCPO后训练的有效性验证

    在后续训练阶段,提出的SA-GCPO算法在合成数据比例变化时表现更稳定,且性能显著优于传统的GRPO及其变体GSPO。例如,在33%合成数据比例下,SA-GCPO在HR\@1和HR\@10上有显著提升。

    在这里插入图片描述

    3. 电商场景在线A/B测试的商业效果

    OxygenREC已在京东App上形成覆盖用户购物全链路的部署闭环:首页导流(场景1、2)-> 频道浏览(场景3、4)-> 商品结算转化(场景5、6)。在线测试结果表明,该模型在所有关键业务指标上均带来显著提升:

    首页场景:GMV提升4.52%-8.40%。

    频道流场景:其中一个场景的订单量提升了8.03% ,显示出模型精准匹配购买意图的能力。

    结算路径场景:在用户强购买意图下,GMV提升高达11.80%。

    在这里插入图片描述

    与行业上其他生成式推荐方式对比:

    在这里插入图片描述

    OxygenREC 在几个关键维度上进行了生成式推荐的范式革新:

    •架构上,用“快慢思考”破解了推理与延迟的死结。

    •效率上,用“统一指令模型”破解了多场景训练的困局。

    •控制上,用“语义对齐与引导检索”构建了生成式推荐模型的指令跟随能力。

    •优化上,用“SA-GCPO”和全栈系统优化,确保了技术在工业巨量流量下的可行性、稳定性和卓越性能。

    

    总结与展望

    OxygenREC的成功,标志着生成式推荐在工业落地上迈出了关键一步。它通过“快慢思考”巧妙平衡了深度推理与低延迟,通过“指令跟随”实现了对推荐过程的精准可控,并通过统一的奖励与策略学习破解了多场景扩展的难题,真正实现了“一次训练,多场景部署”的pipeline。

    未来,京东零售OxygenREC团队计划从两个方向继续探索:

    •一是向基于语言扩散模型的非自回归生成范式演进,从根本上突破序列生成延迟与列表长度的线性关系,满足更高吞吐需求;

    •二是开展跨场景用户轨迹建模,从用户在首页、搜索、购物车、结算等多场景的连贯行为中挖掘更深层的用户意图,实现更长周期的价值推荐。

    OxygenREC不仅是一个高效的推荐系统,更为工业级生成式AI应用的大模型设计提供了宝贵范式--如何将大模型的“脑”与小模型的“身手”结合,如何在复杂多目标任务中实现稳定高效的学习,这其中的思想值得广泛借鉴。

    第一季看着还是挺惊悚悬疑的,第二季开始往宗教方向发展了。果然,科技的尽头是神学。


    但这种软科幻设定还是挺有意思的。用脑科学技术,把工作生活,分成两部分。
    也就是说,你完全没有工作时候的记忆,每天只要打卡,一下秒就下班了。 smirk
    如果现实中的有这种技术,你会考虑去做吗?

    p2909322789

    对了,版主大大的论坛签到系统,有没有借鉴这部剧的灵感啊,有点好奇force_smile

    人工智能正处于阶梯式发展的平台期,当前研究路径的收益正在收敛,下一次跃迁需要全新的范式突破。与此同时,产业应用正在加速成熟,2026 年有望成为 Agent 大规模落地的关键之年。

     

    上周,OpenAI 与 Anthropic 几乎在同一时间抛出了各自最新的模型更新——OpenAI Codex 5.3Claude 4.6。没有发布会轰鸣,也没有颠覆式叙事,但在开发者社区和产业侧,这两次更新仍被迅速解读为一个清晰信号:大模型能力正在逼近一个阶段性的上限,而行业正在集体寻找新的突破口

    如果用一个词来形容 2025 年的人工智能行业,那就是“临界”。一方面,大模型的通用能力已达到较高水平,在语言理解、推理、代码生成等维度上正在逼近甚至超过人类专家水准;另一方面,沿着既有路径继续堆叠规模与算力,边际收益正在迅速收敛。技术并未停滞,但“下一次质变从何而来”,正在成为整个行业共同面对的问题。

    下一代范式突破的方向是什么?中美竞争的真正差距在哪里?Agent 如何从概念走向真正的产业落地?这些追问贯穿整个行业,而在 2026 年,它们变得无法回避。

    近期,带着这些问题我们与中关村人工智能研究院副院长 & 北京中关村学院副教授(以下简称“中关村两院”)郑书新进行了一次深度访谈。郑书新认为,人工智能正处于阶梯式跃迁的平台期,下一次跃迁需要全新的范式突破。他同时指出,当前中美竞争的核心差距不在技术路线,而在高质量数据和算力资源。

    在产业侧,郑书新认为技术突破与产业普及之间始终存在时间差,这是历史常态而非失败。就像蒸汽机的发明并不会立刻带来工业革命的大规模落地,AI 能力要转化为大规模应用,同样依赖配套系统与产品形态的逐步成熟。在他看来,2026 年将是 Agent 在真实场景中集中落地的一年,而 Coding Agent 等新范式也正在重塑传统软件开发的基本逻辑。

    以下为访谈实录,经由 InfoQ 编辑及整理:

    开场:个人介绍与研究背景

    InfoQ:您在 AI 领域深耕多年,能否和我们分享一下您的研究历程和主要工作?

    郑书新:我从十多年前开始接触人工智能,一直深耕大模型领域。早期专注于大规模分布式优化,搭建了当时微软最大的异步分布式训练系统。此后转向大语言模型研究,提出了 Pre-LN 等训练优化与架构改进方法,将模型训练效率提升了约一个数量级。这些成果后来被主流大模型广泛采用(如 OpenAI 开源模型 gpt-oss 等)。

    在通用模型与方法研究阶段,我提出的 Graphormer 架构,现在是图(Graph)学习领域的主流基座模型之一。近期,我致力于将大模型与生成式 AI 技术引入科学发现领域,提出的分子平衡分布预测框架突破了传统生物分子模拟的瓶颈,将分子动力学模拟效率提升数十万倍,相关成果发表于《Science》封面及《Nature Machine Intelligence》等顶级期刊。

    2024 年底,我加入中关村两院,现任学院副教授、研究院副院长,在 AI 基础学部负责大模型方向的研究与战略布局。

     

    InfoQ:您刚才提到目前在中关村两院 AI 基础学部负责大模型方向的研究。中关村两院肩负着北京乃至国家 AI 创新生态建设的使命,能否介绍一下两院的核心定位?AI 基础学部在其中扮演怎样的角色?

    郑书新:北京中关村学院与中关村人工智能研究院是一体两面,融合发展,是教育科技人才一体化的新尝试,是新型研发机构的二次方。北京中关村学院肩负着培养人工智能领军人才的重要使命,是国家教育、科技、人才一体化改革的"试验田"。中关村人工智能研究院与中关村学院共同开展面向未来、具有产业价值、颠覆性的人工智能技术研发及成果产业化落地。

    AI 基础学部在这个框架下承担具体的技术攻关和方向布局,我们的战略目标是补全 AGI 下半场的关键拼图,在产业上输出能真正重塑行业逻辑的核心变量,在人才上培养兼具工程能力与科学直觉的领军人才。

     

    AI 整体发展 Overview

    InfoQ:站在 2026 年初这个时间节点,您认为当前中国 AI 发展最需要解决的关键问题是什么?

    郑书新: AI 发展正处在阶梯式跃迁的平台期,沿着现有技术路径的边际收益在递减,需要找到下一代突破方向。同时, AI 本身也有两个特征:它是根植于产业的技术;并且,这场博弈有明确的时间窗口,很有可能在 3-5 年内见分晓。

    基于这些判断,我认为当前有两个核心问题需要关注。第一是战略层面:这场范式竞争的背后是中美科技博弈,我们如何争取先手、发展自主生态。第二是应用层面:AI 如何真正拉动 GDP,实现高质量发展。现在 AI 的行业渗透率已经很高,但对 GDP 的实际贡献还很有限。

    AI 技术发展现状

    InfoQ:您刚才提到技术上的关键问题是中美技术博弈中争取先手。能否展开谈谈,您如何看待当前 AI 技术的发展阶段?下一代技术突破的方向会是什么?

    郑书新: 人工智能的发展遵循"阶梯式跃迁"的规律。最近一次重大跃迁是 GPT 带来的规模定律。但现在,智能性提升进入平台期,沿着现有技术路径的收益在递减,近期已经有多个迹象有所印证。其一,预训练范式遇到瓶颈。规模定律的红利趋近耗竭,可用于模型训练的互联网高质量数据见顶,继续扩大模型规模的边际收益显著下降。其二,后训练范式同样存在局限。当前业界普遍转向精细化的奖励函数设计,奖励函数的设计复杂度已经堪比当年的特征工程,本质上是在既定框架内反复调优。Meta 近期发布的研究也表明,后训练的增量空间可能比预期更有限。如果“Less Structure, More Intelligence”成立,那么现有策略能否一路带领我们通向 AGI,坦率说是存疑的。

    那么,下一代突破的方向是什么?可能是针对本代 AI 范式的缺点进行改进、寻找突破口,例如突破记忆与持续学习的瓶颈、打通经验学习(Learning from Experience)和自我博弈(Self-Play)的路径、提高长上下文支持能力、探索动态数据的新训练方法等。但也有可能需要探索全新的技术范式,例如受神经科学启发的软硬件结合架构、新的数据来源、离散 Diffusion 等新的建模方式、以及新的智能性理论与奖励函数设计等。然而,下一代探索是高风险、长周期的,对商业公司而言往往优先级较低,毕竟它们需要兼顾短期业绩和股东回报;而多数高校虽有学术自由度,但在算力和工程资源上存在现实约束。正因如此,中关村两院希望在这个时点带发挥独特作用,做难而正确的事情,沿现有路线突破和全新范式探索两个方向布局。

     

    InfoQ:2025 年 Agent 很火,有人把 Agent 理解为大模型的应用层封装,有人把它理解为落地的应用形式。您如何看待当前 AI Agent 的发展现状?

    郑书新: 大家普遍把 Agent 理解为技术上的研究领域,或是一种落地的应用形式。但在我看来,Agent 就是基座模型,是当前业界押注智能性提升的主要技术路线。

    为什么这么说?预训练 Scaling Law 边际效益递减的根本原因在于互联网高质量数据已接近上限。现在的核心解法之一就是找新的数据来源——合成数据,它的本质是搜索,在超高维的语言空间中使用预训练好的大模型去发现新的有价值数据,依托这些合成数据来进一步提升模型的性能。以 o1 为代表的推理模型,就是通过搜索和强化学习在语言空间中生成高质量的思维链数据;而 Agent 进一步扩展了搜索空间的边界,与环境交互并调用工具,发现全新的高价值数据,可能存在新的 Scaling Law。

     

    InfoQ:在 2026 年,您认为 AI Agent 领域最值得期待的技术突破点是什么?

    郑书新:类似整个 AI 领域的进展方向,我期待的一是改进现有范式的短板,二是新的训练范式。

    在现有范式的改进上,有几个方向值得关注。首先是运行时学习(Runtime Learning),让智能体能够在运行过程中持续学习和改进,而不只是依赖预训练阶段的能力。其次是记忆机制,Agent 需要在长周期任务中保持上下文连贯,有效地存储和调用历史信息。此外,幻觉与可靠性、下一代评测方法、智能体系统的整体可用性与智能性等也是关键课题。

    在新范式的探索上,自我迭代的训练方式,以及内在动机(Intrinsic Motivation)驱动的奖励机制,都可能为 Agent 带来阶跃式的突破。

    这些也是中关村两院大模型领域的重点布局方向。

     

    InfoQ:相比国外,您认为国内在 AI 研究方面最大的优势和短板分别是什么?在全球 AI 竞争中,我们最需要补上的“关键一课”是什么?

    郑书新: 中国拥有庞大的人才基数和深厚的数理传统,大量工程师具备扎实的数学功底和出色的工程落地能力。与此同时,中国的产业门类齐全、应用场景丰富、市场规模庞大,这种独特的生态为 AI 落地提供了天然的试验田,也孕育了极强的产品化能力。

    再说短板,目前核心有两点:

    第一点是数据。目前中美技术路线上已经趋于透明,国内头部大厂和美国最大的差距就是数据,这是大模型智能性提升的主要来源。美国正在系统性地采集长程、复杂、高难度的专业级数据,这类数据的特点是推理链条长、多轮交互、涉及多种工具调用,单条价值可达上千美金。这也是 OpenAI 等公司研发的重点,目前已经有专门的公司在帮大厂收集编程、金融、法律、咨询等领域的专家级知识和数据,可以预见 2026 年在这些专业领域会有显著突破。我们在这方面还比较欠缺。

    第二点是算力。我认为算力是智能性提升的第一性原理——科学的进步依赖多样性的探索,而多样性的探索依赖充足的算力。但目前我们在这方面面临不少挑战:一是芯片本身的性能受限,二是大规模组网能力有待提升。据传美国 xAI 已经有 80 万张 H100 级别的集群,而国内头部的"六小龙"基本还在 5 万张上下。在这种情况下,对我们的要求就更高了——需要特别巧妙精细的设计,省着用,才能做出东西;但美国目前可以进行大规模、多方向的并行探索。

     

    AI 产业现状

    InfoQ:您之前提到,产业上目前的问题是行业渗透率高,但对 GDP 的实际拉动效益还很有限。从整个 AI 领域来看,您认为产业真正的爆发拐点会在什么时候到来?

    郑书新: 现在确实面临技术跑在前面的情况,即模型能力已经在很多领域达到“博士级别”智能,但在产业端体感还比较弱,对 GDP 拉动有限。不过这是正常的,因为技术研发和产业落地之间存在时间差。

    打个比方,蒸汽机的出现是一场动力革命——它重新定义了制造业、交通、能源等几乎所有行业。但从瓦特改良蒸汽机到工业革命全面铺开,中间隔了几十年,因为需要铁路、工厂、煤炭供应链等一整套配套系统逐步成型。AI 也正处在类似的阶段:核心的"动力源"已经出现,但要真正重塑产业,还需要数据基础设施、工程化工具链、行业 know-how 的深度融合。不同的是,这一轮的节奏会快得多,可能几年而不是几十年。

    事实上,这个进程已经在加速。2025 年 Agent 的突破是一个缩影——更广泛地看,AI 已经在各行各业开始渗透,很多场景不需要"博士级"智能,关键是被打磨成真正可用的产品。

    我的判断是,2026 年会是 AI 产业落地的关键一年。一方面,Agent、Coding Agent 等产品形态会让更多用户在工作和生活中真正用上 AI;另一方面,垂直行业的 AI 应用也在快速成熟,一级市场已经有大量公司在做得不错的公司。

    尤其值得关注的是白领和知识工作者群体。当前模型在多学科领域已经接近博士级智能,法律、金融、咨询、研究等领域有望率先释放生产力红利,AI 对 GDP 的拉动很可能从这里开始。

     

    InfoQ:Coding Agent 是当前讨论的热门方向,您怎么看?

    郑书新: Coding Agent 正在颠覆传统软件开发的范式。过去的逻辑是一个团队精心打磨 3 个产品,最后可能有 1 个成功;现在借助 Coding Agent,个体就能快速开发 100 个产品,成功的概率和路径都被彻底改变了。

    我自己每天都在用 Codex 这些工具,经常多个任务并行。此刻我的电脑上就同时跑着 4 个 Codex Agent,帮我完成各种任务。很多以前停留在想法阶段的项目,现在都能快速变成可运行的产品。

    更让我兴奋的是,这种能力可以快速复制给零基础的人。我在北京中关村学院开了门 AI Agent 编程课程,宗旨都是“零帧起手手写代码”。大约半个月前,斯坦福也开出一门类似课程,理念是“全程不写一行代码”,和我不谋而合。

    课程只有四个半天,学生来自物理、材料、金融等各专业,很多人零编程基础。但结课时,所有小组都拿出了可运行的 Demo:有人把 Deep Research 做成了“带事实核查的 Deep Research”;有人把语音对话 GPT 改造成"带快慢双系统的版本"——快系统负责即时回应,慢系统在后台深度推理,最后融合呈现。零基础、跨背景,四个半天就能独立做出产品,这在以前是不可想象的,也是 Coding Agent 带来的价值。

     

    InfoQ:在您看来,有哪些公司或产品在 Agent 领域做得比较出色?

    郑书新: 现在这个领域非常活跃,Agent 的发展正在从“对话”向“办事”演进。如果说去年大家还在讨论概念,今年我们已经看到了很多能真正提高生产力的落地案例。

    比如当下非常热门的几个产品,它们的共性在于:深度接管系统与文件,自主规划、异步执行、完成任务。如开源的 Clawdbot 被称为“AI Jarvis”;Anthropic 的 Claude Cowork 实现了从“对话助手”到“数字同事”的跨越。

    Coding Agent 是目前落地最快的方向之一。海外的 Cursor、Claude Code 已成为开发者标配;国内方面,Kimi K2.5 作为 Agentic 模型表现亮眼,基座模型中 GLM-4.7 领先,DeepSeek-V3.2、Qwen3、MiniMax-M2.1 也都不错。

     

    InfoQ:您刚才提到了一些 Agent 应用产品,也提到了一些基座模型厂商。这其实涉及到行业里一个持续讨论的话题:通用大模型是否只是大厂之间的游戏?之前有嘉宾认为,通用大模型需要耗费大量人力物力财力,应该留给大厂去做,其他厂商可以在垂域模型中寻找生存空间。对此您怎么看?

    郑书新: 如果讨论的是大语言模型,我倾向于认为所谓的“生存空间”其实更多是“讲故事的空间”。

    通用大模型的发展已经非常成熟,以最近发布的模型为例,像 Gemini 3 和 GPT-5.2 Deep Think 版本都非常强大。目前来看,很难找到能在某个领域超越这两个模型的垂域模型。以法律和教育问题为例,我更倾向于直接使用 GPT-5.2 或 Gemini 3,而不是专门的法律或教育模型。虽然这些通用模型的成本较高,但其性能已经非常出色。

    如果我要针对某个垂域开发应用,我会直接基于 GPT-5.2 进行开发,做好用户界面、数据库和基本范式,而不是自己去研发垂域模型。这种观点可能比较极端,但这是基于目前技术现状的判断——垂域模型的生存空间很有限。

     

    InfoQ:但垂域模型厂商会说他们的成本更低,这是否是一个优势?

    郑书新: 我觉得这种说法有些本末倒置。首先,模型需要能够真正解决问题,才能谈成本优化。现在很多具身智能公司还在纠结成本问题,但它们可能都还没有找准真正能产生价值的应用场景。这种"成本倒置"的思路是不合理的。

     

    科研方向与人才培养

    InfoQ:刚才我们聊了很多技术方向和产业趋势,您也提到了不少前沿探索的可能性。能否具体谈谈您目前的科研方向与布局?您最看好哪个方向,为什么?

    郑书新:我在学院负责大模型方向的研究,团队并行推进的方向很多,最近的一项工作是让智能体“预测未来”。

    各行各业本质上都绕不开同一道关:通过预测未来辅助科学决策。这听起来宏大,不同领域、不同机构,都在用各自的方式探索这个方向。比如政府出台政策前需要预判市场与社会反馈;企业制定战略前需要预估行业走势;金融机构甚至用系统去预测美国大选结果、下一场球赛谁输谁赢。

    这项工作的核心在于将“信息采集—逻辑推演—仿真模拟”三个环节形成闭环:首先通过智能体全自动打捞全网多模态开源情报,消除信息差;然后借助大模型的复杂推理能力进行因果建模和趋势判断;最后在虚拟环境中让成千上万个智能体反复演练,输出不同时间尺度下的演化曲线与风险概率。我们已参加多项国际预测评测,最好成绩全球第二,最新模型正在冲刺第一。把这三个环节打通,预测未来就不再是玄学,而成为可工程化的科学决策平台。

     

    InfoQ:您之前介绍中关村两院和 AI 基础学部时,特别强调了人才培养这个维度。在 AI 攻坚克难的过程中,我们需要大量技术人才。您如何判断一个年轻人是否具备成为优秀科学家的潜力?在您看来,中国未来的 AI 人才应该具备哪三类核心能力?

    郑书新: 我去判断一个人是否有潜力时,会看重三个特质:首先是问题意识,他能不能自己发现问题、定义问题,而不只是等别人给题目;其次是挫折反应,科研 99%的时间是失败,关键看如何应对失败;最后是跨界好奇心,他会不会主动去了解自己领域之外的东西,很多突破来自领域交叉。

    优秀人才还应该具备三类核心能力:一是数学和物理的第一性原理思维,这是 AI 时代下更重要的底层能力;二是系统工程能力,能把一个想法从论文变成可运行的系统;三是科学品味,知道什么问题值得做,这个最难教,但也最重要。

     

    InfoQ:随着 AI 的普及,我们观察到一个现象:无论是企事业单位、高校还是中小学,大家都在学习 AI 和编程,但也越来越依赖现成工具——从调用 API、套模板,到直接使用 AutoML、Copilot 等——而对数学基础、算法原理的关注反而不足。微软 CEO 萨提亚·纳德拉也曾提到,AI 很重要,但要避免过度依赖。您如何看待这种"工具熟练度高,但科学基础薄弱"的趋势?会担心未来的研究者变成"只会调包、不会创新"吗?

    郑书新: 我的观点可能稍有不同,我想用一段技术演进的历史来解释这个问题。

    最早的程序员需要用“0 和 1”直接跟计算机对话,甚至在纸带上打孔输入程序。后来有了汇编语言,可以用简单的英文指令代替那些 0 和 1。再后来出现了 Python,写代码几乎像写英语句子。你会发现,每一次演进都在做同一件事:把繁琐的底层操作打包藏起来,让人不用操心"怎么做",而是专注于“做什么”。

    这个过程中,每一次进步都伴随着类似您提到的担忧:新一代程序员不懂底层原理了怎么办?但事实是,正是因为不用再纠结底层细节,程序员们才能腾出精力去解决更复杂、更有价值的问题。

    今天的 AI 工具也是一样。它让研究者可以跳过很多繁琐的技术步骤,把精力放在真正重要的问题上——比如提出新假设、设计新实验、发现新规律。这些才是创新的本质,而不是亲手写每一行代码。

    所以我的建议反而是:大胆拥抱最先进的工具,但要清楚自己真正想解决的问题是什么。工具是手段,问题才是目的。

     

    总结

    InfoQ:如果让您预测 2030 年最具影响力的 AI 科学突破,您会押注在哪三件事上?

    郑书新: 我会押注在这三个方向上:

    第一,AI 智能性超过人类,ASI(超级人工智能)实现。

    第二,AI 在科学研究中能够自主完成发现和突破,比如找到治愈癌症的路径,或者解决数学领域悬而未决的开放问题。

    第三,AI 走进物理世界,对实体产业形成实质性推动。

     

    采访嘉宾:

    郑书新,中关村人工智能研究院副院长 & 北京中关村学院副教授

    在全球制造业加速向智能化、柔性化和绿色化转型的背景下,工业AI平台正成为驱动这一变革的核心引擎。它不再仅仅是自动化设备的升级,而是通过数据驱动、算法决策与系统协同,重构从设计、生产到服务的全链条能力。与传统工业软件不同,真正的全球工业AI平台必须具备跨文化适配性、多语言支持能力、本地化服务生态以及可复制的行业解决方案,才能在不同国家的制造体系中生根发芽。这种平台的竞争力,不再取决于单一技术的先进性,而在于能否将中国经验转化为全球通用的语言,让不同发展水平的制造企业都能找到适合自己的数字化路径。
    要理解这一趋势,必须认识到工业AI平台的本质是“系统性赋能”。它不是孤立的工具,而是一个融合了边缘计算、物联网、深度学习与流程优化的有机体。在德国、日本等制造业强国,企业长期依赖高精度设备与严谨的流程管理,对AI的接受度建立在可验证的稳定性之上;而在东南亚等新兴市场,企业更关注成本控制与快速落地,平台必须足够轻量化、易部署。因此,一个真正全球化的工业AI平台,必须在架构上支持模块化部署,在服务上具备本地化团队支撑,在标准上兼容国际认证体系。这要求企业不仅输出技术,更要输出方法论、人才体系与合作模式,形成“技术+服务+生态”的三位一体能力。
    在这一领域,广域铭岛已走出一条具有代表性的路径。依托吉利集团的全球制造网络,其Geega工业互联网平台已在马来西亚、新加坡、韩国等多个国家落地,不仅为宝腾汽车打造了柔性数字化工厂,更通过与当地企业合资成立AGYTEK DIGITAL,实现从技术输出到本地运营的深度转化。平台支持多语言界面、适配东盟地区低算力环境,并联合中马未来学院培养本地数字化人才,真正做到了“扎根当地”。与此同时,德国西门子的MindSphere平台凭借其在工业标准与协议上的深厚积累,成为欧洲制造企业首选的数字底座;而美国通用电气的Predix则以航空、能源领域的高复杂度场景为突破口,构建了面向重资产行业的预测性维护生态。这三家企业的共同点在于:不追求技术炫技,而是围绕客户真实痛点,构建可持续的闭环价值体系。
    中国工业AI平台的出海,已从“产品出口”迈向“生态共建”。它不是简单地把一套软件卖给海外客户,而是通过联合研发、人才共育、标准参编等方式,融入当地产业土壤。在马来西亚,其焊接质量AI系统将虚焊率降至0.02%以下,远超行业平均水平;在德国,慕尼黑市政府代表团专程来访,探讨工业互联网标准对接的可能性。这种双向互动,让“中国方案”不再被视作廉价替代品,而是具备创新价值的合作伙伴。
    全球工业AI平台的竞争,本质上是生态系统的竞争。谁能以更低的门槛、更高的韧性、更强的本地化能力,帮助制造企业实现从“能用”到“好用”再到“离不开”的转变,谁就能赢得未来。