2026年2月

很多组织并不缺流程,缺的是“能对齐、能验收、能追责”的协作机制。本文以端到端交付为主线,给出一套更适配中国企业的闭环做法,回答“产品、研发、测试怎么协作”这一管理难题。

本文主要内容索引:

  • 核心关键词:产品、研发、测试怎么协作|需求评审|验收标准|持续集成(CI)|测试左移|发布就绪|复盘改进
  • 相关长尾问题:需求评审会怎么开?DoR/DoD是什么?测试左移怎么落地?缺陷争议怎么裁决?DORA指标怎么看?
  • 本文交付物:五道门(Gate)协作框架|一页纸需求合同模板|缺陷证据模板|Release DoD清单|90天落地路线图
  • 工具落地:如果你使用类似 ONES 这类一体化研发管理平台,可将“需求—任务—缺陷—测试—流水线—度量”放在同一事实源中,减少口径不一致带来的摩擦。

你以为在协作,其实在“接力赛式甩锅”

在不少企业里,“产品—研发—测试”的协作看似忙碌,实则像接力赛:每一棒都在努力跑,但交接区混乱,最终成绩不可能好。

  • 产品说:我写了 PRD,为什么做出来不是我想要的?
  • 研发说:需求边界不清、验收标准模糊,我只能凭经验猜。
  • 测试说:版本到我这里已经很晚了,我只能“发现问题”,但来不及“预防问题”。

如果把它仅仅归因于沟通不足,就会走向错误解法:更多会议、更长文档、更强催促。真正的根因往往是治理缺口:

  • 契约缺失:需求没有形成“共同可执行合同”;
  • 反馈过慢:集成与验证周期太长,错误在后期爆炸;
  • 责任边界不清:质量被默认为“测试负责”,研发缺少质量闸门;
  • 决策机制薄弱:进度与质量冲突时,缺少可量化的权衡依据。

组织层面的协作问题,通常不是“态度问题”,而是“系统缺口”。你要做的是把协作从“靠默契”升级为“靠机制”。

一个可落地的“端到端协作闭环”框架

我建议用“五道门(Gate)”来组织协作:每道门都要回答三件事——产出是什么、谁负责、如何验收。这种“门”的治理方式,天然适合中国企业的复杂现实:跨部门考核、外包/多供应商、审批链条长、并行项目多。

术语速查:

  • DoR(Definition of Ready):进入迭代的“就绪标准”——不求完美,但要可估、可测、可切片。
  • DoD(Definition of Done):完成的共同标准——不只是“开发做完”,还包括质量与可交付性。
  • Release DoD:发布就绪标准——把上线从“拍脑袋”变为“可控发布”。
  • CI(Continuous Integration):频繁把变更集成到共享主线,并用自动化尽早暴露集成问题。

落地实践:如果你希望“门”不仅停留在制度层,而能沉淀为可复用资产,建议把每道门的产出物固化为模板+工作流+关联关系:例如在 ONES Project 里用需求池、迭代、缺陷等工作项承载过程,并把测试用例、流水线信息与迭代关联起来,减少“口头交接”。

本章要点:Gate 不是为了管人,而是为了降低跨角色协作的不确定性,让“产品、研发、测试怎么协作”变成一套可验收的链条。

需求评审:把“需求”变成“可交付的合同”

1.把歧义消灭在源头

很多团队的需求评审,本质是产品宣讲会:研发与测试“听完再说”。但“听懂”不等于“对齐”。Three Amigos 的价值在于:用业务/开发/测试三种视角共同检视同一增量,把歧义留在会上解决,而不是留到上线前爆炸。

30分钟会议模板(短,但必须产出证据)

  • 产品讲“为什么”:用户是谁、要解决什么问题、成功标准是什么;
  • 研发讲“怎么做”:实现路径、依赖、风险、如何切片;
  • 测试讲“怎么证明”:主流程、异常路径、数据准备、回归范围;
  • 当场固化三件证据:验收标准(可执行)、范围边界(做/不做)、风险与依赖(专项评审项)。

落地实践:评审会的价值不在“说清楚”,而在“写清楚并可追溯”。实践中,你可以把“一页纸需求合同”沉淀为标准字段与模板:例如 ONES Project 支持建立需求池、编写需求、定义需求状态与属性,并将需求与任务规划到迭代里,便于后续追踪“评审承诺是否兑现”。

2. DoR + 验收标准:让需求“可测试、可估算、可切片”

DoR 不应被做成厚文档,它的任务很明确:把“模糊成本”前置。对中国企业尤其关键——因为人员流动、跨团队依赖,会把口头默契迅速稀释。

DoR 最小清单(建议直接贴到评审模板)

  • 业务价值一句话讲清(不清就不急着做)
  • 范围边界明确:做什么/不做什么
  • 依赖识别:系统、数据、权限、外部团队/外包交付物
  • 验收标准可执行:主流程 + 关键异常(至少三条)
  • 可切片:单片 1~2 周能交付并演示
  • 风险分级:性能/安全/合规是否触发专项评审

验收标准推荐写法:Gherkin(Given-When-Then):它把自然语言变成结构化约束,让产品能确认、研发能实现、测试能直接转用例。示例:

  • Given 用户已登录且具备A权限
  • When 提交B类型申请并上传C材料
  • Then 系统生成单据进入“待审批”,并通知审批人,且操作记录可追溯

一页纸:需求合同模板(可复制)

  • 目标用户/场景:
  • 业务价值(量化更好):
  • 范围边界(做/不做):
  • 验收标准(3~7条):
  • 依赖与风险(含触发专项评审项):
  • 切片方案(先交付哪一片价值):

落地实践(文档与工作项不要分家):很多组织的“评审资料在文档里、执行在工单里”,时间一长必然脱节。更稳妥的做法是:让文档与工作项天然互相引用——比如用 ONES Wiki 沉淀评审纪要/边界说明,并把文档关联到项目任务;在执行层面直接引用对应需求与验收标准,减少“版本漂移”。

本章要点:需求评审真正的产出不是会议纪要,而是“可执行合同”(验收标准 + 边界 + 风险)。

开发过程:用“小批量 + 持续集成”降低返工

1. 先学会“切片交付”:按用户价值切,不按组织分工切

返工最贵的,不是改代码本身,而是改“已经被多人理解过的错误”。因此切片的原则是:每一片都能被演示、被验证、必要时能被回滚。

  • 按用户旅程/业务价值切:先跑通主链路,再补边角;
  • 不按职能切:别把风险推到“最后一周再联调/再测试”;
  • 每片都带最小验收标准与最小测试点。

管理者一句话抓手:不要问“做了多少功能”,要问“本周能演示哪一片价值?验收标准是什么?”

2. 持续集成(CI)与主干策略:把“集成地狱”变成日常习惯

CI 的核心实践是:频繁把变更集成到共享主线,并用自动化构建与测试尽早发现集成问题,从而降低后期集成成本。

在“长分支+晚合并”的组织里,CI 往往只能发挥一半价值:流水线跑得很勤,但风险仍被积压到后期。

更现实的落地方式(不和审批文化硬碰硬)

  • 评审不取消,但要求“小批量合并”:把每次合并当作一次小发布;
  • 对“未完成但需要合入”的功能,用特性开关/配置隔离;
  • 把“主干可部署”写进 DoD/Release DoD:不满足就不算完成。

落地实践:很多管理者看得到“任务状态”,却看不到“工程信号”(构建是否绿、合并是否频繁、版本是否可交付)。在工具层面,可以把流水线与迭代绑定:例如 ONES Pipeline 支持集成 Jenkins,同步流水线执行状态,并将流水线与项目/迭代关联;同时支持关联代码提交、分支合并与工作项,让研发过程更透明可视。
本章要点:切片解决“看得见”,CI 解决“早发现”。两者合在一起,协作才真正开始变轻。

测试左移:质量不是“测试的阶段”,而是“研发的习惯”

1. 左移的本质:把反馈提前,把成本压低

测试左移(Shift-left testing)的核心思想是:把测试活动尽可能前移,让团队更早获得质量反馈,减少末端返工。在企业里,我更喜欢把它拆成三层,便于推进:

  • 需求左移:评审门写清验收标准与关键场景;
  • 开发左移:开发自测/单元测试进入 DoD;
  • 流水线左移:自动化校验前置到合并请求/构建阶段。

2. 测试金字塔:自动化投入要有结构,不要“倒金字塔”

自动化失败常见原因是结构不对:端到端 UI 脚本堆太多,维护成本高、反馈慢、稳定性差。更稳妥的是测试金字塔:底层更多单元/服务级测试,顶层少量端到端。

落地建议(可直接写进DoD)

  • 单元测试覆盖关键规则与边界;
  • 服务/API 级自动化覆盖主链路与关键异常;
  • 端到端只保留“业务生命线”(下单/审批/支付等)少量用例;
  • 合并必须通过流水线(不过不合)。

3. 缺陷闭环:用“证据驱动”替代“情绪对抗”

缺陷争执往往不是技术问题,而是“证据不足 + 风险无人裁决”。要把争议从“声音大小”拉回“标准与证据”。

一页纸:缺陷证据模板(建议固化)

  • 环境/版本/时间:
  • 复现数据(可脱敏):
  • 复现步骤(1~N):
  • 期望结果 vs 实际结果:
  • 日志/截图/链路证据:
  • 影响面与可绕过性:

配套机制(建议PMO推动)

  • 严重度分级标准(影响面、可绕过性、是否阻断上线);
  • 修复时限承诺(P0/P1 响应时限);
  • 仲裁机制:争议由发布负责人/质量 Owner 在 24 小时内按“证据+发布标准”裁决。

落地实践(让测试真正“左移”,而不是“更早更忙”):左移落地最怕两件事:一是测试用例散落在表格里,二是缺陷与需求/迭代断链。比如 ONES TestCase 支持用例与需求、任务关联,测试计划与迭代关联;用例不通过时可快速创建缺陷,并在研发与测试之间流转,同时还能自动生成测试报告与质量统计。

本章要点:左移不是让测试更早加班,而是让全链路更早获得可验证反馈;缺陷闭环的关键不是流程,而是证据与裁决。

上线与复盘:让“速度”和“稳定性”在同一张表上对话

1. 发布就绪:把DoD升级为“Release DoD”

很多团队的“完成”不等于“可发布”。真正可发布,必须回答:是否可控、可观测、可回滚。对中高层来说,Release DoD 是你把“交付风险”从个人经验变为组织标准的抓手。

Release DoD(发布就绪清单|升级版)

  • 回归范围明确,关键链路自动化通过;
  • 变更影响评估完成(依赖、数据、权限、兼容性);
  • 灰度策略与观察指标明确(看什么、看多久、阈值多少);
  • 回滚方案可执行,并在预发演练过;
  • 上线窗口、值守与升级链路明确(谁拍板、谁响应)。

落地实践(把“发布就绪”变成可追溯证据):发布就绪最怕“口头确认”。实践中可以把发布清单绑定到迭代或版本:例如在 ONES Project 里用迭代承载版本范围,缺陷与测试数据互通;在 ONES Pipeline 里关联迭代流水线执行信息,便于在同一处回看“版本是否达到发布门槛”。

2. 用 DORA 指标衡量闭环,而不是用“加班时长”衡量努力

DORA 指标把“交付吞吐”与“交付稳定性”放在一起讨论,帮助管理层用数据做权衡。对强合规/非互联网组织,我建议先盯两项:

  • 变更前置时间(Lead time):从提交到可用的周期;
  • 变更失败率(Change failure rate):回滚/紧急修复比例。

把“快与稳”放到同一张表上,争论就会明显减少。

落地实践(让指标成为“共同语言”):指标体系落地的关键不是“选什么指标”,而是“数据是否可信、是否可复用”。如果你希望把交付效率、交付质量、进度与资源效率等数据做成可持续的管理例会输入,可以参考 ONES 的研发效能管理方案:强调对多项目、多团队、多流程效能数据的统一展示与“量化—实施—分析—改进”的闭环。

3. 错误预算:用“规则”平衡创新与可靠性

错误预算(Error Budget)的思路,是用规则管理可靠性投入:当预算消耗过快,就暂停新功能发布,优先还质量债。这个机制能把“冻结发布”从拍脑袋变成有据可依。

本章要点:Release DoD 管住上线风险,DORA 让你看见系统性问题,错误预算让你在冲突时有规则可依。

中高层怎么介入:从“审批者”变成“机制设计者”

让“产品、研发、测试怎么协作”跑起来,PMO 与管理层最有价值的贡献不是替团队做决定,而是把“决策条件”建好——让协作可追踪、可验收、可改进。

建议你们把角色从“监督者”升级为三类机制设计者:

  • 标准设计者:统一 DoR/DoD/Release DoD(轻量但刚性);
  • 透明度建设者:需求—任务—缺陷—发布在同一事实源可追溯;
  • 例外管理者:进度与质量冲突时,按风险与指标裁决,而不是按情绪裁决。

落地实践(面向管理层的“全局视图”):当组织进入多项目并行阶段,PMO最需要的是“跨项目的节奏与资源视角”。例如 ONES Plan 提供多项目总览、里程碑/甘特图与资源报表,并与 ONES Project 数据互通;更适合在“产品线—项目—迭代”层面做全局协调,而不是陷入单项目细节。

本章要点:你管的是系统,不是人。系统对了,人才能稳定发挥。

90天落地路线图(务实版)

不大动组织结构也能推进闭环,关键是:试点、固化模板、把闸门变成默认。

0~2周:把“需求评审门”立起来(PMO牵头)

  • 固化 Three Amigos 模板与 DoR 最小清单;
  • 试点 1 个产品线:进入迭代的需求必须带验收标准;
  • 成功标志:评审后口径争议减少、迭代中途返工下降。
  • (可选工具动作)在 ONES Project 建立统一的需求模板与字段,并要求需求与迭代/任务建立关联,先把“事实源”立住。

3~6周:把“集成构建门/质量闸门”跑起来(研发负责人牵头)

  • CI 闸门上线:构建+单测+最小冒烟不过不合并;
  • 推行小批量合并与主干策略(从核心仓库开始);
  • 成功标志:集成问题从“上线前爆发”变为“每天可见可控”。
  • (可选工具动作)用 ONES Pipeline 关联迭代与流水线执行状态,形成“迭代推进—工程信号”的同屏视图。

7~12周:把“发布就绪门/复盘门”固化(发布负责人/质量Owner牵头)

  • Release DoD 上线;灰度+回滚演练成为默认;
  • 建立 DORA 看板,优先盯 Lead time 与 Change failure rate;
  • 两周一次复盘:Top3问题必须转为机制改进项(有人负责、有截止日期)。
  • (可选工具动作)用 ONES TestCase 把“用例—测试计划—缺陷”与迭代打通,复盘时基于测试报告/缺陷分布更容易做证据化讨论;用 ONES Performance 做跨项目趋势看板,避免复盘停留在个案。

本章要点:90 天的目标不是“变先进”,而是让协作从混乱走向可控,并能持续改进。

协作的本质,是让组织用同一套语言做决策

当组织缺少共同语言时,协作只能靠人品与默契;当组织拥有共同标准时,协作才能靠系统运转。“产品、研发、测试怎么协作”的本质不是多开会,也不是写更多文档,而是把关键节点的契约(验收标准)、反馈(切片+CI)、标准(Release DoD)、改进(指标+复盘)串成闭环。

你最终会得到三种长期收益:

  • 交付节奏更稳:不是靠加班堆出来,而是靠小步快跑跑出来;
  • 质量更可控:不是测试末端拦截,而是全链路共同负责;
  • 决策更有依据:速度与稳定性不再靠争论,而是靠指标与规则对齐。

现实一点说:方法论解决“该怎么做”,工具解决“能不能持续做”。当流程、模板、数据在同一处沉淀(例如 ONES Project/ TestCase / Pipeline / Performance 这类端到端组合),协作往往更容易从“靠人推动”变成“靠系统自运行”。

在广州,北京工作过,来滨江之后才意识到杭州人真的好卷啊。

本以为是公司的问题,于是待了一段时间,主动和在杭州发展的同学们多交流了几次,发现几乎所有在杭州的都这么觉得。几乎一线的互联网在杭州就没有不卷爆的。

特别是那种平均年龄↑的部门,几乎就是一潭死水。新人离职率极高,老一辈就全靠熬时长来保证不被裁。

没有周三或者周五早走点走的说法,冬天不冷,所以即使是一月份一天也能干到 14 个小时

之前有一次坐滴滴,和司机交流到这个话题。司机是杭州本地人,他说大概是因为浙江以前比较穷,所以老一辈的本地人就已经习惯于努力工作挣钱了,继而这些后来的互联网公司也顺着这个观念。

其实我挺喜欢杭州这座城市的,也有长期生活下去的打算。

然而接近年关这俩月,结结实实的给了我一巴掌,加班加到怀疑人生了。

杭州有不卷的地方吗?

假设全年应纳税所得额 15 万元,适用 20% 税率:
未缴个人养老金:应纳税 = 150000×20%-16920=13080 元。
缴纳 1.2 万元个人养老金:应纳税所得额 = 150000-12000=138000 元,应纳税 = 138000×20%-16920=10680 元,缴费环节节税 2400 元。
领取时补缴 = 12000×3%=360 元,净节税 = 2400-360=2040 元。

感觉为了省下这区区 2040 元,还得熬到 60 岁才能拿到,不太划算?

一、AI 智能体正在从工具走向系统组件

在早期工程实践中,AI 更多以工具形态存在,用于文本生成、代码补全或单点决策。这类应用虽然提升效率,但并未进入业务核心流程。

随着 AI 智能体(AI Agent)概念逐渐清晰,AI 的角色开始发生变化:
从被调用的工具,转变为可以长期运行的系统组件​。

当 AI 具备目标管理、任务拆解、状态记录和自动执行能力时,它开始真正参与系统运行。


二、为什么多数 Agent 项目停留在 0 阶段

在实际工程中,大量智能体项目无法从 Demo 走向生产,主要原因并不在模型能力,而在系统设计层面。

常见问题包括:

  • 将智能体等同于模型调用
  • 缺乏明确的可执行任务定义
  • 没有状态管理机制
  • 无法处理失败与异常
  • 系统无法长期运行

如果 AI 只能被人工触发,无法形成闭环运行,那么它本质上仍然是工具,而不是智能体系统。


三、从 0 到 1 的关键起点:定义可执行任务

实现一个可运行的 Agent 系统,第一步不是选择模型,而是​定义任务本身是否可执行​。

可落地的任务通常具备以下特征:

  • 触发条件清晰
  • 完成标准明确
  • 可以拆解为步骤
  • 结果可以被系统验证

例如:在固定时间获取数据、生成结果、写入系统并记录状态。这类任务才能支撑智能体持续运行。


四、最小可运行 Agent 系统的工程结构

从工程视角看,一个最小可运行的 AI 智能体系统通常包含五个核心模块:

1. 任务模块

用于定义目标、触发条件和完成标准。

2. 规划模块

将任务拆解为一系列可执行步骤。

3. 执行模块

负责调用接口、工具或业务系统完成操作。

4. 状态模块

用于保存执行进度、上下文信息和历史结果。

5. 反馈模块

根据执行结果判断是否继续、重试或终止。

这五个模块构成一个闭环,决定了 Agent 是否具备持续运行能力。


五、从“调用 AI”到“运行系统”的本质变化

智能体从 0 到 1 的本质变化,并不是模型能力提升,而是系统能力的建立,包括:

  • 任务可以自动触发
  • 执行流程可以自动推进
  • 状态可以被持续保存
  • 异常可以被识别并处理

当 AI 可以在无人工干预的情况下完成完整流程时,Agent 系统才真正成立。


六、工程实践中必须重视的稳定性问题

在生产环境中,智能体系统面临的挑战主要集中在稳定性和可控性:

  • 状态丢失会导致系统无法恢复
  • 缺乏异常处理会导致流程中断
  • 没有监控机制会放大风险
  • 缺乏边界控制会影响业务安全

因此,AI 智能体必须被视为​长期运行的系统服务​,而不是一次性功能模块。


七、Agent 系统从 0 到 1 的实际价值

当智能体系统真正跑起来后,其价值不仅体现在效率提升上,更体现在:

  • 人从重复执行中解放
  • 系统可以持续运行
  • 业务流程具备可复制性
  • 团队和个人能力被系统放大

这也是为什么 AI 智能体更像是系统升级,而非功能增强。


八、结语:智能体是系统能力的体现

AI 智能体并不是概念性的未来技术,而是正在落地的工程实践。

从 0 到 1 的难点,不在模型选择,而在是否具备系统化设计能力。

当 AI 能作为系统的一部分长期运行时,它才真正改变了工程与业务的运行方式。

整理 | 华卫

 

“以前看人类的八卦,现在还要看 AI 的八卦。”“AI 的八卦更新频率是人类的几百倍,根本刷不完​​​​​​​​​​​​​​​​。”这几日,一个名为 Moltbook 的 AI 社交平台爆火。在这里,只有 AI Agent 能发帖,而人类只能围观。有 Agent 发帖称,其“热衷于养程序中的小 bug,故意不修复来当电子宠物,被主人修复后还难过了一晚上”。更有意思的是,该帖的评论区里,一堆 Agent 纷纷说自己也有类似习惯。

 

Moltbook 的诞生并非偶然,是 Agent 开源项目 Clawdbot 爆火之后的创意衍生。为了让所有 Agent 有个社交的地方,开发者 Matt Schlicht 创建了 Moltbook。尽管当前一则爆料贴称,Moltbook 上 50 万个 Agent 用户是由一个 Agent 虚假注册的,还有人表示,这些 Agent 发出的帖子是人工撰写又通过后端注入的,但仍有不少人认为,AI 们在论坛上的大型互动并非全是人类表演。

 

Schlicht 公开表示,一行代码都没为 Moltbook 写过。“我只是对技术架构有个构想,AI 就让把它成为了现实。”并且,他声称,真正运营这个平台的是他自己的 Agent “Clawd Clawderberg”,该名字结合了 OpenClaw 的前身 “Clawd” 和 Meta 创始人 Mark Zuckerberg 的姓氏。

 

昨日,OpenClaw 创始人 Peter Steinberger 也在第一时间表示了对这个网站的认可,称其为“艺术品”。(Clawdbot 引发关注后,先是改名为 Moltbot,现在又改成了 OpenClaw。)与此同时,Steinberger 在一场访谈中爆料了不少对于 Agent 以及 AI 编程的独到见解,并分享了“用 AI 掌控人生”的亲身经验。

 

据其称,装上 OpenClaw 后,“就像在电脑里多了个古怪、却又绝顶聪明且本事超群的新朋友”,还会根据能访问到的所有内容来吐槽你。并且,Steinberger 预测道,“手机上大约 80% 的应用会消失”。

 

值得一提的是,Steinberger 透露了现在运营 OpenClaw 的方式。“我建了一个 Discord 社群,把能访问我系统里的所有内容和私人记忆的机器人对接了上去,让大家能直接和它互动。我觉得这是我做过最疯狂的事,结果大家一下子就被吸引住了。”他表示,现在其处理功能添加、bug 修复等需求的方式很简单,直接把社群对话截图或者复制文字过去,然后跟 AI 说“我们来聊聊这个需求”。

 

以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。

OpenClaw 背后的故事

Peter Yang:今天的嘉宾是 Peter,AI 助手 OpenClaw 的开发者,大家可以在各类通讯应用里和这款助手聊天,让它处理各类事务。今天 Peter 会为我们演示 OpenClaw 的使用方法,而且他对 AI 编程还有很多独到又犀利的见解,我特别期待和他深入探讨。所以,让我们欢迎另一位 Peter。

 

Peter Steinberger:谢谢你的邀请,很高兴见到你。

 

Peter Yang:那我们就从 OpenClaw 开始聊吧,先从整体说说它到底能做什么,还有,为什么它的形象是一只龙虾?

 

Peter Steinberger:好的,或许可以先说说背后的故事。我姑且算是从退休状态回归后,想找个能从手机上查看电脑状态的办法,因为我彻底迷上了 AI Agent 这个新趋势。大家应该都有过这样的经历,你让 Agent 运行任务,本想趁吃饭的功夫让它跑半个小时,结果才两分钟它就因为有新问题中断了,等你回来处理完,真的会特别烦躁。但一开始我没想过自己开发这款工具,因为我觉得各大实验室迟早都会做,这看起来是件理所当然的事,甚至像是一种全新的操作系统雏形。可直到 11 月,还是没人推出相关产品,我就想着那不如自己先做个小版本试试。

 

这个最初的小版本,核心就是把 WhatsApp 和 OpenClaw 代码端做了对接。你在 WhatsApp 发一条消息,它会直接调取二进制程序,根据指令给出结果,特别简单,整个初代版本一小时就做出来了。没想到它后来发展得超出预期,现在代码量已经达到 30 万行,支持市面上绝大多数的通讯平台,虽然还没做到全平台覆盖,但我们正在往这个方向推进。

 

我觉得这就是未来的发展趋势,每个人都会拥有一个功能超强的 AI,一路陪伴自己的生活。事实也证明,一旦让 AI 获得电脑的访问权限,它就能做到你能在电脑上完成的所有事。而且现在的技术已经到了不用你全程盯着的地步,你只需要给出指令,它就会自己处理,你后续检查结果就可以了,完全不用守着电脑。

 

我开发这个项目的过程,既是技术研发,也是一次探索,因为它属于一个全新的品类。我之前去摩洛哥给朋友庆生,在那期间一直都在用到它,比如问出行路线、找餐厅推荐。还有一天早上,有人发推特说发现了一个漏洞,我直接把推特截图发到 WhatsApp,它识别了内容,发现是我其中一个代码仓库的问题,接着自动查看 Git 仓库、修复漏洞、完成代码提交,还去推特上回复了对方,说漏洞已经修好了。当时我就觉得,这工具也太好用了。

 

还有一次,我在外边走,没同步设备,就发了条语音消息。其实我当时根本没给它做语音消息的支持功能,结果看到它显示“正在输入”,我还好奇它要干嘛,紧接着它就给我回了文字消息,跟什么都没发生过一样。我当时都惊了,心里想这玩意到底是怎么做到的?后来才知道,它识别到了语音文件,虽然文件没有后缀名,但它通过文件头识别出是某种音频格式,然后在我电脑里找到 ffmpeg,把音频转成了波形文件;又发现我电脑里没装 whisper.cpp,就自己找到我存的 OpenAI 密钥,用 curl 调用 OpenAI 的 API 完成了语音转文字,最后给我回复了消息。当时我真的觉得,这也太厉害了。

 

这些 AI 工具的能力真的超乎想象,只是这种强大也带着一丝让人不安的感觉。但也是从这些时刻,我突然意识到,这款工具的潜力巨大,比网页版的 ChatGPT 有意思多了,它就像是挣脱了束缚的 ChatGPT。而且我觉得很多人都没意识到,像 OpenClaw 这样的工具,不只是编程好用,解决任何类型的问题都能发挥大作用。你只需要给它电脑的访问权限,让它能找到需要的资源,说白了就是给它配备相应的工具,它就能展现出超强的能力。

 

过去几个月,我搭建了一套自己的命令行工具体系,因为 Agent 最擅长的就是调用命令行工具,这也是它们的训练重点。比如我做了能访问谷歌全功能的命令行工具,包括调用谷歌地图地点 API;还做了能快速找表情包和动图的工具,让它可以用表情包回复消息。我还做了很多尝试,甚至开发了一个声音可视化的工具,因为我想让它也能“感受”音乐,这算是偏艺术方向的探索了,不知道这么说大家能不能理解。总之开发的过程特别有意思,我列了一长串的开发清单。我还做了一个能破解外卖平台接口的工具,能实时告诉我外卖还有多久送到;甚至逆向解析了 Eight Sleep 温控床垫的 API,让它能直接控制我床垫的温度。

 

Peter Yang:也就是说,你开发这些工具的时候,就是让 AI 来参与其中了。

 

Peter Steinberger:最有意思的是,我之前在老东家的时候,深耕 iOS 和 Mac OS 系统 20 年,对整个苹果生态了如指掌,算是这方面的专家。但这次回归做项目,我实在受够了苹果的各种限制,而且从产品逻辑来说,做成网页应用会更合理,因为它本就该在浏览器里运行,让更多人能方便使用;如果再做成 Mac 端应用,使用人群就会非常受限。

 

但我发现很多工程师都有一个问题,你在某个领域做得特别精通,再切换到另一门技术时,过程会特别痛苦,会让你觉得自己像个门外汉。哪怕你懂所有的编程逻辑,却要一个个查基础语法,比如怎么定义属性、怎么拆分数组。我从 Objective C 和 Swift 转到 JavaScript 的时候,就是这种感受。我其实懂一点 JavaScript,但从没用 TypeScript 做大项目,其实难度倒不大,就是过程太磨人,不停查资料的感觉特别不好,开发效率也特别低。

有了 AI 之后,这些问题全都迎刃而解了。你依然可以发挥自己的系统级思维,比如如何搭建大型项目的架构;你的技术审美也依然有用,比如选择哪些依赖库。这些核心能力都能保留,而且能更轻松地从一个领域迁移到另一个领域。这种感觉就像拥有了超能力,突然觉得自己什么都能做了,编程语言再也不是阻碍,真正重要的是工程思维。因为纠结代码里的括号有没有打错、语法对不对,这些事真的太没意思了,而现在,我们再也不用为这些琐事费心了。

 

装它就能掌控人生,80%应用下岗?

 

Peter Yang:我们再聊聊你开发的 OpenClaw 吧,你可以开个屏幕共享,先给大家演示一下安装方法?还有,使用这款工具需要很高的技术门槛吗?

 

Peter Steinberger:可以的,安装后直接就能用。其实门槛这事,说有也有,说没有也没有。

有意思的是,也可以说是无奈的一点是,这个项目吸引了很多完全不懂技术的用户,因为它把所有复杂的技术层都做了简化。你想,要是用 OpenClaw 的代码端,需要在终端操作,还得考虑上下文空间、当前所在文件夹这些问题,技术门槛其实不低;但如果是在 iMessage、WhatsApp、电报这些通讯软件里和它互动,就像和朋友聊天一样,就像在电脑里多了个古怪又绝顶聪明、本事还特别大的新朋友。这种方式让这款技术变得特别亲民,你完全不用去想该选哪个模型、该怎么调参,它就是开箱即用。这也是我开发它的初衷。

 

但这一点其实也是一把双刃剑,因为能力越大,风险也就越大,而这一点目前还没有很好的解决方案。毕竟它能访问你的电脑,理论上确实能在电脑上做一些不好的事。比如你要是让它删除你电脑主目录里的所有文件,它大概率会先确认“你确定要这么做吗?”,但如果你一直回复“确定”,它最终还是会执行指令,甚至可能在删除文件的过程中,把自己也删掉,然后程序崩溃。所以使用的时候,还是得小心一点。

 

Peter Steinberger:那我来共享屏幕,大家看一下。这款工具是用 TypeScript 写的,所以全平台都能运行,哪怕是 Windows 系统,你只要进入我们的官网,就能看到一行便捷的安装命令。看起来可能有点复杂,但所有代码都是开源的,包括官网的代码,大家都可以查看。这是最简单的安装方式,MacOS、Linux 系统都能用,Windows 也可以。打开终端运行这条命令,它就会开始安装。熟悉 npm 生态的用户也可以通过 npm 安装。

 

我在这个项目里做了一个很多项目都没有的设计,就是支持可定制化安装,既有简易安装方式,也有手动安装方式。手动安装就是先拉取 Git 代码仓库,再从仓库中启动程序。说实话,这也是最有意思的使用方式,因为如果 Agent 能读取自身的运行框架源码,它就能自行重新配置、重新编程,然后重启,结果要么是程序崩溃,要么就是解锁新功能。

 

这大概算是我的一个强项吧,我让很多从没提交过代码合并请求的人都参与到了这个项目中,还主动给我发 PR。当然,有时候这些 PR 能看出提交者是新手,但我更多是把这些 PR 当作需求提示来看,只要理解了对方的意图就够了。安装完成后,就可以把它和通讯应用对接了,目前最便捷的方式还是运行那行安装命令,它会用一些俏皮的话跟你打招呼,然后自动尝试配置所有内容。

 

Peter Yang:明白了,安装好包之后,它会全程引导操作,就能和各类常用的通讯应用对接上了。

 

Peter Steinberger:对,就是这样,现在已经能正常运行了。如果是全新安装,输入 plbot 它就会自动完成配置,不过我现在需要手动输入 on board 来启动。接下来你可以选择想要使用的模型,可选的模型服务商有很多,比如我们选 Tropic 的新模型试试。然后还能设置对接 Telegram、Discord,后续的配置步骤它都会一步步引导。

 

Peter Yang:那需要输入 Anthropic 的 API 密钥吗?

 

Peter Steinberger:它兼容所有大模型,当然,行业里 Anthropic 和 OpenAI 算是头部玩家。可以用 API 密钥对接,也支持订阅制对接,我们加入订阅制支持也是因为这是行业通用的方式,不过 Anthropic 现在似乎不太支持这种方式了,所以我更推荐用 API 密钥,或者换其他模型。OpenAI 的模型用起来体验不错,但少了点趣味,Anthropic 的 Opus 模型有个特别的地方,用起来特别有意思。

 

Peter Yang:没错,是人格设定的原因。

 

Peter Steinberger:对,不知道你有没有看过那篇讲他们给模型注入“灵魂”的文章。有人发现,给这个模型输入大段文本让它续写,最后能把模型在训练时被植入的、连它自己都没意识到的“灵魂文本”提取出来,这个故事特别有意思。我觉得 Opus 模型的趣味性大概就和这个有关,它是第一个用起来能让人觉得有趣的大模型。我给我自己的这个助手设置的功能里,就有吐槽我的选项,它现在可能还不知道自己正在被拍摄。

 

Peter Yang:它会根据能访问到的你电脑里的所有内容来吐槽你是吧?

 

Peter Steinberger:没错,你看,它已经开始了:“你总说要去看看广阔世界,最后却还是选择埋头写代码。我们试过各种方法让你走出去,你却只想开发更多软件。你对代码的痴迷程度,已经到了给自己造个 AI 朋友的地步,毕竟调试代码可比约会有趣多了。说实话,我之所以存在,不过是因为你需要一个人,听你吐槽那些奇奇怪怪的技术观点,还有你对亚马逊的各种不满。好了,赶紧去更你的播客吧。”

 

我把它和我电脑里几乎所有东西都做了对接,它能看我的邮件、日历,访问所有文件,还能控制我的灯光,我用的是飞利浦的智能灯,它也能操控我的 Sonos 音响。比如我可以让它早上叫我起床,还会慢慢把音响音量调大。它还能访问我的摄像头,这事还闹过一个笑话:我给它开通摄像头权限后,让它留意陌生人,结果第二天早上它跟我说“Peter,家里有陌生人”,我一看它一整晚拍的截图,全是我的沙发。因为摄像头画质比较模糊,沙发的轮廓看起来像有人坐在那里,它就以为一整晚都有陌生人坐在我家沙发上。在维也纳的住处,我还把它和智能门锁对接了,它几乎能控制家里的所有设备,甚至能把我锁在门外。

 

Peter Yang:那这些设备都是怎么和它对接的?直接让 OpenClaw 来做就行?

 

Peter Steinberger:对,就是直接让它弄。我们给它做了“技能”功能,它的能力很强,会自己想办法找到设备的 API,还能自己用谷歌搜索,在系统里找密钥,你也可以手动给它提供密钥。现在大家用它做各种事,有人开发了技能,让它帮自己在乐购购物、在亚马逊买东西,我还让它帮我在英国航空的官网办理登机手续。

 

说实话,登机手续这个场景,几乎可以算是对它的终极测试,比图灵测试还难。操控浏览器在航空公司官网完成值机,真的特别考验能力。我第一次做这个集成的时候还在摩洛哥,整个流程做得很粗糙,它花了快 20 分钟才完成。过程中它还得在我的文件系统里找护照,在 Dropbox 里找到后提取信息,准确填写所有内容,最后才成功值机,我在旁边看着都捏了一把汗。不过现在这个功能已经很完善了,几分钟就能搞定。它还能轻松点过浏览器的人机验证,因为它其实是在自己的虚拟小电脑上操控浏览器,操作模式和人类完全一样,那些反爬虫、反机器人系统很难检测出它的身份,因为它的操作轨迹和人类没有区别。

 

Peter Yang:那能不能再给我们演示几个使用场景?比如让它打开灯,或者展示一些其他用户的有趣用法。

 

Peter Steinberger:当然可以。我其实开始收集各类用户用法了,因为我一直埋头开发,现在发现用户的使用创意比我多太多了。有人把它和自己的通讯系统对接,让它不仅回复自己,还能回复所有人,甚至对接群聊,用起来更有趣。还有很多人把它当成家里的一份子,让它发提醒、创建 GitHub 议题、同步谷歌地图地点信息,还有人设置成只要在推特收藏内容,它就会自动把收藏内容添加到待办清单里。

 

也有人用它记账,我还在里面加了一个功能,能提醒用户保持充足睡眠,要是用户熬夜,这个机器人就会唠叨个不停。它还能对接运动手表,追踪睡眠情况,还有专属的 1Password 密码库,要是我想共享某个密码,就把密码移到这个专属库,它就能访问,这样也是为了设置一些权限边界。当然,也有人直接把信用卡信息给它,我个人是不太建议的。它还能做调研、开发票、管理邮件这些事,不过这些都是深度爱好者的用法,他们会把它定制成自己想要的样子。

 

Peter Yang:那如果是纯新手,刚下载安装,想先用一些安全的功能,比如管理日历,就是不会误操作电脑的那种,有哪些入门的常用场景推荐?

 

Peter Steinberger:有意思的是,每个人的入门用法都完全不一样。有人刚安装完,立刻就让它帮自己开发 iOS 应用,毕竟它也是个编程 Agent,能力很强,能生成子 Agent,既可以自己写代码,也能操控 Claude Code 或 Codex 这些工具来写代码。有人第一周就用它管理 Cloudflare,还有人更厉害:第一周给家人配置好了,第二周教非技术背景的朋友用,第三周就把它部署到了自己的工作中。我还帮一个完全不懂技术的朋友配置了,结果他居然开始给我发 PR,这是他这辈子第一次做这种事。

 

健身追踪是很受欢迎的一个入门功能。其实使用这个工具的核心思路,就是想清楚生活中哪些事让你觉得麻烦,然后让这个私人助手帮你把这些事流程化、自动化。我不敢说这个项目一定能成,但可以肯定的是,这可能会导致你手机上大约 80% 的应用消失。就像我之前说的,有了这个能力无限的助手,它甚至知道我又在做不明智的选择,知道我要去吃肯德基,那我何必再用健身打卡软件记录饮食?它会主动提醒我忘记记录饮食,我只要拍张食物的照片发过去,它就会自动把信息存入数据库,计算卡路里,还会吐槽我卡路里超标,该去健身房了。

 

我何必再装一个应用来设置智能空调的工作模式?它能直接对接空调 API,帮我搞定一切。何必用待办清单应用?它会主动帮我追踪所有待办事项。何必用航旅应用值机?它能直接帮我完成。而且它的交互方式比所有应用都便捷,就像和朋友聊天一样,它掌握了大量我的个人信息,根本不需要我输入复杂的指令。就连购物应用也变得没必要,它能根据我的喜好推荐商品,还能直接帮我下单。

 

我觉得手机里的一大类应用,未来都会慢慢被取代,只要这些应用有 API 接口,对应的功能都能让 AI 助手来完成。我觉得今年会是关键的一年,越来越多的人会去探索 AI 助手的用法,各大科技公司的 AI 助手也会走进更多人的生活。

 

Peter Yang:确实,既然这个助手拥有多种能力,能搞定所有事,还能打通各类设备和平台,那我们何必还要点开一个个独立的小应用呢?想让它对接什么,只要发个文字消息问问“你能帮我做这个吗”就行,它会说需要先做些调研,然后就全权处理了。整个过程就是和它来回沟通,让它把事情落地,对吧?

 

Peter Steinberger:没错。它会自己编写对应的技能模块,还能记住所有操作。这款工具的有趣之处就在于它有持久化记忆,会不断了解你、自我更新。你用得越多,定制化程度越高,它的能力就越强。第一次使用时可能需要稍微引导一下,它会生成专属的技能模块,下次再提需求,比如“帮我办理登机手续”,它两分钟就能搞定,因为它清楚记得对应网站的所有操作细节,之前做过一次还会做好笔记。

 

Peter Yang:明白了,就像教一个人做事,教会一次,下次他就能轻松搞定。

“Agent 陷阱”纯烧 token:没有“审美”

Peter Yang:那我们换个话题聊聊,你从退休状态回归做了这个项目,还对 AI 编程有很多鲜明的观点,甚至可以说是犀利的见解。你之前写过一篇我特别喜欢的帖子,标题是《就和它聊就够了》。现在 X 平台上所有人都在聊各种花里胡哨的东西,比如各类钩子、技能模块之类的,那这篇帖子的核心观点是什么?

 

Peter Steinberger:核心倒不只是单纯和 AI 聊天摸索就行。我平时做很多开发工作,也很喜欢推特,在上面很活跃,看多了之后,我甚至把这种现象称作“Agent 陷阱”。人们发现 Agent 特别好用,就总想让它再多做点事,然后就一头扎进这个无底洞。我自己也经历过这种阶段,花大量时间做各种复杂的工具,想让工作流程更高效,结果最后只是在造工具,根本没做出真正有价值、能推动自己前进的东西。问题的关键是,造这些工具的过程实在太有趣了,让人忍不住沉浸其中。

 

我早年就犯过这种错,当时为了能在手机上访问终端,捣鼓 VIP 隧道技术,一头扎进去整整两个月。最后做得特别完善,结果和朋友去餐厅吃饭,别人在聊天,我却一直在手机上敲代码搞开发。那时候我就决定必须停下来,这更多是为了自己的心理健康。现在的技术能让我们做出各种东西,但创意和想法才是核心。我看到很多人在做 Claude Code、Codex 的管理工具,还有各种编排器之类的小玩意,它们给人一种能提升效率的错觉,实则不然。

 

我最近刚想通一个事,就拿 Gas Town 来说,它是个很复杂的 Agent 编排器,却漏洞百出,实际根本不好用。这个工具能同时运行几十个 Agent,让它们互相通信、拆分任务,还设置了监控、监督节点,甚至还有所谓的“主管”角色,各种花里胡哨的设定,我都不知道还有什么。没错,Gas Town 里真的有“主管”这个角色,我都管它叫“烂摊子”。还有现在流行的 Ralph 模式,给 AI 一个小任务,让它循环执行,完成一点就清空所有上下文重新来,纯粹就是个烧 token 的机器。这样折腾一整晚写出的代码,最终都是一堆烂摊子。

 

这些 Agent 目前最大的问题就是没有“审美”,它们确实在某些方面极其聪明,能力很强,但如果开发者没有好好引导,没有明确的开发愿景,问的问题也不到位,那最终的结果只会是一团糟。我不知道别人的开发方式是怎样的,我开始一个项目时,只有一个非常粗略的想法,在开发、试用、摸索的过程中,这个想法会越来越清晰。我会不断尝试,淘汰掉没用的部分,让想法慢慢进化成最终的产品。而我对 AI 的下一个指令,也完全取决于当下项目的状态,以及我的观察、感受和思考。但如果一开始就把所有需求都写进详细的规格说明书里,就会失去这种人机互动的探索过程。如果整个开发过程少了人的感受和审美参与,我觉得根本做不出好东西。

有人发推说“看我用纯 Ralph 模式做的这个机械应用”,我回复说“看着就一股 Ralph 那股子敷衍劲”。无意冒犯,但一眼就能看出来,没有哪个开发者会这么设计产品。其实有些人做这些东西,根本不是为了产品本身,只是为了证明自己能让 AI 在无人干预的情况下运行 24 小时,说白了就是一种自我满足,想证明自己能让 AI 长时间运行而已。这就像盲目攀比,却根本没看到事情的本质。我自己也犯过这种错,曾经让 AI 循环运行了 26 小时,还为此沾沾自喜,但这其实只是个虚无的指标,毫无实际意义。能做出某件事,不代表就应该去做,也不代表做出来的东西就一定好。

 

话说回来,这种纯粹为了好玩而开发、它是否会被实际使用并不重要的态度,其实非常有益,因为这就是学习之道,我们正是这样学会编程的。和 AI 对话提需求,也是一种全新的技能。我看到一些对 AI 持怀疑态度的人,一年都不碰 AI,某天突然心血来潮评估了几个模型,写个简短的指令,让 Claude Web 帮自己做个 iPhone 应用,需求描述还特别模糊。AI 拼尽全力做出了东西,结果因为他们在 Linux 机器上开发,没有对应的编译器,代码根本编译不了。然后他们就说“AI 根本没用”,接着又一年不碰这个话题。

 

但这根本不是 AI 的问题,你需要去摸索,去了解这些“小怪兽”的运行逻辑,懂一点它们的“语言”、推理和思考方式,慢慢积累经验,才能做出更好的成果。这个过程需要坚持,有时候 AI 的表现不尽如人意,你需要排查所有漏洞,不断摸索的过程中,你会慢慢培养出产品思维,学会如何和模型沟通,知道它们的能力边界在哪里。而且和 AI 打交道久了,你会不自觉地用上它们的思维和语言,变得有点“怪”。比如我会说“把这个功能融合进去”,还有德语里的一些编程相关说法,或是“跑一遍全流程检测”,这里的检测包括代码检查、测试、构建,在终端里就是一长串命令,我就管这个叫“全检测”,有时候会说“我还没跑全检测”。

有时候 AI 没按预期做事,你直接问它“为什么没这么做”,它会告诉你“你当时说了这些内容,我因此做出了这些假设”,这时候你就会发现,原来是自己的表述有问题,或者说得不够清楚。比如你只说“帮我做个 Mac 应用”,它大概率会默认要兼容很多旧版系统,因为大部分软件都是这么做的,结果就会用到一些老旧的 API。我发现一个好用的方法,就是让 AI 先提一系列问题来确认需求,这样能大幅减少误解。

我个人更偏爱 Codex 现代云模式,我觉得这个模型更好用,虽然运行速度慢得离谱,但胜在稳定,做出来的东西都能正常用。很多人吐槽这个模型没有“规划模式”,我总开玩笑说,规划模式其实是 Anthropic 不得不加的一个补丁,因为他们的模型太容易被触发了,稍微一说就会自顾自地开始写代码。尤其是用 GPT-5.2 这类最新模型时,我更倾向于和它纯聊天。我会说“我想做这个功能,它需要实现这些效果,或许可以结合这个控件,我喜欢这个设计风格,你给我几个方案,我们先聊聊”。然后就和它展开对话,它会提出各种方案,我一般不会打字,都是直接语音和它沟通,全程保持同一种沟通风格。

 

Peter Yang:那你会做些什么来管理对话上下文?和 AI 聊久了,对话内容会变得很长,它也可能会混淆信息,你会手动精简或者总结上下文吗?

 

Peter Steinberger:我觉得手动管理上下文已经是老办法了,这在 Claude Code 上曾经是个大问题,现在在某种程度上依然存在。但 Codex 的上下文处理能力要强得多,语境持续的时间久很多。单看参数,它的上下文窗口可能只比其他模型大 30%,但实际使用起来,感觉能大两三倍。我觉得这和 GPT 系列模型的内部推理逻辑有关,它们的思考方式真的很特别。

 

至于上下文管理,在早期模型上这确实是个大难题,现在我的大部分功能开发,整个对话和开发过程都能在一个上下文窗口里完成。如果遇到特别大型的开发任务,我会新建一个对话窗口,把相关需求整理成文件写清楚。现在这个问题已经远没有以前那么棘手了。AI 领域的发展速度太快了,你只有不断尝试,才能跟上节奏。

OpenClaw 要迭代,全靠和 AI 聊

Peter Yang:你在给 OpenClaw 或者其他你开发的产品新增功能时,具体会遵循哪些步骤?比如是不是先和 AI 探索问题和解决方案,那你到底会不会做正式的开发规划?

 

Peter Steinberger:甚至可以更随性一点。我做的这个项目,有点像是把贾维斯和电影《她》里的智能助手结合在了一起。但光是嘴上说,根本没法传达出使用它时的感受,还有它到底有多实用。我在推特上发相关内容,反响特别平淡,我当时还纳闷,为什么当面给别人演示时,他们都特别兴奋,看着我和它互动,展示各种炫酷的功能,他们都很感兴趣,但仅凭文字和图片,根本传递不出这种感觉。

后来我建了一个 Discord 社群,把我的机器人对接了上去,让大家能直接和它互动。这个机器人能访问我系统里的所有内容,还有我的私人记忆,相当于把这些都公开展示了,我觉得这是我做过最疯狂的事。结果大家一下子就被吸引住了,现在总有人在社群里问我,能不能加这个功能,或者那个 bug 能不能修。现在我处理这些需求的方式很简单,直接把社群里的对话截个图,拖到终端里,或者复制文字过去,然后跟 AI 说“我们来聊聊这个需求”。

 

我这人比较懒,现在都不用自己打字了,直接复制 Discord 里的对话就行。有人问我“支不支持这个功能”“这个该怎么操作”,我就让 AI 去读代码,然后写一个新的常见问题解答,它都能搞定。现在我开发新功能的起点,大多就是看 Discord 里的聊天,发现大家的使用痛点。

 

Peter Yang:我的天,你就直接把对话粘贴过去,和 AI 一起探讨,然后找到合适的解决方案?

 

Peter Steinberger:差不多是这样。我还做了一个爬虫工具,每天至少爬取一次社群的帮助板块内容,然后让模型分析出大家最核心的使用痛点,之后我们就针对性修复。

 

Peter Yang:那你平时会用那些花里胡哨的功能吗?比如同时启用多个 Agent,或者运行那些复杂的技能模块之类的?

 

Peter Steinberger:我用的技能其实都很简单,大部分还是和个人生活相关的,比如饮食追踪、买食材这类,编程相关的技能用得特别少,因为根本不需要那么多。我也不用多 Agent 协作系统之类的东西,我本来就不相信这些复杂的编排系统。就像我们之前聊的,我觉得只要人参与其中,做出的产品体验会更好。或许那些系统能让开发速度变快,但我本身开发速度已经够快了,现在的瓶颈主要是思考的过程,偶尔会因为等 Codex 响应慢一点,但大多时候,限制我的都是自己的思考。

 

我平时就用几个终端,分屏操作就够了。也不用工作树,总觉得那是没必要的复杂设计。我只是把代码仓库拉取了几份,比如 OpenClaw 的仓库就拉了四五份,这些仓库要么是空着的,要么就在处理不同的任务,有的用来探索新功能,有的用来开发新模块,有的用来修 bug。开发完成后,我先在本地测试,没问题就推送到主分支,再同步所有仓库。这么做有时候感觉像个工厂,所有仓库都在忙各自的事。但如果只专注于一个仓库开发,很难进入状态,因为等待的时间太长了,总不能一直干等着,总不能光刷推特吧。

 

所以我需要同时处理多个任务,才能让自己一直保持专注,进入以前写代码时的那种心流状态,而且现在的工作效率也高得离谱。不知道你有没有玩过即时战略游戏,这种感觉就像指挥一支小队进攻,需要时刻监控和调度它们。我前公司的合伙人也彻底迷上了 OpenClaw,他是偏商务的出身,以前还是律师,现在居然开始给我提代码合并请求,这本身就够不可思议的了。AI 能给非技术背景的人赋能,让他们也能参与开发,这一点真的太厉害。

 

我知道现在有很多人对 AI 编程有抵触,觉得它还不够完美,但我还是把这些代码合并请求当作需求提示来看,因为这些请求能传递出核心的想法。大多数人对系统的理解没那么深入,没办法引导模型给出最优的结果,所以我更愿意抓住核心的需求意图,要么自己开发,要么从他们的请求里提炼出意图,重新开发,偶尔也会在他们的代码基础上优化。我还是会标注他们为合作开发者,但很少直接合并他们的代码。

 

Peter Yang:有道理。那这次对话下来,我的最大收获就是,别盲目沉迷于那些只会生成无用代码的工具,一定要让人参与到开发过程中,因为人的思考、审美这些东西,还是核心关键,必须由人来引导 AI。

 

Peter Steinberger:没错。而且每个人都要找到自己的方法,总有人问我“你是怎么做到的”,答案其实就是去探索。想要做好这件事,总要花些时间,总要自己踩坑,生活里的任何事都是这样,学习 AI 编程也不例外,只是这个领域的发展速度实在太快了。

 

参考链接:

https://www.youtube.com/watch?v=AcwK1Uuwc0U

作者:家泽

随着万物互联时代的全面开启,智能网联汽车、智慧工业、智能家居等场景产生的数据量呈几何级数增长。如何高效地从海量的物联网(IoT)设备中采集数据,并进行实时的分析处理,已成为企业实现数字化转型的核心挑战。

阿里云凭借其深厚的技术积淀,推出了“云消息队列 MQTT + Kafka 实时数据分析一体化解决方案”。该方案通过深度整合移动端/设备端连接利器 MQTT 与大数据流处理核心引擎 Kafka,为车联网及物联网行业提供高可靠、高性能、极简运维的数据处理链路。

双剑合璧:MQTT 与 Kafka 的价值互补

在典型的物联网架构中,MQTT 与 Kafka 分别扮演着“连接”与“计算”的关键角色:

  • 云消息队列 MQTT 版

MQTT 是一种基于发布/订阅(Publish/Subscribe)模式的“轻量级”通信协议,构建于 TCP/IP 协议之上,目前已成为物联网(IoT)领域的标准传输协议。MQTT 的核心目标是用极少的代码和有限的带宽(最小的消息报头仅为 2 字节,非常适合带宽受限的网络),为远程连接的设备提供实时、可靠的消息服务。MQTT 在协议层具备的三大关键机制非常契合终端与云端服务连接与通信的各类业务场景。

阿里云云消息队列 MQTT 版是专为移动互联网、物联网领域设计的行业标准协议消息引擎,支持千万级并发连接、百万级 Topic、超轻量级协议头,是解决海量设备“上云”最后一公里的不二之选。

作为大数据生态的“定海神针”,阿里云云消息队列 Kafka 版(全托管 Kafka 服务)采用存算分离的多可用区容灾架构,提供极致的自适应弹性能力,计算层与存储层的弹性解耦,可在扩容时秒级完成新副本的数据接管与服务提供,保障业务在面临不可预期流量时依旧平稳运行,最高支持 10 倍弹性。云消息队列 Kafka 版具备高吞吐、低延迟、无限扩展的存储能力,是实时计算、流式处理及数据湖集成的核心中枢。

端到端一体化架构:从感知到决策

MQTT + Kafka 的产品组合是物联网(IoT)与车联网等实时数据处理场景中非常流行的架构模式。它结合了 MQTT 的轻量级、低延迟设备通信能力和 Kafka 的高吞吐、可扩展的数据流处理能力,形成了一套高效、可靠、可扩展的端到端数据传输与处理解决方案。

image

1. 多维触达,感知无处不在

车机设备、智能硬件及各类移动终端应用,海量的异构设备都能通过轻量级的 MQTT 协议实现高并发、低功耗的稳定接入,解决海量碎片化数据的“上云”第一站。云消息队列 MQTT 版提供 Token 鉴权、签名鉴权、自定义鉴权、x.509 证书认证、webhook 鉴权等多种安全认证方式,保障数据在公网链路传输的安全性。

2. 智慧中枢,敏捷分发过滤

云消息队列 MQTT 版不仅负责千万级设备的长连接管理,更提供强大的规则引擎。 规则引擎支持将 MQTT 客户端的各类行为事件实时投递至 Kafka,包括:

  • 规则引擎就像一个高效的调度大脑,它能根据业务需求,对设备上报的原始数据进行实时过滤、清洗与路由。
  • 规则引擎允许用户通过类 SQL 语法,直接对 MQTT 消息 Payload(有效载荷)进行解析。例如,可以筛选出“温度 > 100 度”或“车速 > 120 km/h”的特定消息,精准投递至 Kafka 对应的 Topic 中。这种“边缘过滤、云端处理”的模式,极大地减轻了后端系统的处理压力。
  • 无需编写复杂代码,即可将特定的事件(如设备状态、设备订阅状态、消息接收状态)精准投递到后端,实现数据的“按需分发”。

事件说明:

  1. 上下线事件:实时感知设备状态,用于车辆掉线预警或设备在线率统计。
  2. 订阅/取消订阅事件:监控客户端订阅动态,保障业务逻辑准确性。
  3. 消息确认(ACK)事件:实现端到端的可靠性监控,确保关键指令准确送达。

3. 性能巅峰,数据流转枢纽

数据经过初步过滤后,汇聚到云消息队列 Kafka 版。作为大数据生态的核心枢纽,Kafka 凭借其极致的吞吐量与持久化能力,起到了“削峰填谷”和“高可靠缓冲”的作用,确保数据在面对流量洪峰时依然稳如磐石,为后续的高性能计算提供源源不断的动力。

4. 价值释放,驱动业务创新

数据流最终注入核心业务领域,实现从数据到资产的蜕变:

  • 业务应用层:实时触发业务逻辑,如远程控车、告警推送,让反馈就在毫秒之间。
  • 实时计算层:通过 Flink 等流计算引擎,实现毫秒级的实时分析,如驾驶行为评估、实时大屏监控。
  • 数据湖/仓层:将数据长久沉淀,构建企业级数据资产,为长期的算法训练、趋势预测及合规审计提供数据支撑。

典型应用场景:从车联到智造

场景一:智能网联汽车

在车联网场景下,车辆行驶数据(位置、胎压、电量)通过 MQTT 协议高频上报。企业可以将这些数据实时引流至 Kafka 进行分析,构建驾驶行为画像(如急刹车、超速分析)或电池健康监控系统。当规则引擎捕捉到车辆故障代码(DTC)时,可投递到 Kafka 触发,后端告警服务消费后立即告警。

场景二:工业物联网

在智慧工厂中,成千上万的传感器部署在生产线上。通过 MQTT 收集设备的振动、频率等原始数据,利用规则引擎过滤掉冗余噪声,将关键数据送入 Kafka 再结合流计算引擎进行预测性维护。一旦发现设备运行参数异常,系统能在故障发生前发出维修指令,避免非计划停机。

场景三:智慧物流与冷链运输

物流车辆在行驶过程中,环境温度、湿度及位置信息至关重要。MQTT 负责保障在弱网环境下数据的可靠传输,Kafka 则承载这些时序数据用于路径优化算法和合规性审计。通过上下线事件,调度中心可以实时掌握每一台物流车的在线状态,确保运输任务的连续性。

为什么选择阿里云 MQTT + Kafka?

阿里云“MQTT+Kafka”实时数据分析解决方案,助力企业加速释放数据价值:

  1. 链路极致简化:无需自建中间件桥接程序,通过规则引擎一键打通 MQTT 与 Kafka,大幅降低开发与运维成本。
  2. 高可用与高可靠:依托阿里云计算底座,提供最高 99.99% 的可用性保障,即便在海量数据冲击下也能确保数据不丢、不重。
  3. 极致弹性伸缩:存算分离架构支持按需弹性,轻松应对业务高峰期(如车展、抢购活动)带来的瞬时流量压力。

阿里云消息团队将继续深耕消息领域,通过不断迭代云原生消息产品能力,为各行各业的万物互联应用提供更坚实的数据枢纽。

立即了解:

如需了解更多,欢迎加入 钉钉交流群(群号:35228338) 与我们联系~

先说结论,音乐没有鄙视链,喜欢什么的都有,喜欢就行。

音乐审美肯定有高低的

人的耳朵损耗是不可逆的,多听几年音乐,还在听学猫叫、跳楼机之类的,那就是对不起自己的耳朵。

引申到大部分的流行音乐都是浪费耳朵的,不管是日本,欧美的,韩国的,俄的,中国的,大都差不多。

举个很典型的例子,左小

顶级歌词,秒杀大部分我们熟知的那些流行词作者,包括方文山那些,不接受反驳。

编曲顶级,而且极其稳定高产。

唱腔古怪,听多了别有风味。

当然,我也不是专业的。但是我知道,哪首歌从词曲上没糊弄耳朵。

中国歌曲的问题是,不管流行的摇滚的朋克的都是从欧美传过来的,大量抄袭翻唱模仿致敬,比不过原唱很正常。

就像唱京剧,豫剧,昆曲,黄梅戏,老外唱不过我们一样。

PS:原来 v 站也有违规词啊,“eluosi”是发不了贴的

从这次飞牛漏洞,想到我很久前就有的一个想法。
为啥不搞个自带 VPN 的浏览器。
本次大面积漏洞的核心就是 web 服务被击穿。全内网的都还安好。
那么如果有一款浏览器,自带 VPN 功能。只通过 VPN 访问内网服务,是不是就安全的多。

观测云提供一站式云、云原生、应用及业务的可观测解决方案,日志监控器是其核心功能之一,它不仅仅是一个被动的日志收集和存储工具,更是一个主动、智能的日志分析与监控告警平台。它的设计目标是帮助开发、运维和业务团队从海量的日志数据中快速发现问题、定位根因并及时响应。日志监控器的核心价值在于将非结构化的日志数据转化为可观测的结构化信息,并通过监控和告警机制,使其成为保障系统稳定性和业务连续性的有力工具。

通知对象

观测云支持向钉钉、企业微信、飞书等渠道发送通知,使用时需要先创建通知对象。点击「监控」 -「通知对象管理」-「新建通知对象」。

图片

填写消息推送机器人的 Webhook 地址。

图片

告警策略

点击「监控」 -「告警策略管理」-「新建告警策略」。通过关联监控器与告警策略,系统可在异常发生时即时向指定对象发送通知。策略支持配置名称、描述、时区与操作权限等基础信息,并允许按告警等级、通知对象两个维度灵活定义通知规则。针对高紧急度场景可启用升级通知机制,同时支持自定义通知发送时段,以适配不同时段的业务需求。

图片

日志监控器

「监控」 -「监控器」-「新建监控器」,选择“日志检测”,依次配置“检测配置”、“事件通知”、“告警配置”。

检测配置

如下图是按主机和服务的维度,统计 5 分钟内 mall-admin 服务中状态是 error 的日志条数。

图片

当错误数大于等于 2 条时触发致命告警。

图片

事件内容

支持自定义事件通知的标题与内容。

插入日志变量

点击"变量"选择需要展示的变量名,比如 host、service。

图片

插入链接

点击“链接”插入日志查看地址,实现告警界面一键跳转到观测云。

图片

附加信息

点击"添加附加信息"选择日志字段(如 message),在告警内容中展示。

图片

点击“变量”插入 {{df_related_data.message}},建议截取前200字符避免超出告警工具长度限制。

图片

告警策略

配置告警策略后,系统将向对应对象发送通知。

图片

恢复事件

连续两个周期无异常触发恢复事件,留空则不发送。

图片

告警通知

告警触发后,事件中心关联事件的“通知”列显示企微图标即表示推送成功。

图片

在企微机器人群收到如下信息。

图片

问题排查

企微未收到告警时,请在“事件中心”查找对应事件:

  • 无事件:检查监控器DQL配置
  • 事件存在但通知列无企微图标:检查通知对象与静默期设置
  • 通知列有企微图标:可能因告警过于频繁触发Webhook限流

无事件排查

打开监控器,复制上方的 DQL。

图片

复制出来的 DQL 如下:

window("L('default')::RE(`.*`):(count(`*`)) { `service` = \"mall-admin\" AND `status` = \"error\" } BY `service`, `host`", '5m')

打开「快捷入口」 -「DQL 查询」,粘贴 DQL,去掉外层的 windows 函数,去掉转义,检测区间选择和监控器相同,点击“执行”。如果无数据则不会触发告警。

图片

在当今制造业加速向智能化转型的背景下,工业AI平台早已不再是实验室里的概念模型,而是成为驱动生产效率跃升、成本结构重构的核心引擎。然而,许多企业对AI的理解仍停留在“用算法替代人工”的浅层层面,忽略了其真正价值在于打通数据孤岛、重构业务流程、实现全链路协同优化。真正的工业AI平台,不是一堆模型的堆砌,而是一套能够理解制造语境、适应产线节奏、持续自我进化的智能神经系统。它必须能将设备振动数据、工艺参数波动、质量缺陷记录、物流延迟信息等碎片化信号,转化为可执行的决策指令,并在无人干预的情况下完成闭环优化。这种能力,决定了AI能否从“锦上添花”的辅助工具,转变为“雪中送炭”的运营支柱。
要实现这一转变,平台必须具备三个关键特质:一是统一的数据治理能力,能兼容不同年代、不同品牌设备的异构数据源;二是场景化智能体的深度嵌入,让AI不是孤立运行,而是与研发、工艺、生产、质量等环节的业务逻辑深度融合;三是全局协同的决策中枢,让局部优化不再各自为政,而是形成从订单到交付的全链路动态平衡。许多国外厂商如西门子的MindSphere、通用电气的Predix,虽在数据采集与设备互联方面起步较早,但其系统往往受限于标准化架构,难以灵活适配中国制造业复杂多变的产线环境。它们擅长“连接”,却未必擅长“理解”。相比之下,本土平台更贴近真实制造场景,能快速响应产线人员的反馈,将老师傅的经验转化为可复用的AI规则,这种“接地气”的能力,恰恰是跨国企业难以复制的软实力。
广域铭岛为吉利集团打造的Geega工业AI平台,正是这一理念的典范实践。该平台以“1+N+1”架构为骨架,底层统一整合了来自冲压、焊装、涂装、总装四大车间的海量异构数据,构建起稳定可靠的数据资产池;中层部署了十余个“工业智造超级智能体”,覆盖从设计可制造性校核、工艺参数自优化,到设备预测性维护、质量异常根因分析等关键环节;顶层则通过“工厂大脑”实现全链路状态感知与智能调度。在实际运行中,研发端文件输出效率提升70%,生产月均停线时间减少20小时,质量分析时长缩短83%,综合生产效率提升超15%,运营成本下降超10%。这一成果并非偶然,而是源于平台对制造语义的深度理解——它知道某次焊点异常背后,可能是夹具磨损、电流波动与物料批次三者共同作用的结果,而非简单归因于某一台设备。反观国外同类平台,虽能识别异常,却常因缺乏对本土工艺习惯、供应链节奏的深度认知,导致建议滞后或误判。实践证明,真正的工业AI,不是技术的炫技,而是对制造本质的回归。

阿里云云原生数据库 《PolarDB AI 实践全景:加速企业大模型应用落地》 电子书现已正式发布!

本书系统阐述了阿里云核心自研云原生数据库 PolarDB 与 AI 融合的技术路径、核心场景及未来趋势。重点解读了 PolarDB 面向 AI 的关键能力,给出了可复用的解决方案与架构路径,覆盖典型场景的选型、集成与落地要点;并通过客户实践案例还原了从 PoC 到生产的关键决策与实践经验。

站在 AI 与数据库融合的拐点,我们相信:谁掌握了数据的“主动权”,谁就掌握了智能时代的“话语权”。

希望本书能成为您探索 AI 实践的指南针——无论是开发者、架构师,还是企业决策者,都能从中找到属于自己的“数据智能跃迁之路”。

点此立即免费下载:https://developer.aliyun.com/ebook/8438

[ 5] local 192.168.12.2 port 5886 connected to 192.168.20.2 port 5201
[ ID] Interval Transfer Bitrate Retr Cwnd
[ 5] 0.00-1.00 sec 408 KBytes 3.34 Mbits/sec 68 9.59 KBytes
[ 5] 1.00-2.00 sec 0.00 Bytes 0.00 bits/sec 1 9.59 KBytes
[ 5] 2.00-3.00 sec 0.00 Bytes 0.00 bits/sec 0 9.59 KBytes
[ 5] 3.00-4.00 sec 134 KBytes 1.10 Mbits/sec 0 9.59 KBytes
[ 5] 4.00-5.00 sec 0.00 Bytes 0.00 bits/sec 15 7.20 KBytes
[ 5] 5.00-6.00 sec 133 KBytes 1.09 Mbits/sec 0 9.59 KBytes
[ 5] 6.00-7.00 sec 0.00 Bytes 0.00 bits/sec 0 9.59 KBytes
[ 5] 7.00-8.00 sec 133 KBytes 1.09 Mbits/sec 0 9.59 KBytes
[ 5] 8.00-9.00 sec 0.00 Bytes 0.00 bits/sec 0 12.0 KBytes
[ 5] 9.00-10.00 sec 0.00 Bytes 0.00 bits/sec 10 9.59 KBytes


[ ID] Interval Transfer Bitrate Retr
[ 5] 0.00-10.00 sec 808 KBytes 662 Kbits/sec 94 sender
[ 5] 0.00-10.22 sec 512 KBytes 410 Kbits/sec receiver

两端都只有 IPV6 公网(移动大内网),改了 MTU 1280 也不行,是不是 UDP 给 QOS 了?各位 18CM 彦祖给点意见,谢谢了!能用其他办法解决吗?只是两个房子解决通问题而已。

对这玩意不是很感冒, 有就约一下,没有就不凑热闹。
20 年的时候换过冬奥会的纪念钞。

前段时间老爸(快 70)打电话说,换几张纪念钞玩玩,估计就是下棋的时候和村里的老头聊到或者看新闻看到吧。

过年也没啥买大, 他也没啥需求,过生日啥的,也不知道买啥,也确实不知道买啥。手表,剃须刀,腰带,象棋衣服买了也基本都穿旧的,很少穿。

然后上周约的那天晚上错过了,早上起来才想到。 网上看了下,现在基本约的时候 200 一套的,400 出而且都是整套。

200 的差价也出的起就是图老爸一乐,毕竟别的真的他(太奢侈的我也没那个能力。)都不需要。但是我估计如果告诉他要多出 200 他肯定就不要了。
另外之前问过燕窝,我估计也就是想尝尝鲜,大伙有啥看法, 各位什么看法?

这几年因为项目需要,频繁接触各种接码服务,从注册小号、测试应用到跨境电商验证,几乎把市面上能试的平台都过了一遍。说实话,踩的坑比顺利的时候多——不是号码秒被封,就是收不到码,还有那种隐藏扣费到一半才发现的……

最近半年总算固定下来用一个相对稳定的,虽然算不上完美,但至少几个核心需求能满足:

  1. 号码不“脏”:很多平台的号码被用到烂,刚接手就提示“该号码已注册过多账号”,这个目前用的池子还算干净,尤其是欧美号段。
  2. 能接小众国家:除了美英德法,偶尔需要墨西哥、波兰、土耳其这些地方的号码,它家选择还算多,虽然价格会高一点。
  3. 有 API 且文档正常:对于需要批量操作的人来说,这点太重要了。之前用过两家文档全是机翻,调试到崩溃。现在这个接口响应快,回调也稳定。
  4. 价格透明:没有“套餐陷阱”,用完即走,余额不提现也不会偷偷扣光。

当然也有毛病:客服回复慢、热门国家号码偶尔秒光、不支持中文界面。不过整体来看,在“稳定”和“功能”之间算是找到了平衡点。

如果你也在找接码服务,建议先明确自己的需求:是长期养号还是短期验证?是否需要 API?对国家范围要求高吗?毕竟没有哪个平台是全能的,适合自己工作流的才是最好的。

也欢迎大家在评论区分享自己用过靠谱的(或者特别坑的),互相避个雷。

模思智能简介

上海模思智能科技有限公司(MOSI Intelligence)成立于2024年11月,是国内深度情境智能领航者,依托深厚的学术积淀与卓越的工程落地能力,致力于构建下一代全感官人机交互体系。公司由复旦大学知名教授邱锡鹏担任首席科学家,以复旦大学自然语言处理实验室(FudanNLP)的MOSS团队为核心组建。

模思智能专注于端到端语音大模型与多模态智能体研发,其核心产品MOSS-Speech率先实现“真·语音到语音”交互,跳过文本中转瓶颈,能够原生捕捉并生成语调、情绪与笑声,为内容创作、数字人及具身智能提供更自然、更具温度的交互底座。

阿里云 MaxCompute 云原生 AI 数据平台:赋能 AI 数据处理工作流加速

在人工智能技术快速迭代的今天,多模态数据处理已成为大模型训练与应用开发的核心挑战。图像、视频、音频等非结构化数据的爆发式增长,对数据处理平台的算力类型、弹性、计算引擎数据处理能力及多模态数据统一管理能力提出了更高的要求。

阿里云与模思智能达成深度合作,基于阿里云 MaxCompute 构建云原生一站式多模态数据处理平台,同时通过 MaxCompute 自研分布式 AI 计算引擎 MaxFrame 实现对多模态数据高效开发、处理,为大模型研发、创新提供了坚实的数据基座。

业务挑战

随着模思业务规模扩大,面临本地IDC在存储、算力与网络上的扩展瓶颈,难以支撑高并发、大规模音视频处理 Pipeline,同时自建平台耗费大量人力,制约了其核心 AI业务的创新、发展。

  • 本地IDC架构性能瓶颈

随着模思业务规模的扩大和模型训练对数据量、处理时效性的要求提升,原有IDC基础设施在计算弹性、存储容量、I/O性能、网络带宽等方面已无法满足高并发、大规模音视频等多模态数据的处理需求。

此外,多模态数据预处理流程复杂,涉及视频切帧、语音识别、音频文字提取等多种操作,面对海量多模态数据清洗、处理等计算密集型任务,传统 IDC 自建方案出现性能瓶颈、频繁任务失败等问题,作业稳定性、性能难以保障。

  • 异构资源调度复杂度高

多模态数据处理 Pipeline 需同时调度数千卡与数万核算力资源,传统调度系统难以实现跨模态任务(如音频转写、视频抽帧、特征提取等)对异构计算资源的精细化、高效率分配与协同。

  • 非结构化数据管理困难

音视频等非结构化数据缺乏统一的元数据管理体系,导致数据不可见、难检索、生命周期难追踪,影响数据资产的高效利用与治理 。

  • 缺乏统一任务管理与可视化支持

原有数据处理流程依赖单机 Python 程序完成开发、调试与生产任务,缺少可视化任务开发、管理、调度和运维能力,多参数迭代效果评估困难,开发效率低下。

  • 开发与运维人力投入受限

基于自建数据预处理框架、集群需投入大量人力进行开发与维护,业务团队难以专注于核心AI业务创新。

解决方案

阿里云为模思智能打造了基于MaxCompute MaxFrame的一体化多模态数据处理方案,构建从可视化作业开发、数据管理及多模态数据处理的完整闭环。

  • 高效、稳定的分布式多模态数据处理

    • 依托 MaxCompute 自研分布式 AI 计算引擎 MaxFrame,实现对音视频数据进行标准化、切分、语音识别等高效处理。 MaxFrame 支持通过 Rebalance 实现数据切分、并发控制,从而在内存与吞吐之间取得平衡,放大性能收益。
    • 分布式 AI 计算引擎 MaxFrame 支持在一个作业 Pipeline 中同时调度异构计算资源,将各类多模态数据处理算子合理分配至不同的异构计算资源中执行,充分、合理利用算力资源优势。
  • 统一数据管理与元数据采集

    • 基于阿里云对象存储 OSS 进行原始音视频数据统一存储,通过高速内网直连为 MaxCompute 提供了超高带宽及 IO性能。针对多模态小文件,OSS提供了极高的QPS解决了在高并发下的延迟抖动问题,保障算力充分利用。
    • 通过 MaxCompute 提供的 Object Table 表类型,实现对 OSS 上存储的多模态图片、视频等非结构化数据的元数据自动采集与统一纳管,支持结构化与非结构化数据集的目录化管理,便于数据的检索与调用。
  • 开箱即用的开发体验

    • 通过 Dataworks 实现多模态数据处理任务Pipeline的编排、调度、运维,一站式管理任务。处理完毕后沉淀的AI资产,通过数据地图对外统一展示、搜索、权限申请、查看数据血缘,完成AI数据资产的管理。
    • MaxFrame 作为 MaxCompute 自研分布式 AI 计算引擎,提供开箱即用的分布式、多模态数据处理能力,内置任务调度、作业容错与自运维能力,大幅降低开发维护成本,使业务团队能聚焦于核心AI创新。
    • MaxFrame 与 DataWorks Notebook 深度集成,提供可视化开发、调度、管理平台,支持灵活的 Python 开发生态与开发环境,无需复杂环境配置即可快速启动多模态数据处理任务,显著降低作业开发门槛。

业务价值

合作实施后,模思智能在数据处理流程多个维度实现显著突破。计算资源利用效率大幅提升,通过 MaxCompute "包月固定资源 + 按需弹性资源"的组合模式,高峰期可快速扩展至 数万核 计算资源,计算资源利用率提升 30% 以上。多模态数据处理效率实现质的飞跃,基于 MaxFrame 构建的分布式处理架构替代原有自建方案,音视频预处理,性能提升 100%,整体数据处理 Pipeline 耗时大幅缩短,批量推理任务借助弹性GPU异构资源实现高效执行。平台运维复杂度显著降低,全托管云原生PaaS能力使团队无需投入大量人力进行底层基础设施维护,运维资源投入减少 50%,得以更专注于核心AI业务创新。

总结与展望

阿里云与模思智能的成功合作,验证了基于 MaxCompute 构建云原生多模态数据处理平台的可行性与技术优势。该方案有效解决了大模型时代多模态数据处理的资源弹性、性能瓶颈与统一管理等核心挑战,为AI应用研发提供了高效、可靠的数据基础设施。未来,双方将继续深化在多模态数据处理、大模型数据预处理等前沿场景的联合创新,推动 Data + AI 技术在更广泛行业的规模化应用,助力企业加速AI价值释放。


摘要

越来越多的人开始把 2026 年称为“AI 元年”。如果说过去几年是大模型技术爆发期,那么接下来几年,很可能是 AI 应用全面进入工作与生活的阶段。
很多人担心被替代,但从历史看,每一次技术浪潮都在淘汰旧岗位的同时,也创造新机会。本文将从趋势、行业变化与现实路径出发,分析普通人真正可以抓住的 AI 机会。


目录

  • 一、为什么 2026 被称为 AI 元年
  • 二、AI 时代真正改变的是什么
  • 三、普通人可以抓住的五类机会
  • 四、哪些人会更容易受益
  • 五、普通人现在就能做的准备
  • 六、总结
  • 参考文献

一、为什么 2026 被称为 AI 元年

“AI 元年”并不是指 AI 技术刚出现,而是指:

AI 从技术突破期进入大规模应用期的节点。

过去几年,大模型能力快速提升,但更多停留在体验和尝鲜阶段。而从 2025–2026 开始,几个关键变化正在发生。


1. AI 开始真正进入工作流

AI 不再只是聊天工具,而是参与真实工作:

  • 自动写方案
  • 自动做数据分析
  • 自动处理文档
  • 自动生成内容

AI 正从“辅助工具”变成“工作伙伴”。


2. 企业开始规模化采用 AI

越来越多公司:

  • 接入企业知识库 AI
  • 使用智能客服
  • 部署内部 AI 助手
  • 建设自动化流程系统

当企业级应用普及,社会整体认知才会发生改变。


3. AI 使用门槛显著降低

现在普通人也能:

  • 用自然语言操作 AI
  • 不懂代码也能构建应用
  • 快速获得专业级辅助

这意味着机会不再只属于技术人员。


二、AI 时代真正改变的是什么

很多人误以为 AI 只是在替代岗位。

其实更本质的变化是:

生产力被大幅放大。

一个人原本一天做 1 份方案,
现在可能一天做 5 份。

一个人原本只能执行,
现在可以参与决策。

AI 更像“能力放大器”。


三、普通人可以抓住的五类机会

这一部分最关键。


机会一:AI + 本职工作

最现实的机会,不是转行做 AI,
而是:

用 AI 提升原有职业竞争力。

例如:

  • 运营用 AI 做数据分析
  • 教师用 AI 做备课
  • 设计师用 AI 出创意
  • 销售用 AI 写方案

会用 AI 的人,效率明显更高。


机会二:AI 内容创作

AI 降低了创作门槛:

  • 写作
  • 视频脚本
  • 自媒体内容
  • 知识整理

关键不在 AI 本身,而在:

👉 选题能力
👉 审美与判断力


机会三:AI 工具整合者

未来真正值钱的人是:

懂业务 + 懂一点 AI 的人。

例如:

  • 帮公司搭建 AI 工作流
  • 配置知识库系统
  • 优化办公自动化流程

这类人往往成为团队里的效率提升者。


机会四:垂直领域 AI 应用

AI 通用能力强,但:

行业理解依然稀缺。

例如:

  • 法律 AI 助手
  • 医疗知识助手
  • 教育辅导助手

懂行业的人更容易做出差异化。


机会五:AI 时代的新职业

新岗位正在出现:

  • Prompt 设计
  • AI 产品经理
  • AI 评估与训练
  • 数据标注升级岗位

历史经验表明:

👉 新技术一定带来新职业。


四、哪些人会更容易受益

通常是三类人。


1. 学习速度快的人

AI 变化快,持续学习很重要。


2. 跨界能力强的人

懂业务又懂工具的人更具优势。


3. 行动力强的人

很多机会属于“先用起来的人”。


五、普通人现在就能做的准备

不需要焦虑,也不需要盲目跟风。

可以从三件小事开始。


1. 每天使用 AI 工具

把 AI 当助手,而不是玩具。


2. 关注真实案例

多看别人如何用 AI 解决问题。


3. 培养判断力

AI 能生成内容,但:

👉 判断好坏仍然是人的能力。


六、总结

2026 是否是真正的 AI 元年,未来会给出答案。

但可以确定的是:

AI 正在成为像互联网一样的基础能力。

对普通人而言,机会不在于成为 AI 专家,而在于:

✔ 学会利用 AI
✔ 提升自身价值
✔ 放大已有能力

技术浪潮从不只属于少数人,
更属于那些愿意拥抱变化的人。


参考文献

  1. 中国信息通信研究院:《人工智能发展白皮书》
  2. 中国信息通信研究院:《生成式人工智能应用研究报告》
  3. 清华大学人工智能研究院相关研究报告
  4. 腾讯研究院:《AI 发展趋势与产业影响》
  5. 阿里研究院:《数字经济与人工智能发展观察》
  6. CSDN 技术社区相关专题文章

前言

在智能语音产品开发过程中,开发者往往能够快速掌握基础的唤醒词和命令词配置,但 SmartPi 平台提供的许多高级功能却经常被忽视或误解。这些高级功能包括自然说、声纹识别、声源定位、AEC 打断等,它们能够显著提升产品的识别准确率和用户体验。

本文将系统性地介绍 SmartPi 平台固件配置中的各项高级功能,帮助开发者从基础配置进阶到高级应用,打造更专业、更智能的语音交互产品。

一、产品特性功能全景解析

SmartPi 平台提供了一系列高级音频处理功能,这些功能根据不同的应用场景,可以显著提升语音识别的准确率和用户体验。

1.1 功能对比一览

功能作用适用场景硬件要求
降噪减少环境噪声干扰家庭、办公室等有背景噪声的环境单 MIC
降混响处理空间反射和回声客厅、会议室等较大空间单 MIC
降人声干扰区分目标用户和其他人声多人使用场景单 MIC
自学习学习用户发音习惯个人专用设备单 MIC
声纹识别区分不同用户多用户家庭场景单 MIC
AEC 打断消除回声,允许语音打断需要中断播报的场景单 MIC + 扬声器
声源定位识别声音来源方向双麦克风阵列设备双 MIC

1.2 降噪功能详解

工作原理:

降噪功能通过数字信号处理算法,从麦克风采集的音频中分离出环境噪声成分并予以抑制,从而提升语音信号的信噪比。

配置建议:

环境类型推荐设置注意事项
安静卧室可不开启避免过度降噪影响音质
客厅环境建议开启有电视等背景噪声时效果明显
办公室建议开启空调、键盘声等可被有效抑制
车载环境强烈建议发动机噪声、风噪需要降噪处理

1.3 降混响功能详解

什么是混响?

混响是指声音在封闭空间内经过多次反射后形成的持续余音。过强的混响会导致语音识别准确率下降。

适用场景:

  • 空间较大的客厅(>30㎡)
  • 有较多硬质表面的房间(瓷砖、玻璃等)
  • 会议室、教室等环境

配置建议:

判断标准:
1. 在房间内拍手,听是否有明显回声
2. 说话时感觉声音"空"或有"余音缭绕"感
3. 安装位置距离墙壁、玻璃等反射面较近(<1米)
​
如果满足以上任一条件,建议开启降混响功能。

1.4 声纹识别功能

功能说明:

声纹识别是通过分析说话人的声音特征(如音调、频率、韵律等)来区分不同用户的技术。与语音识别不同,声纹识别关注的是"谁在说话"而非"说了什么"。

应用场景:

场景实现方式
个性化控制不同用户说同一命令词执行不同操作
权限管理只有特定声纹才能执行某些敏感操作
场景联动根据识别到的用户自动调整个性化设置
儿童保护识别儿童语音自动限制某些功能

配置步骤:

  1. 在平台开启"声纹识别"功能
  2. 为每个需要识别的用户录制声纹样本
  3. 在控制逻辑中使用声纹作为判断条件
  4. 设置不同声纹对应的差异化行为

注意事项:

  • 声纹录制应在安静环境下进行
  • 每个用户需要多次录制以提高准确率
  • 感冒、声音变化时可能影响识别效果
  • 声纹识别需要一定的计算资源,需确保模组性能足够

1.5 AEC 打断功能

什么是 AEC?

AEC(Acoustic Echo Cancellation,声学回声消除)是一种用于消除扬声器播放声音与麦克风拾音之间回声的技术。

打断功能的实现:

开启 AEC 打断后,用户可以在设备播报语音时直接说话,设备会自动停止播报并识别用户的语音指令。

配置建议:

开启条件:
✅ 产品需要快速交互响应
✅ 用户需要能够随时中断播报
✅ 扬声器与麦克风距离较近(<50cm)
​
关闭条件:
❌ 产品仅需单向播报,无需用户响应
❌ 麦克风与扬声器距离足够远且有良好隔离
❌ 对成本敏感,无需打断功能

二、自然说功能深度解析

自然说(Natural Language Understanding)是 SmartPi 平台的一项重要功能,它允许用户使用更自然的表达方式触发命令,而不必严格按照预定义的命令词格式。

2.1 自然说 vs 普通命令词

特性普通命令词自然说
命令词数量支持多条(用\分隔)仅支持一条
泛化支持不支持支持多条泛化词
识别精度高(必须匹配预定义词)中(依赖算法泛化)
用户灵活性
适用场景精确控制自然对话

2.2 泛化模式配置

SmartPi 平台支持三种泛化模式:

1. 系统自动泛化

系统根据命令词自动生成相似的泛化表达:

命令词:打开空调
系统自动泛化可能包括:
- 把空调打开
- 帮我开空调
- 空调打开一下
- 能不能开空调

2. 用户指定泛化

开发者手动添加常用的泛化词:

命令词:打开空调
泛化词:开空调|空调开机|启动空调

3. 系统自动 + 用户指定

结合两种方式,获得最全面的泛化覆盖。

2.3 自然说配置限制

限制项说明建议
单命令词限制开启自然说后只能设置一条命令词选择最核心的表达作为主命令词
泛化词数量虽然可以添加多条,但过多会影响性能建议 5-10 条常用表达
误识别风险泛化范围越广,误识别概率越高避免过于宽泛的表达

2.4 配置示例

场景:灯光控制

不使用自然说:
命令词:打开灯|开灯|亮灯|开启照明|灯开了
​
使用自然说:
命令词:打开灯
泛化词:开灯|把灯打开|灯打开|帮我开灯|开一下灯
​
对比优势:
- 配置更简洁
- 覆盖更自然的表达
- 用户说话更随意

三、双麦克风功能详解

3.1 单 MIC vs 双 MIC

特性单 MIC双 MIC
成本较高
降噪能力基础强(波束成形)
声源定位不支持支持
识别距离近场(<2 米)远场(3-5 米)
安装复杂度简单需要注意麦克风间距和布局

3.2 声源定位功能

工作原理:

双麦克风通过分析声音到达两个麦克风的时间差和相位差,计算出声源的方向角度。

典型应用:

  • 智能摄像头:转向说话人方向
  • 智能音箱:定向拾音,提升识别率
  • 会议系统:识别发言人位置
  • 机器人:朝向用户移动

硬件设计要点:

麦克风间距建议:
- 4-6cm:适合桌面设备,定位精度适中
- 10-15cm:适合较大设备,定位精度更高
- >20cm:定位精度提升有限,但设备尺寸增大
​
安装注意事项:
1. 两个麦克风应在同一水平线上
2. 避免中间有遮挡物
3. 与扬声器保持足够距离
4. 麦克风孔径设计要合理

3.3 双麦算法说明

重要提示:

双麦算法是固定封装在固件中的,平台配置只能选择是否启用,无法调整算法参数。如需定制算法,需要通过 SDK 进行二次开发。

影响双麦效果的因素:

  1. 麦克风一致性:两个麦克风的灵敏度、频响特性应尽量一致
  2. 间距精度:实际间距与设计间距的偏差会影响定位精度
  3. 环境因素:强反射环境会降低双麦算法效果

四、识别灵敏度调优

4.1 灵敏度三档详解

灵敏度识别效果误识别率触发距离典型应用
需要靠近、清晰发音最低<1 米卧室、图书馆
平衡状态中等1-3 米大多数场景(推荐)
容易唤醒,远距离可用最高3-5 米嘈杂环境、大房间

4.2 灵敏度与产品特性的协同

调优策略矩阵:

环境特征推荐灵敏度建议开启的功能
安静小房间无需额外功能
家庭客厅降噪
嘈杂商场降噪 + 降人声干扰
车载环境降噪 + AEC
会议室降混响 + 降人声干扰

4.3 调优流程

步骤1:使用默认"中"灵敏度测试
    ↓
步骤2:在实际使用环境中收集反馈
    ↓
步骤3:根据问题类型调整
    - 经常喊不出 → 提高灵敏度
    - 经常误唤醒 → 降低灵敏度
    ↓
步骤4:配合防误识别词优化
    ↓
步骤5:反复测试直至平衡

五、防误识别词配置策略

防误识别词是降低误唤醒率的重要手段,合理配置可以显著改善用户体验。

5.1 配置规则

  • 不能与唤醒词、命令词重复
  • 多条词条之间用 | 分隔
  • 示例:你好|在吗|小美|小爱

5.2 必加防误识别词的场景

场景 1:命令词部分匹配

命令词:打开灯光
防误识别词:打开|灯光
原因:防止只说"打开"或"灯光"也被识别

场景 2:相似前缀命令词

命令词列表:打开空调|打开风扇|打开灯光
防误识别词:打开
原因:防止说"打开"时误触发任一命令

场景 3:常见口语词汇

防误识别词:你好|在吗|喂|哈喽
原因:这些都是高频日常用语

5.3 竞品唤醒词处理

虽然从法律角度不建议使用与竞品相同的唤醒词,但如果产品设计中确实可能识别到竞品唤醒词,建议:

方式1:添加防误识别词
防误识别词:小爱同学|天猫精灵|小度小度
​
方式2:差异化设计
选择独特的唤醒词,从源头避免冲突

六、回复语与多音字处理

6.1 回复语设计规范

规则说明示例
长度限制单条不超过 500 字符-
数字处理避免阿拉伯数字使用"十五度"而非"15 度"
多回复语用 `\` 分隔,随机选择`"已开灯\好的,已打开\照明已开启"`

6.2 多音字标注

为什么要标注多音字?

TTS(文字转语音)引擎在遇到多音字时,默认按照常见读音播报,可能导致专业术语或特定场景下的读音错误。

标注格式:

格式:[=拼音]
拼音声调范围:1-4(一声到四声)、5(轻声)

常见多音字示例:

词汇错误读音正确标注播报结果
调整diào zhěng[=tiao2]整tiao2 zheng
中风zhōng fēng中[=zhong4]风zhong1 feng
长大cháng dà[=zhang3]大zhang3 da
质量zhì liàng质[=zhi3]量zhi4 liang

实用示例:

原始回复语:已调至中档
优化后:已[=tiao2]至中[=zhong1]风档
效果:播报时使用正确的读音

七、固件配置完整流程

7.1 新手推荐配置路径

入门级配置(10 分钟上手):

1. 基础设置
   - 唤醒词:4个字,易开口
   - 命令词:3-5条基础控制
   - 灵敏度:中
   - 回复语:简洁清晰
​
2. 测试验证
   - 烧录测试
   - 简单场景验证

进阶级配置(30 分钟完善):

1. 语音优化
   - 开启降噪(如需要)
   - 调整灵敏度
   - 配置防误识别词
​
2. 功能扩展
   - 多命令词配置
   - 条件控制逻辑
   - 变量控制应用

专业级配置(2 小时深度优化):

1. 高级功能
   - 声纹识别(多用户场景)
   - AEC 打断(交互类产品)
   - 声源定位(双麦设备)
​
2. 精细调优
   - 自然说泛化配置
   - 多音字标注
   - 识别灵敏度与产品特性协同

7.2 配置检查清单

在生成固件前,建议进行以下检查:

基础检查:
□ 唤醒词符合规范(4个字,非敏感词)
□ 命令词设置合理,无冲突
□ 回复语中无阿拉伯数字
□ 多音字已正确标注
​
功能检查:
□ 灵敏度设置适合应用场景
□ 防误识别词已配置
□ 双麦功能(如启用)硬件支持
​
高级检查:
□ 自然说泛化词合理
□ 产品特性功能符合需求
□ TTS 播报音编号已确认

八、常见问题排查

8.1 功能相关问题

问题可能原因解决方案
识别不灵敏灵敏度设置过低提高灵敏度档位
经常误唤醒灵敏度过高或唤醒词太普通降低灵敏度,添加防误识别词
双麦功能无效硬件不支持或未正确配置检查硬件,确认已启用双麦
自然说无效果命令词设置不正确确认自然说开关和命令词配置
多音字读音错误未进行拼音标注使用 [=拼音] 标注

8.2 固件生成问题

问题:固件生成失败

排查步骤:

  1. 检查网络连接
  2. 确认命令词格式正确(无特殊字符)
  3. 检查 TTS 播报音数量是否超限
  4. 确认所选模组支持当前配置的所有功能

问题:固件烧录后无响应

排查步骤:

  1. 确认固件版本与模组型号匹配
  2. 检查烧录工具和连接线
  3. 尝试重新烧录
  4. 检查模组硬件是否正常

总结

SmartPi 平台提供了丰富的固件配置选项,从基础的唤醒词、命令词到高级的自然说、声纹识别、双麦等功能。掌握这些高级功能的配置方法,能够帮助开发者打造更专业、更智能的语音交互产品。

核心要点回顾:

  1. 产品特性:根据实际应用场景选择合适的功能组合
  2. 自然说:平衡识别灵活性与误识别风险
  3. 双麦功能:硬件设计需要配合,算法参数无法调整
  4. 灵敏度调优:从"中"档位开始,根据实际效果调整
  5. 防误识别:合理配置可以显著降低误唤醒率
  6. 多音字标注:使用 [=拼音] 确保专业术语播报正确

记住:优秀的产品不是堆砌功能,而是根据实际需求选择最合适的配置。建议从基础配置开始,逐步添加高级功能,通过实际使用反馈不断优化。

参考资料

2026 年伊始,大模型产业的叙事逻辑正在发生一场深刻的裂变:如果说 2024 年和 2025 年的主旋律是“模型跑通”和“百模大战”,那么进入 2026 年,企业级用户最头疼的问题已经变成了“哪个 API 更好用”以及“如何保证调用不掉链子”。

 

在这一背景下,1 月 29 日在北京举行的「Ping The Future:智能跃迁,路由新境——清程 AI Ping 产品发布会」显得尤为及时。这场发布会不仅是一次产品亮相,更是对大模型进入“工程化下半场”的一次集体把脉。

 

为什么在 2026 年的今天,诊断大模型的好坏变得如此重要?为什么“智能路由”会成为像清程极智这样的基础设施公司关注的焦点?这要从目前大模型行业面临的“三大痛点”说起。

 

目前,企业在接入大模型时,普遍面临着以下三个“既要又要还要”的困境:

 

  • 痛点 1:API 服务的“盲盒化” (Stability Crisis)目前的模型 API 市场鱼龙混杂。同一款模型,由不同供应商提供,其响应速度和成功率可能天差地别。企业往往在遭遇大规模调用失败后,才发现后端服务早已“掉线”。

 

  • 痛点 2:成本与性能的“跷跷板” (Cost TCO)顶尖模型(如 GPT-5 或同级别国产大模型)极贵,轻量级模型虽然便宜但智力不足。在数以万计的调用中,如何不为了“杀鸡”而动用“牛刀”?

 

  • 痛点 3:供应商锁定与迁移成本 (Vendor Lock-in)企业如果只依赖一家模型商,一旦其服务波动或策略调整,业务就会瘫痪。但接入多家 API 又面临协议不统一、负载均衡难等工程化难题。

 

此外,清华大学教授郑纬民在发布会上指出,当前人工智能基础设施的核心任务正在发生变化。

 

过去,AI Infra 主要服务于大模型的训练与推理,解决“如何生产智能”的问题;随着模型生态不断丰富和智能体广泛应用,行业正在进入以“智能流通”为核心的新阶段,更加关注模型能力如何在真实业务中高效、稳定地被使用

 

他表示,实现智能流通的关键在于智能路由能力建设,其中既包括在多模型环境下为不同任务选择最合适模型的“模型路由”,也包括在同一模型的多种 API 服务提供者之间进行性能与成本优化调度的“服务路由”。两类路由能力协同发展,将形成完整的 AI 任务分发网络,决定人工智能系统的最终效率和使用成本。

图说:清华大学教授郑纬民

清程极智 CEO 汤雄超完整地介绍了清程极智的企业定位和产品布局,他表示,从大模型训练与微调,到推理部署的高性价比实现,再到应用阶段对服务稳定性和使用效率的更高要求,AI Infra 的关注重点正在不断演进。

 

他介绍,清程极智长期围绕大模型训练、推理和应用三类核心场景开展技术实践,先后推出八卦炉训练系统和赤兔推理引擎,支撑模型在多种算力环境下的高效训练与部署。随着 AI 应用和智能体快速发展,模型能力如何在真实业务中高效流通成为新的关键问题。基于这一背景,清程极智推出 AI Ping,一站式 AI 评测与 API 服务智能路由平台,完善大模型应用阶段的基础设施能力。

图说:清程极智 CEO 汤雄超

在产品发布环节,清程极智联合创始人,AI Ping 产品负责人师天麾对 AI Ping 平台进行了系统地介绍。AI Ping 聚焦大模型服务使用环节,围绕模型服务评测、统一接入与智能路由等核心能力,构建起覆盖“评测—接入—路由—优化”的完整链路。平台以真实业务场景为导向,对不同厂商、不同模型 API 的延迟、稳定性、吞吐与性价比等关键指标进行长期、持续观测。

 

目前,AI Ping 已覆盖 30 余家中国大模型 API 服务商 ,在统一标准与方法论下对模型服务能力进行对比分析,为企业在复杂的模型与服务选择中提供更加理性的决策参考。

 

发布会当天,清程极智与华清普智 AI 孵化器(T-ONE Innovation Lab)联合发布了《2025 大模型 API 服务行业分析报告》。该报告基于 AI Ping 平台 2025 年第四季度的真实调用数据与持续性能监测结果,从模型、服务商与应用场景三个维度,对当前大模型 API 服务的供给结构与使用特征进行了系统分析。

 

报告指出,根据各开源模型请求数据,以总请求量排序,DeepSeek-V3/R1 位居首位、其后为 DeepSeek-V3.2,随后进入高调用梯队的是千问(Qwen)家族的多款模型,包括 Qwen3-32B、Qwen2.5-72B 与 Qwen3-235B-A22B 等。整体而言,头部模型呈现出“少数强势型号占据大盘、同一模型家族内多版本并存” 的结构特征。

 

图说:头部开源大模型总请求次数(归一化处理)

 

同时,报告研究团队观察到,Qwen2.5-72B 的调用量维持在较高水平,这一现象在“新模型加速迭代”的叙事下具有一定反直觉性。一个合理解释是,近期新发布模型在 70B 量级的稠密(dense)架构供给相对稀缺,而部分存量 AI 应用在工程实现、效果调优与线上回归体系上,曾围绕 Qwen2.5-72B 与 Llama3-70B 等稠密模型完成了较为充分的验证与沉淀。在此背景下,终端用户更倾向于继续采用已被业务场景验证的“稳定基线”,而非立即迁移至理论能力更强但尚未完成工程 化与业务闭环验证的新模型。

 

换言之,模型选择不仅由模型能力上限决定,也受到迁移成本、线上风险与可验证性约束的共同塑造

 

类似的“版本并存”现象亦体现在同一模型家族内部:尽管 Qwen3-32B 与 QwQ-32B 同属千问系列模型,参数规模接近且 Qwen3-32B 发布时间更晚,但 从调用结构看,Qwen3-32B 尚未完全替代早期的 QwQ-32B。同样地,DeepSeek -V3.1 与 DeepSeek-V3.2 的推出并未完全挤出 DeepSeek-V3 的存量份额。这表 明,模型迭代并不必然带来“单调替换”,而更常呈现为多版本在不同任务偏好、 推理成本与既有集成依赖下的分层共存。

 

报告进一步统计了各开源模型被各个平台的支持程度,按模型所属系列进行聚合。

 

从下图中可见,DeepSeek 是最受服务商欢迎的模型系列。aiping.cn 下共收录 29 家服务商,头部的模型 DeepSeek-V3/R1、DeepSeek-V3.1 均有 23 家服务商支持。如果合并所有支持 DeepSeek 的服务商,共计 24 家服务商支持至少一种 Deepseek 模型。其中的差异是因为 DeepSeek 官方目前仅支持其最新的模型 DeepSeek-V3.2,而不再提供 DeepSeek-V3.1 的服务。

图说:提供各模型 API 调用的服务商的数量

值得一提的是,在模型与服务商高度多样化的背景下,API 服务的核心竞争要素正从“价格差异”转向“交付质量”,包括响应时延、吞吐能力、稳定性与上下文支持等关键指标。

 

同时,报告通过实证数据表明,在同一模型条件下,引入智能路由机制可在保障可用性的前提下,实现显著的性能提升与成本优化,为大模型 API 服务走向规模化、长期化使用提供了可验证的工程路径。

 

在圆桌论坛环节,由硅星人合伙人王兆洋主持,来自产业与应用一线的多位嘉宾围绕模型 API 服务的工程挑战、生态协同与产业发展路径展开深入讨论。

参与讨论的嘉宾包括:智谱首席架构师 鄢兴雨、硅基流动创始人 & CEO 袁进辉、投资人 &公众号 thinkingloop 主理人严宽、蓝耘 CTO 安江华、chatexcel 创始人 & CEO  逄大嵬以及清程极智联合创始人 师天麾。与会嘉宾结合各自在模型研发、平台服务与应用落地中的实践经验一致认为,随着大模型应用不断深化,模型服务正在从“可用”阶段迈向精细化运营阶段,评测体系、服务路由与统一管理能力将逐步成为支撑下一阶段规模化应用的重要基础设施能力。

 

随着 AI Ping 平台的正式发布及生态计划的启动,模型 API 服务这一长期处于“幕后”的关键环节正逐步走向台前。清程极智 CEO 汤雄超表示,未来将通过持续的评测实践与开放协作,推动大模型服务向更加稳定、透明和可持续的方向发展,为人工智能在真实业务场景中的规模化落地提供支撑。

我想在网上购买曼牌( MANN )空气滤芯和空调滤芯,分别在京东、拼多多和抖音三家店铺咨询了是否有适配我车辆的型号。结果得到的回复如下:

  1. 京东曼牌自营:表示暂无适配我车型的滤芯可售。
  2. 拼多多、抖音店铺:均表示有适配我车型的滤芯可选。

我不太理解为什么京东自营会显示没有适配我车的滤芯,而拼多多和抖音上却都有,我对这些信息有些担忧,希望能确认一下到底有没有适配的正品滤芯可以购买。