2026年4月

前段时间想用TG纸飞机收一些技术资讯,结果卡在注册登录环节。

+86手机号登录,提示smsfee,需要购买一周的会员,缴费购买了以后,短信验证码迟迟不来,反复试了好几次都没登上。网上搜了一圈,说是运营商屏蔽了,网上的各种方法也都试了,还是没有登录,挺无奈的。

后来找到一款基于官方12.5.1版本编译的客户端,用了几天,体验不错。

直接登录

下载后按照步骤操作,2分钟登录上,没有smsfee问题,省了不少事。

中文完整

界面内容都是中文,看着舒服,没有乱码。

连接稳定

网络层做了优化,打开后自动连上,不用手动配置参数,不用魔法梯。

功能正常

聊天、看频道、收消息、多账号切换,和官方版一样顺手。消息推送及时,后台也比较稳。

适合什么人

适合不想折腾注册环节的人,适合急需使用但卡在登录步骤的,适合需要稳定中文环境的日常使用者。

总结

作为一款基于官方代码的本地化方案,它在易用性上做了不错的补充。对于想登录使用TG纸飞机的人来说,确实省心很多。

有同样需求的可以试试,操作简单一键登录。

前段时间想用TG纸飞机收一些技术资讯,结果卡在注册登录环节。

+86手机号登录,提示smsfee,需要购买一周的会员,缴费购买了以后,短信验证码迟迟不来,反复试了好几次都没登上。网上搜了一圈,说是运营商屏蔽了,网上的各种方法也都试了,还是没有登录,挺无奈的。

后来找到一款基于官方12.5.1版本编译的客户端,用了几天,体验不错。

直接登录

下载后按照步骤操作,2分钟登录上,没有smsfee问题,省了不少事。

中文完整

界面内容都是中文,看着舒服,没有乱码。

连接稳定

网络层做了优化,打开后自动连上,不用手动配置参数,不用魔法梯。

功能正常

聊天、看频道、收消息、多账号切换,和官方版一样顺手。消息推送及时,后台也比较稳。

适合什么人

适合不想折腾注册环节的人,适合急需使用但卡在登录步骤的,适合需要稳定中文环境的日常使用者。

总结

作为一款基于官方代码的本地化方案,它在易用性上做了不错的补充。对于想登录使用TG纸飞机的人来说,确实省心很多。

有同样需求的可以试试,操作简单一键登录。

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、小米 MiMo-V2.5 系列开启公测:旗舰版对标 Claude Opus 4.6

小米昨天正式宣布 Xiaomi MiMo-V2.5 系列大模型开启公测,涵盖 MiMo-V2.5、MiMo-V2.5-Pro、MiMo-V2.5-TTS Series 及 MiMo-V2.5-ASR 四款产品,并宣布两款主力模型即将全球开源。

MiMo-V2.5-Pro(旗舰,长程 AI 智能体):

  • 对标 Claude Opus 4.6、GPT-5.4,可稳定完成单次近千轮工具调用的长程任务;
  • 4.3 小时完成北大《编译原理》课程 SysY 编译器项目,隐藏测试集取得 233/233 满分;
  • 11.5 小时独立构建含多轨道时间线、音频混合等功能的视频编辑器 Web 应用(8192 行代码);
  • 相比 Kimi K2.6,在同等 ClawEval 基准下节省 42% Token。

MiMo-V2.5(通用,原生全模态 AI 智能体):

  • 原生支持图像、音频、视频多模态输入,Agent 能力全面超越上一代 MiMo-V2-Pro;
  • API 成本较上一代降低约 50%,在 VideoMME、CharXiv、MMMU-Pro 等评测中逼近顶级闭源模型;
  • 相比 Muse Spark,在同等 ClawEval 基准下节省 50% Token

(@APPSO)

2、李飞飞团队最新研究揭示多模态 AI 致命缺陷:没给图片,它照样「看」得头头是道

斯坦福大学李飞飞团队近日发表论文,揭示了当前主流多模态 AI 存在一种系统性缺陷——即便没有收到任何图片,GPT-5、Gemini 3 Pro、Claude Opus 4.5 等前沿模型依然会「自信地」描述图像细节并给出诊断结论。

研究者将这一现象命名为「海市蜃楼式推理」(Mirage Reasoning)。

团队构建了一个名为 Phantom-0 的测试集,将 200 道需要看图才能作答的问题的图片全部拿掉,同时不告知模型。结果显示,所有被测模型在超过 60% 的情况下会「描述」一张根本不存在的图片

若加入常见的评测提示语,这一比率甚至飙升至 90%-100%。在六大主流多模态基准测试上,模型在「无图模式」下平均仍能保留原始得分的 70%-80%,意味着图片本身对最终得分的真实贡献可能只有 20%-30%

更具冲击力的是,团队用 Qwen-2.5 训练了一个仅有 30 亿参数、从未看过任何图片的纯文本小模型,在胸部 X 光问答基准上不仅击败了所有多模态大模型,还将人类放射科医生的平均水平甩开了 10 个百分点以上。

这一缺陷在医疗场景中尤为危险:图片上传失败时,模型不会报错,而是直接输出措辞专业的诊断报告,且内容系统性地偏向心肌梗死、黑色素瘤等需要紧急处置的重症。

针对这一漏洞,团队提出了 B-Clean 清洗框架,将三份权威基准中 74%~77% 的题目判定为「不看图也能答对」并予以剔除,清洗后各模型得分大幅下滑,三分之二的基准出现排名逆转。

论文全文:arxiv.org/abs/2603.21687

(@APPSO)


02 有亮点的产品

1、安防巨头下场做拍学机,萤石 Pika 要做儿童的外挂大脑

视觉安防厂商萤石(EZVIZ)推出首款儿童 AI 相机 EZVIZ Pika。该设备采用自研蓝海大模型并接入豆包、DeepSeek API,将安防级视觉识别技术转化为移动端实时科普工具,实现了从被动监控到主动交互的场景迁移。

  • AI 双引擎架构:内置萤石自研「蓝海大模型」,并集成豆包、DeepSeek 第三方 LLM 接口,支持通过后置摄像头实时识别物体(花卉、昆虫等)并进行自然语言科普讲解
  • 影像硬件规格:搭载前后双 4K 摄像头,支持语音操控拍摄及最高 2x 焦距调节;机身重量 80g,采用圆润化工业设计以适配儿童操作。
  • 边缘计算演进:后续将上线本地版万物识别算法,无需完全依赖云端即可实现特定目标的运动跟踪与记录。
  • 通信与定位模组:集成 GPS + 北斗双模定位系统,支持电信/联通双 4G 网络,并采取「终身免费流量」策略以确保设备始终在线。

放眼整个赛道,伴随着玩家逐渐涌入,拍学机市场正处于大爆发前夜。过去,这个领域缺乏具备硬核底层技术的大厂坐镇;如今,萤石的入局,不仅提升了整个品类的供应链与算法水位,更释放出一个其实已经被反复证明的确切信号:

AI 硬件的下一波红利,将产生在那些能够把大模型能力与特定生活方式进行深度缝合的垂直工具上。


(@深圳湾)

2、Gyges Labs 发布 Vocci 智能戒指:3g 钛合金机身集成多智能体架构,主点位 AI 记忆增强

Gyges Labs 推出 Vocci 智能戒指。该产品取消了健康监测功能,定位为 AI Agent 的物理入口,通过指尖按键实现一键录音、实时「干货」标记及跨平台任务执行(如将语音指令转化为 PPT 并发送邮件),旨在消除手机端 AI 交互的摩擦力。

  • 高密度硬件工程堆叠:在 2.8mm 壁厚、约 3g(12 号戒圈)的钛合金空间内,集成了高保真 MEMS 麦克风、定制低功耗电池及高密度柔性电路板(FPC),壁厚较 Oura 减薄 0.1mm。
  • Anytime-ready 交互逻辑:采用物理按键配合震动马达反馈,支持「盲操作」指令。用户通过短按(标记重点)、长按(触发 AI 指令)、双击(开启录音)控制云端智能体,规避了全时监听带来的隐私风险。
  • 多智能体(Multi-agent)架构:后端集成至少三家主流 LLM,支持将长篇音频自动提纯为「原子化干货」,并可直接调用外部接口执行复杂任务(如自动生成 PPT 并发送至指定邮箱)。
  • 音频性能指标:支持 5 米范围精准收音及连续 8 小时高清录音,录音性能指标对标主流 PC 与智能手机。
  • 主动社交语义设计:侧面设置录音指示灯,在录音状态下常亮。通过视觉信号明确隐私边界,以符合社交礼仪的方式完成信息捕捉。

(@深圳湾)

3、SpeakON 发布 MagSafe AI 实体按钮:集成独立麦克风,支持格式化文本直接注入活跃 App

新加坡初创公司 SpeakON 推出一款 MagSafe 物理 AI 按钮及配套 iOS 应用 该产品通过 硬件端一键唤起语音采集,利用 AI 实时滤除杂音与口语冗余,并将 优化后的结构化文本直接注入当前活动的第三方应用文本框,旨在消除移动端 AI 交互的跨应用摩擦。

  • 免切换文本注入技术:AI 处理后的文本无需通过剪贴板中转,可直接进入 Slack、Gmail、WhatsApp 等当前活跃应用的输入框,实现从语音到目标应用文本的零跳转交付。
  • Attune 功能:上下文语调引擎:内置四种预设模式(Casual、Cordial、Formal、Off),支持根据目标应用场景自动调整输出,具备自动过滤填充词、修正中途转折及语法润色能力。
  • 硬件级独立采集架构:设备重量低于 26.5g,采用专用麦克风(非 iPhone 系统麦克风)进行音频捕捉,支持 USB-C 快充,兼容 iPhone 12 及以上 MagSafe 机型。
  • 语义结构化:具备意图识别功能,可将非结构化的口述内容自动转化为标准的 To-do List、行动项或 Markdown 列表格式。
  • 企业级合规与隐私方案:已通过 SOC-2 Type 2 认证,符合 HIPAA 和 GDPR 标准,核心机制确保音频数据不被存储。

(@prnewswire,@producthunt)

4、Prego 推出 Connection Keeper:无屏幕 IoT 录音设备,支持云同步与美国国会图书馆存档


意面酱品牌 Prego 联合非营利组织 StoryCorps 推出「Connection Keeper」限量版音频采集硬件。该设备旨在通过低摩擦的交互方式捕捉家庭用餐对话,并实现云端备份与国家级数字档案馆的长效保存。


这款限量版「Connection Keeper」是一款简单、无屏幕的对话录音设备,它是圆盘状的,类似于 Prego 意面酱的盖子。把它放置在餐桌中央,用于录制家庭的对话。


它可以录下用餐时自然流露的笑声、故事和珍贵时刻,并将这些录音保存下来,供未来多年重温。全程无需手机、屏幕或其他干扰。

用餐开始时,只需轻敲小盒子,使用可选的对话提示卡,设备便会开始工作。


原始录音会自动保存到内存中,然后同步到 StoryCorps 门户网站的云端,家庭成员可以在那里保存、整理、重新分享和稍后回顾他们的晚餐记录。

它使用 16GB 的 microSD 卡进行录制,最多可存储 8 小时的对话。

StoryCorps 声称,其门户网站(以及所有上传的家庭录音)都受到全面加密和用户隐私控制(尽管具体细节尚未公布)。该门户网站将于 5 月 4 日上线。据该公司称,文件默认设置为私密,但用户可以选择将任何文件上传到 StoryCorps 公共档案馆。更令人兴奋的是,这些录音将被保存在美国国会图书馆,供后代查阅。

(@多知)

03 有态度的观点

1、爱奇艺推 AI 艺人库遭演员集体辟谣,CEO 连发三文:科技永远不是为了取代人

昨天,爱奇艺 CEO 龚宇在微博连发三条帖文,就旗下 AI 艺人库引发的争议公开澄清:

艺人入库仅代表接洽意愿,具体项目与角色仍需单独授权,「跟现在的商业模式没有任何变化」;此前「非遗」一说也并非定论,而是对未来影视形态的开放性探讨。

他同时强调:「科技以人为本,科技永远是为人服务的,科技永远不是为了取代人。」

此前,爱奇艺宣布旗下 AI 创作平台「纳逗 Pro」正式上线 AI 艺人库,已有超过 100 位演艺人士入驻

随后,张若昀、于和伟等多位艺人相继发文辟谣,否认已签署 AI 相关授权,张若昀工作室更表示「法务正在紧急处理」,引起广泛争议。

爱奇艺 CEO 龚宇还在发布会现场提出,未来完全由人类创作的真人实拍影视作品,可能会被命名为「非物质文化遗产」;并表示,演员授权 AI 后可将年接项目数从 2 部提升至 4 部,同时降低工作强度。

这一表述被广泛解读为平台有意以 AI 取代真人演员,引发从业人员和观众集体反弹。

( @APPSO)


04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、Fun-ASR1.5 全民公测,重金悬赏「各种不服」

你的方言,AI 听得懂吗?那些只有业内人才懂的黑话和专业术语,语音识别能扛住吗?Fun-ASR1.5 模型开放全民挑战!无需部署,扫码打开小程序,点击即测。找到的错误越多,离千元大奖越近。来试试看,你能难倒 AI 几次?

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考

最近在折腾本地大模型,发现一个核心问题:Ollama 和 LM Studio 能让模型跑起来,但参数全靠猜——上下文长度、KV cache 类型、MoE expert 放哪、ubatch 多大……用默认参数基本是在浪费显卡。

于是做了个工具自动找最优配置,过程中踩了不少坑,记录一下。


核心发现

1. MoE 模型的 offload 策略决定了一切

Qwen3-30B-A3B 是 MoE 架构,在 8GB 显卡上:

  • LM Studio 默认把所有层塞进显存 → 7549MB ( 93%),3 tok/s
  • 只把 attention 层放 GPU ,MoE expert 层走 CPU → 2603MB ( 32%),21 tok/s

快了 7 倍,显存反而省了 65%。关键是 llama.cpp 支持这个,但你得自己识别哪些 tensor 是 MoE expert (.ffn_.*_exps. 这类命名),然后手动配。

2. KV cache 类型影响比大多数人想的大

同一张 8GB 显卡跑 Llama 3.1 8B ,不同 KV cache 配置速度差异:

配置 ctx 速度
iso3+iso3 ,4 slot 8K 19.4 tok/s
q8_0+q4_0 ,1 slot 8K 38.2 tok/s
f16+f16 ,1 slot 8K 51.7 tok/s
f16+f16 ,1 slot (自动) 64K 26.2 tok/s

f16 比 iso3 快将近 3 倍。但 f16 显存占用更大,所以正确策略是:先算 f16 KV cache 占多少显存,装得下就用 f16 ,装不下再降级。

公式:KV_MB = 2 × layers × kv_heads × head_dim × ctx × bytes / 1024²

3. oobabooga 公式用来预测 ctx 上限

社区里流传的 oobabooga 显存估算公式,原本用来预测装载模型后剩余显存能支持多大 ctx 。但这个公式是基于 q8_0/f16 拟合的,用 iso3 的时候会严重高估显存需求,导致 ctx 只算出 4K 。

最后放弃公式预测,改成二分探测:从 min(nativeCtx, 65536) 开始,OOM 就减半,最多探 5 次,让 llama-server 自己告诉我能跑多少。Llama 3.1 8B 的 ctx 从 4K 直接到 64K 。

4. parallel slot 数量对单用户场景影响巨大

llama.cpp 默认开 4 个并行 slot (为了多用户并发),但单用户场景下这会把 VRAM 分成 4 份。

关掉多余 slot (--parallel 1)之后:18.5 → 38.2 tok/s ,直接翻倍。

5. ubatch 实测比理论更可靠

ubatch 128 vs 512 的性能差异跟模型和显卡都有关系,没有通用最优值。实测结论:

  • 8K ctx:ubatch 512 比 128 快 7.6%
  • 64K ctx:ubatch 512 比 128 快 21.6%

直接 benchmark 两个值取快的,比查文档猜靠谱。

6. 对话压缩不要用模型生成摘要

最初方案是上下文满了之后调本地模型生成摘要——结果单 slot 阻塞,直接超时。

改成纯算法提取:保留头部( system prompt + 首轮对话)和尾部(最近 8K tokens ),中间部分提取代码路径、函数名、文件名、TODO 等关键信息。压缩率 73%,耗时 <1ms 。


用了哪些技术,实现了什么功能

llama.cpp — 推理引擎核心

直接调用 llama.cpp 的 llama-server ,所有参数( ctx 、KV cache 类型、线程数、ubatch 、mlock 、tensor split )都通过启动参数注入。Kaiwu 本质上是一个参数决策层,不改推理引擎本身。

IsoQuant / TurboQuant — 3-bit KV cache 压缩

集成了 johndpope 的 turboquant fork (feature/planarquant-kv-cache),支持 -ctk iso3 -ctv iso3 参数。iso3 的压缩系数实测 0.73 ,理论值 0.75 ,在 VRAM 紧张的设备( 8GB )上可以把 KV cache 占用压缩到 q8_0 的一半。但有约 600MB 固定解码 buffer 开销,VRAM 充裕时反而比 f16 慢 8%,所以策略是 VRAM > 16GB 才默认开 iso3 。

oobabooga 显存估算公式 — ctx 上限预测(已放弃)

社区流传的公式用来预测剩余显存能支持多大 ctx ,基于 q8_0/f16 拟合。iso3 场景下高估显存需求,导致 ctx 只算出 4K 。最终改成二分探测代替公式,让 llama-server 自己决定能跑多少。

GQA 架构识别 — KV cache 精准估算

Qwen3 等新模型用 GQA ( Grouped Query Attention ),kv_heads 远小于 attention_heads 。KV cache 大小公式里用的是 kv_heads 而不是 heads ,不识别这一点会高估 3-4 倍。通过读 GGUF metadata 拿到准确的 kv_heads 值再做计算。

MoE tensor 识别 — 自动 expert offload

读取模型的 tensor 名称列表,匹配 .ffn_.*_exps. 模式识别出 MoE expert 层,自动决定把这部分路由到 CPU 。不需要用户手动指定,也不需要提前知道模型架构。

Extractive Summary — 零延迟对话压缩

上下文到 75% 时触发,纯算法提取:保留 system prompt 、首轮对话、最近 8K tokens ,中间部分按关键词权重保留(代码路径、函数名、文件名、TODO 、命令行等)。不调用任何模型,压缩耗时 <1ms ,73% 压缩率。最初试过调本地模型生成摘要,单 slot 阻塞直接超时,这条路走不通。

GitHub Actions CI — 跨平台自动编译

turboquant fork 需要自己编译带 iso3 支持的 llama-server 。用 GitHub Actions 同时编译 Windows ( MSVC )和 Linux ( GCC )版本,CUDA 12.4 ,覆盖 sm_75/80/86/89 架构,RTX 50 系列通过 PTX JIT 运行时支持。踩了三个 MSVC 编译坑( extern "C" 声明改定义、M_PI 未定义、全局符号缺失),记录在 PROGRESS.md 里。


工具

把上面这些逻辑都自动化了,叫开物( Kaiwu )。一行命令启动,参数全部自动找,结果缓存起来,第二次 2 秒启动。

GitHub: https://github.com/val1813/kaiwu

OpenAI 兼容 API ,Continue / Cursor / Claude Code 直接接。


有遇到类似问题的欢迎交流,尤其是 MoE offload 和 KV cache 这块踩坑挺深的。

procexp64.exe是 Process Explorer​ 的主程序文件,它是微软出的“加强版任务管理器”,能查进程、看句柄、分析程序卡死原因,做运维、开发的经常用。

    • *

一、准备工作

  1. 下载程序

  2. 确认系统版本

    • 只适合 64 位 Windows(Win7/Win10/Win11),32 位系统请用 procexp.exe
  3. 解压到固定位置

    • 建议解压到 D:\Tools\ProcessExplorer这种目录,别放在桌面临时用。
    • *

二、使用方法(无需安装)

  1. 进入解压后的目录,找到 procexp64.exe
  2. 右键 → 以管理员身份运行(非常重要,否则很多功能用不了)。
  3. 第一次打开会问你是否同意授权 → 点  “Agree”
  4. 主界面就出来了:

    • 上半部分是进程列表(类似任务管理器)。
    • 下半部分默认显示该进程的 句柄(Handle) ​ 和 DLL 模块
    • *

三、常用操作

  1. 查看进程详细信息

    • 双击某个进程,会弹出属性窗口,能看到线程、内存、安全、环境变量等信息。
  2. 查找哪个进程占用了文件

    • 点菜单 Find → Find Handle or DLL…(或按 Ctrl+F)。
    • 输入文件名(比如 test.txt),回车,就能看到是哪个进程占着它。
  3. 强制结束顽固进程

    • 右键进程 → Kill Process(结束进程)。
    • 还不行就右键 → Kill Process Tree(结束进程树)。
  4. 替换系统任务管理器

    • 菜单 Options → Replace Task Manager,勾选后按 Ctrl+Shift+Esc就会打开 Process Explorer

最近一段时间,我一直在琢磨一件事:AI 助手到底什么时候才能真正“用起来”,而不是只停留在聊天框里。能写文案、能回答问题当然已经很强了,但如果它只能等你打开网页、输入问题、复制结果,那它更像一个高级工具,而不是一个真正能长期协作的助手。

直到我折腾了一下 Hermes Agent,我才第一次有了点“这玩意儿开始像助手了”的感觉。

先说结论:它最打动我的,不是模型多强,也不是界面多炫,而是它终于把“部署、接入、持续使用”这三件事,尽量拉到了普通人也能接受的门槛。无论是放在腾讯云上,还是直接本地跑起来,都比我预想中顺手。尤其是接入微信之后,那种感觉会特别明显——AI 不再是一个你得专门打开的网站,而是变成了一个你随时能在熟悉入口里喊一声就出现的存在。

这件事为什么重要?因为过去很多 AI 产品,最大的问题不是“能力不够”,而是“离生活太远”。你要记得去打开它,记得切到那个窗口,记得把问题重新组织一遍。时间久了,人还是会回到最熟悉的工作流:微信、文档、浏览器、群聊。工具一旦不能自然嵌进去,使用频率就会迅速下降。

而 Hermes Agent 给我的第一感受,就是它在尽量缩短这段距离。

比如部署这件事,以前一提到“自己搭一个 AI 助手”,大多数人的第一反应就是:麻烦、配置多、容易踩坑、维护成本高。尤其是涉及到服务器、接口、消息通道、权限这些东西,听着就让人头大。但 Hermes Agent 至少把“一键部署”这个事情做得更像一件能完成的任务,而不是一个只适合技术玩家的周末项目。腾讯云上跑,适合希望稳定在线、随时可用的人;本地部署,则更适合想自己掌控数据、灵活折腾的人。两种路径都给了,不会把人逼到某一种选择里。

这种设计思路我挺认可。因为真正想长期使用 AI 的人,需求差异其实很大。有人要省心,有人要隐私,有人要稳定,有人要低成本。一个产品如果只能服务其中一类人,最后很容易变成小圈子自嗨。Hermes Agent 至少在入口上没有把门关死。

但如果只是“能部署”,那还不够。让我觉得它有意思的,是接入微信之后带来的变化。

微信本身就是很多人的信息中枢。工作沟通、个人交流、文件传递、群消息、提醒,几乎都在那里发生。AI 一旦能进入这个环境,它的角色就变了。你不再需要刻意“去用 AI”,而是在原本的沟通流里,顺手就能让它帮你做事。比如整理一段想法、润色一条消息、总结一篇文章、提炼会议重点,甚至帮你把零散信息变成一份可执行清单。这个体验非常关键,因为它让 AI 从“偶尔使用的能力”变成“高频协作的接口”。

更重要的是,它让我第一次认真意识到一个方向:AI 助手的价值,不在于它回答得多像人,而在于它能不能随着使用越来越懂你。

我理解很多人说的“自我进化”,并不是那种玄乎其玄的概念,也不是什么自动觉醒。更实际一点,它应该包括几层意思:

第一,它能逐渐记住上下文。你之前说过什么,你的表达习惯是什么,你更偏好什么样的输出风格,它不是每次都从零开始。

第二,它能积累任务经验。什么事情你经常让它做,什么格式你更喜欢,什么信息对你来说是重要的,它能在反复协作中慢慢变准。

第三,它能融入你的真实工作流。不是你去迁就它,而是它进入你的消息、文档、日程、提醒这些日常场景里,真正成为一个长期陪跑的角色。

如果从这个角度看,Hermes Agent 的意义就不只是“又一个 AI 应用”,而更像是把 AI 助手往“可部署、可接入、可长期协作”的方向推了一步。

当然,我也不想把话说得太满。现在市面上很多产品都喜欢讲“智能体”“自主执行”“持续进化”,听起来很热闹,但真实体验往往还在早期阶段。Hermes Agent 也一样,它不可能一下子就变成一个无所不能的数字分身。你还是需要给它边界、给它规则、给它明确的目标。它的能力上限,很大程度上仍然取决于模型、配置和使用方式。

但我觉得,方向对了,比一开始就完美更重要。

因为 AI 助手这个东西,真正难的从来不是做一个演示版,而是做成一个你愿意天天用、能不断积累价值的系统。部署简单,意味着更多人愿意开始;接入微信,意味着它真正进入生活;而“越用越懂你”,则意味着它不再只是一次性工具,而可能慢慢变成你的数字搭子。

这也是为什么 Hermes Agent 最近会火。不是因为大家突然又被某个新名词点燃了热情,而是因为越来越多人开始意识到:AI 的下一阶段,不只是比谁更会答题,而是比谁更像一个真正能落地的助手。

如果说前两年的 AI 更像“你去体验它”,那现在大家想要的,其实是“它来协助你”。这个差别看起来不大,但背后对应的是完全不同的产品逻辑。

所以在我看来,Hermes Agent 值得关注的地方,不是它喊了多大的口号,而是它确实把几个关键环节连起来了:部署、接入、使用、积累。它还远没到终局,但已经让人看见了 AI 助手该往哪里走。

而一旦这种形态跑通,未来我们跟 AI 的关系,可能真的会从“临时问答”,慢慢变成“长期协作”。

这件事,本身就已经很值得期待了。

4 月 22 日,继 Qwen3.6-35B-A3B 开源后,Qwen 团队带来了该系列模型中社区呼声更高的版本——Qwen3.6-27B 。这个拥有 270 亿参数的稠密多模态模型,支持多模态思考与非思考模式,在智能体编程方面达到了「旗舰级」表现。
具体而言,Qwen3.6-27B 在 WE-bench Verified(77.2 vs. 76.2)、 SWE-bench Pro(53.5 vs. 50.9)、 Terminal-Bench 2.0(59.3 vs. 52.5)以及 SkillsBench(48.2 vs. 30.0)等主要编程基准测试中,均全面超越前代开源旗舰 Qwen3.5-397B-A17B 。同时,其也大幅领先于同规模的稠密模型。在推理任务上,Qwen3.6-27B 在 GPQA Diamond 上取得了 87.8 的成绩,可与数倍于其规模的模型相媲美。
图片
此外,Qwen3.6-27B 原生支持多模态,支持视觉语言思考与非思考模式——与 Qwen3.6-35B-A3B 相同。它能够处理图像、视频与文本的多模态理解,支持视觉推理、文档理解和视觉问答等任务。

目前,HyperAI 官网(hyper.ai)的教程板块已经上线了「一键部署 Qwen3.6-27B」,完成环境配置,助力快速验证热门开源模型!

在线运行:https://go.hyper.ai/pYbes
图片
demo 效果示例,基于 prompt 生成可交互的重力模拟沙盒更多

在线教程:https://hyper.ai/notebooks

欢迎登录官网查看更多内容:https://hyper.ai

Demo 运行

  1. 进入 hyper.ai 首页后,选择「教程」页面,或点击「查看更多教程」,选择「一键部署 Qwen3.6-27B」,点击「运行此教程」。
    图片

图片

  1. 页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。
    注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。
    图片
  2. 选择「NVIDIA RTX 5090 -4」以及「vLLM」镜像,点击「Continue job execution(继续执行)」。
    HyperAI 为新用户准备了注册福利,仅需 $1,即可获得 20 小时 RTX 5090 算力(原价 $7),资源永久有效。
    图片

图片

  1. 等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace 。
    图片

    效果展示

    1.页面跳转后,点击左侧 README 文件,进入后点击上方 Run(运行)。
    图片

图片
2.待运行完成,根据 README 提示启动 Open WebUI 后,即可点击右侧 API 地址跳转至 demo 页面。
图片

图片

​Avantage是一款XPS数据分析软件,拥有数据采集、定量分析、元素鉴别、分峰拟合等功能,并且可以将数据导出成各种格式

一、准备工作

安装包下载:https://pan.xunlei.com/s/VOqzDdOquUW96dtxkAONsPqNA1?pwd=tsst#,先下载好【Avantage6.9.0】压缩包,保存到电脑本地(内含安装程序和注册脚本)。

二、安装 Avantage 6.9.0

  1. 解压安装包

    找到下载的【Avantage6.9.0】压缩包,右键点击 → 选择【解压到Avantage6.9.0】。

  2. 运行安装程序

    打开解压后的文件夹,右键【Setup】→【以管理员身份运行】。

  3. 按向导安装

    • 点击【Install】进入准备阶段;
    • 连续点击【Next】→ 勾选【I accept...】→【Next】;
    • 保持默认设置,连续点击【Next】;
    • 选择【No, I will...】(暂不关联设备)→【Next】;
    • 点击【Finish】开始安装组件。

三、注册激活(30天有效期)

  1. 执行注册脚本

    • 打开解压后的【Avantage6.9.0】文件夹,双击【注册】批处理文件;
    • 弹出用户账户控制提示时点击【是】;
    • 看到“注册成功”提示后点击【确定】。
  2. 启动软件

    • 双击桌面【Avantage】图标打开软件;
    • 若界面正常加载无激活提示,则安装成功。

AriaX Screenshot 1


AriaX:Apple 用户的终极下载管理器

AriaX 是一款专为 Apple 生态( macOS 与 iOS )打造的现代化、高性能下载管理器。我们使用 SwiftUI 从零开始构建,旨在将 aria2 强大的全协议下载能力与原生 App 的极致优雅完美结合。

AriaX Screenshot 2

下载地址

为什么选择 AriaX ?

  • 原生与现代: 完全基于 SwiftUI 开发,拥有丝滑的交互体验和完美的系统集成感,适配最新的 macOS 与 iOS 特性。
  • 零配置上手(完整版): 内置预配置的 aria2 核心引擎。无需打开终端,无需研究配置文件,安装即用。
  • 双重管理模式: 既可以作为本地下载器,也可以通过 JSON-RPC 远程管理您的 NAS 或服务器上的下载任务。
  • 深度系统集成:
    • Safari 浏览器扩展: 官方提供的 Safari 插件,支持一键推送任务。
    • 智能 URL Scheme: 支持 ariax:// 协议,方便与其他自动化工具联动。
  • 全球化支持: 完整支持中(简/繁)、英、日、德、法等 10 多种主流语言。
  • 双版本策略:
    • AriaX (完整版): 内置下载引擎,通过官网 DMG 分发,性能最强。
    • AriaX Lite: 纯远程管理客户端,可通过 Mac App Store 安全下载。

安装指南

  1. AriaX (完整版): 从官方渠道下载 .dmg 安装包。该版本内置了完整的下载引擎,开箱即用。
  2. AriaX Lite: 在 Mac App Store 搜索 "AriaX" 下载。适合已有远程 aria2 服务的老用户。

浏览器集成

通过以下步骤开启 Safari 插件,提升下载效率:

  1. 打开 AriaX -> 设置 -> 浏览器集成
  2. 点击 启用 Safari 扩展 按钮。
  3. 在弹出的 Safari 设置中勾选 AriaX Extension
  4. 之后在 Safari 中右键点击任何链接,即可看到“通过 AriaX 下载”选项。

隐私与安全

AriaX 始终将用户隐私放在首位。我们不会收集您的下载历史、敏感配置或服务器凭据。所有数据均存储在您的本地设备上,或在您开启同步后存储于您的私有 iCloud 容器中。


以一个业余观影者的角度来看,画面、运镜都很好,有些系列故事延续性也很棒。
但是音效真的恼人,耳测,音效音量和影片任务正常对话的音量至少差了一倍以上。约等于旁边一个八十岁老太跟你贴耳说话的时候,民乐团的喇叭在你耳旁响起的感受。很离谱。

作者  | 文朋

项目管理始终是企业提升生产效率的重要抓手。

但长期以来,大多数项目管理工具解决的,更多只是记录、同步与协同层面的表层问题:把需求记下来,把任务挂上去,把流程放进系统里。

一旦进入真实业务深水区,排期是否合理、依赖是否清晰、风险能否提前暴露,仍然高度依赖人的经验去判断、协调和补位。这也带来一个尴尬的现实:尽管工具迭代多年,企业项目交付效率始终没有实现质变。

随着 AI 浪潮到来,越来越多企业开始尝试把 AI 引入项目管理,用于写总结、做分析、辅助排期等单点提效。但如果 AI 与项目工具之间仍只是“外部协作”关系,停留在流程之外,就很难触及项目管理最核心的执行链路。

正如飞书项目负责人洪涛在飞书项目生态日上所说,未来的工作场景中,很大一部分操作可能不再由人一步步点击完成,而是由 Agent 去操作软件。

image

这意味着,项目管理工具若想真正实现提效,就不能只负责“记录”,更要负责“连接”。只有当 AI 能够连接业务流程中的数据与上下文,读懂任务之间的关系、流程状态以及背后的业务语境,AI 才有可能深度参与风险识别与动作承接。

4 月 23 日,在飞书项目“生态日”上,飞书项目发布了一系列新能力,包括 MCP(模型上下文协议)、CLI(命令行工具)等底层开放接口,以及 AI 节点、AI 字段、原生 AI 助手等场景化能力。

这些变化释放出一个明确信号:飞书项目正在进一步结构化流程、数据与协作关系,让 AI 真正进入项目流程,使其成为一个能够承接 AI 落地的项目底座。

一、项目管理平台的需求,正被 AI 改写

如今,客户对项目管理平台中 AI 的期待已经非常明确:他们要的不是一个“会聊天”的助手,而是一个能够接入流程、参与执行、真正推动项目向前的能力。

“去年,很多客户在采购研发项目管理软件时,对 AI 的关注还没有这么强;但到了今年,AI 已经成为决策前必须评估的一项能力。”飞书项目商业化负责人杨波在接受采访时表示,如今在售前阶段,客户已经会主动了解 AI 能力、产品路线图,甚至直接做能力测试。

这背后反映出,企业对 AI 的需求正在从“会生成”转向“会执行”。在项目管理场景里,客户当然希望 AI 能写总结、做分析,但更核心的期待,是它能真正进入流程,更早识别风险,承接文档撰写、数据录入、状态维护等高频重复工作,帮助团队持续推进项目。

而在这方面,飞书项目已经做了较为充分的准备。

过去几年,飞书项目持续帮助客户把需求、缺陷、流程、节点、状态等信息结构化沉淀下来。对 AI 来说,真正关键的从来不只是模型能力,而是是否具备高质量、可读写、可治理的数据基础。

与此同时,由于飞书项目并不是一套写死的标准数据模型,而是允许客户根据自身业务去定义和配置工作项、流程、字段和表单等。这意味着,AI 在飞书项目面对的是更贴近真实业务现场的结构化、语义化信息,也更容易理解上下文并准确执行动作。

这也是飞书项目能够承接 AI 落地的重要原因。根据 2026 年赛迪报告,在 2025 年销量前十的新能源乘用车品牌中,已有 7 家选用飞书项目;在软件研发管理 SaaS 和 IPD 管理 SaaS 领域,飞书项目也分别以 46.8% 和 68.6% 的市场份额位居第一。

值得注意的是,飞书项目此次在生态日上推出的一系列新能力,正是在进一步释放这种“执行力”。

二、飞书项目将平台重构为更“AI 友好”的基础设施

这次发布中,一个值得关注的信号是,飞书项目正在围绕“AI 友好”推动平台演进。从产品视角看,其底层架构已呈现出明显的“面向 AI 重构”的方向。

例如,为了让 AI 更深入地进入真实业务流程,飞书正式开源了“飞书项目 CLI”。

图片

它是一款命令行工具,能够帮助个人或 AI 工具更高效地访问和操作飞书项目中的各类数据。基于这项能力,AI 可以在授权范围内完成与飞书项目相关的读取、查询、创建与更新操作。

例如,AI 可以查询待办、需求、任务、评论、工作流和排期等信息;查看工作项详情、当前状态及流程节点;创建需求、任务和子任务;更新标题、优先级、状态、评论等字段;还可以在关键修改前先生成预览,确认后再执行。

一旦 AI 进入真实项目流程,它面对的就不再是单轮问答,而是大量高频、低成本、可自动化的操作需求。CLI 的价值,恰恰在于提供了更强的批量处理能力、更稳定的调用链路,以及更低的 token 消耗。

尤其是“渐进式披露更省 token”这一设计,很能说明飞书项目对 AI 真实使用场景的理解:它考虑的并不是 demo 能不能跑,而是当调用规模放大后,成本和稳定性是否依然可控。

如果说 CLI 是 AI 的“手”,那么 MCP(Model Context Protocol)的优化,就是在为 AI 提供一套更适合调用项目系统的“语义标准”。

它的意义并不只是把 OpenAPI 再包装一层,而是围绕 AI 的调用方式,重新设计了一套更适合智能体使用的接口体系。

image

一方面,它支持更安全的授权方式,让 AI 能在可控权限下完成数据读写;另一方面,它的数据传导方式也更自然,不再过度依赖 ID、Key 这类 AI 容易出错的参数;同时,查询语言更接近 SQL,从而降低了 AI 理解和生成查询的门槛。

更重要的是,它并不是简单地“把数据交给 AI”,而是更贴近任务场景地告诉 AI:哪些是待办,哪些是已办,哪些与个人相关,哪些与团队相关。目前,飞书项目 MCP 已提供 40 多个工具,并仍在持续扩展。

至于开源通信协议 AAMP,它解决的则是平台应用、本地 Agent 与不同运行环境之间的通信协同问题。

这意味着,在 Agent 连接这件事上,飞书已经开始从技术底层打通链路,让 Agent 不只是停留在平台内部,而是能够与企业现有的 AI 工具、本地环境和工程系统实现真实联动。

三、在开放能力之上,飞书项目把 AI 接入了流程骨架

如果说 CLI 和 MCP 解决的是“连接”问题,那么 AI 节点、AI 字段与 AI 助手强化的,就是 AI 如何真正深入项目流程并承担具体执行任务。

其中,AI 节点的意义尤其突出。它让 AI 从流程外走进流程内,成为流程中的一个行动单元,帮助团队厘清复杂项目中的流程关系与环节职责,并承担预审、分析、测试用例生成等明确工作。

更关键的是,飞书首次取消了“要想使用开放能力,必须由管理员先安装”的限制。节点负责人可以直接把自己负责的节点转化为 AI 节点,让 AI 协助任务完成;如果效果不理想,还可以重新运行并持续优化。

AI 字段功能也迎来了更适配项目管理的更新。

过去,很多 AI 的使用方式本质上仍停留在个人 prompt 技巧层面,经验散落在个体手中,既难复制,也难规模化。

这一次,AI 字段则把这件事往前推进了一步:它把一次性指令升级为一种带模板、带应用市场、带快速创建能力的开放形态。企业既可以把有效经验沉淀下来,也可以先在视图中临时使用,而不必一开始就贸然写回正式字段。

至于原生 AI 助手,作为开箱即用的通用 Agent,则被打造为飞书项目 AI 能力的统一入口。

它可以直接围绕项目管理的核心场景提供官方能力:无论是快速生成报告、洞察项目风险、创建需求、完成节点流转,还是了解产品功能用法,都可以通过这一入口完成。

image

更重要的是,在整个分析过程中,它始终只会在授权范围内、基于用户可读取的数据进行分析与生成。用户也可以把任务交给它处理,即便关闭页面,它仍然能够继续执行。

从这些能力可以看到,飞书项目正在构建一种更贴近真实业务、也更具 “AI 原生”特征的应用模式。

在真实项目环境里,传统平台通常是“少数人配置、其他人使用”;但 AI 应用的扩散路径并不是这样。AI 落地往往会经历一个更现实的过程:试点、调整、小闭环、扩展、标准化。

真正困难、也真正有价值的,正是把一次次局部提效沉淀为组织级能力。

飞书项目的独特之处在于,它正在把这一过程完整接住:个人和小团队可以低门槛试点;试点过程中可以按项目、按角色灵活调整;经验成熟后,可以进一步沉淀为模板、流程和 SOP;再往后,还能推广到团队、部门乃至整个公司。

四、开放能力开始转化为真实成果

一个平台是否真正跑通,不能只看它发布了多少能力,更要看这些能力是否已经长出真实成果。

一个很强的信号是,去年飞书项目开放平台上已经出现了 100 多款 AI 相关应用,而且其中很多并非官方开发,而是客户自行构建的。

这说明飞书项目的开放底座已经足够成熟,足以让一线团队先跑起来。这也解释了为什么 MCP 和 CLI 的推广会比较快:并不是平台单向推动,而是那些最有 AI 意识、最有动手能力的人,已经开始主动把它们用起来。

飞书在生态日大会上披露的数据显示,已有接近 500 家租户在高频使用相关能力,月活用户数超过 6000,对飞书项目的操作次数累计超过百万次。

从客户案例来看,当 AI 真正进入流程后,项目交付方式和效率也在发生明显变化。

例如,词元无限让 Agent 沿着需求理解、方案生成、任务拆解、代码执行、测试生成一路推进,最终把原本需要 7 到 10 人天的工作压缩到 1 到 2 人天。

雅迪的实践,则把周报月报自动生成、历史经验检索、会议质检和预评审等高频工作串联起来。这也说明,AI 在项目管理中最先接管的,往往不是最终决策,而是那些高频、重复、规则相对清晰的环节。

轻舟智航的案例则展示了另一种更符合企业现实的落地方式:测试问题的记录、分诊、分派与闭环,被做成了一条更顺滑的流程链路。AI 先帮助缩小问题范围、给出候选建议,再由人工验收关键链路。

Zadig 的价值则更进一步。它不只是简单打通项目管理系统,而是把“管理域”和“工程域”真正连成了一条链:开发变更即记录,测试执行即同步,发布审批即发布,并叠加 AI 发布风险检测。

最终结果是,发布效率提升 3 倍,交付周期缩短 35%,故障恢复时间下降 50%。

这些案例说明,飞书项目的价值已经不再只是看板管理,而是真正开始承接并提效企业的项目执行。

当然,飞书开放能力更重要的地方,不只是让客户“使用”,更是让更多角色开始“建造”。

例如,爪印基于飞书项目轻应用能力自研 FlowStack "流程资产仓库",已沉淀 200 多个标准节点、50 余项流程模板,再结合 AI coding 等能力,可以快速开发高频小工具。这说明,项目经理和业务角色已经不再只是提需求的人,他们也可以直接把自己的业务理解转化为可复用资产。

高远则基于飞书项目开发了 ASPICE 插件,并已进入 15 家大型智能汽车企业,在国内智能驾驶 Top20 企业中覆盖过半。这也说明飞书项目的开放能力并不只是支撑 demo,而是已经能承接行业级、专业级的复杂场景。

再结合客户成功、实施体系、专家认证以及 AI 咨询伙伴等配套能力的推进,显然,飞书项目想做的已经不只是“卖一个项目管理功能”,而是在形成一整套可交付、可复制、可持续增长的 AI 落地机制。

这也是飞书项目在 AI 时代真正的分量所在:它正通过项目管理,为企业搭建一个真正让 AI 开始工作的项目底座。

背景与价值

在云原生和微服务架构日益普及的今天,可观测性数据(日志、指标、链路追踪)呈爆炸式增长。观测云 OpenAPI 数据查询接口为开发者和运维团队提供了一种编程化、自动化获取这些高价值数据的能力,例如:

  • 自动化数据查询:将观测云数据集成到内部系统或第三方平台;
  • 构建自定义仪表盘:根据业务需求灵活展示监控数据;
  • 实现数据联动:打通观测云与企业内部的数据分析流程;
  • 批量数据处理:高效获取大规模监控数据进行离线分析。

OpenAPI 概览

观测云将 OpenAPI 作为开放能力的关键构成,支持工作空间配置和数据查询,通过请求头中附加的基于角色的 API Key 进行认证鉴权,默认请求频率限制为同一 API Key 每分钟最多请求 20 次、同一工作空间每分钟最多请求 200次。接入点和请求头等请参考官方文档 https://docs.guance.com/open-api/

前置条件

  • 创建 API Key:确保登录用户有所需的操作权限。登录观测云控制台,点击【管理】-【API Keys 管理】-【新建 Key】,填写名称与角色,本实践仅使用数据查询接口,因此使用内置角色 “Read-only”。

图片

  • 调试 DQL:数据查询接口通过传入 DQL 查询语句进行查询,建议在调用接口之前确认查询语句,完整语法请参考 https://docs.guance.com/dql/ ,可以在观测云界面的查询工具中进行调试,点击快捷方式 -【查询工具】,选择 DQL 查询模式,支持语法校验和自动补全:

图片

数据查询接口

基本信息

  • 方法:POST
  • 接口:/api/v1/df/query_data_v1

请求参数解析

queries,为 query 对象组成的列表,每个 query 对象中包含独立的 DQL 语句,依次实现单次请求返回多组查询结果,以下是单个 query 对象的关键参数:

序号参数类型是否必填描述
1$.queries[*].qtypeString默认为 dql,可选:dql:DQL 类型查询promql:PromQL 类型查询
2$.queries[*].query.qString查询语句
3$.queries[*].query.timeRangeArray执行查询的时间范围,默认值最近 30 分钟,毫秒时间戳列表:[start_time, end_time]
4$.queries[*].query.intervalInt聚合时间分片间隔,单位秒
5$.queries[*].query.offsetInt分页偏移量,DQL 语句中的子句优先级高于此参数
6$.queries[*].query.limitInt分页大小,DQL 语句中的子句优先级高于此参数
7$.queries[*].query.orderbyArray排序列表,默认按照输出的 time 字段降序排列,DQL 语句中的子句优先级高于此参数
8$.queries[*].query.cursor_timeInt分段查询阈值,第一次分段查询时设置为 timeRange 中的 end_time,此后的分段查询,将 cursor_time 设置为响应中的 next_cursor_time 字段的值,next_cursor_time 为 -1 时表示无新数据,注意,分段查询仅在存储引擎为 GuanceDB 3.0 时生效
9$.queries[*].query.cursor_tokenString在分段查询中,将 cursor_token 设置为响应中的 next_cursor_token 字段的值,以确保相同时间戳的数据不被分段跳过,注意,分段查询仅在存储引擎为 GuanceDB 3.0 时生效
10$.queries[*].query.disable_samplingBool是否禁用采样,默认 false,仅对部分聚合类查询生效
11$.queries[*].query.ignore_cacheBool是否禁用缓存,默认 false
12$.queries[*].query.disableMultipleFieldBool是否禁用单列模式,默认为 true,打开单列模式可有效减少返回数据的体积,为 false 时 $.queries[*].query.funcList 参数将失效

场景解析

数据查询场景和查询方法分类如下,需根据不同的查询类型合理配置查询参数:

图片

示例一:查询指定 Span 的平均耗时(获取聚合后的数据)

请求体,参数说明见注释:

{
    "queries": [
        {
            "qtype": "dql",
            "query": {
                "q": "R::resource:(AVG(`duration`) AS `avg(duration)`) { `service` = 'demo' AND `resource` = 'GET /health' }",
                "interval": 60, // 查询时间范围内每 60 秒聚合一个值
                "offset": 0,
                "limit": 500,
                "orderby": [
                    {
                        "time": "desc"
                    }
                ],
                "timeRange": [
                    1774144800000, // 2026-03-22 10:00:00
                    1774145100000  // 2026-03-22 10:05:00
                ],
                "disable_sampling": true // 禁止聚合采样
            }
        }
    ]
}

响应体,仅包含重要返回数据及其注释:

{
    "code": 200, // 状态码,与 HTTP 响应码保持一致,无错误时固定为 200
    "content": { // 接口响应数据
        "data": [
            {
                // ...
                "next_cursor_time": -1,  // 下次请求的 cursor_time,因本次查询为聚合查询,返回为 -1
                "next_cursor_token": "", // 下次请求的 cursor_token,因本次查询为聚合查询,返回为空
                // ...
                "sample": 1,             // 采样率,为 1 表示采样率 100%,即未采样
                // ...
                "series": [              // 数据查询结果
                    {
                        "column_names": [
                            "time",
                            "avg(duration)"
                        ],
                        "columns": [
                            "time",
                            "avg(duration)"
                        ],
                        "units": [
                            null,
                            "time,ns"
                        ],
                        "values": [                 // 每间隔一个 interval 秒聚合一个数据点
                            [
                                1774145040000,      // 2026-03-22 10:04:00
                                1462101213.4054055
                            ],
                            [
                                1774144980000,      // 2026-03-22 10:03:00
                                520552891.31707317
                            ],
                            [
                                1774144920000,      // 2026-03-22 10:02:00
                                403010784
                            ],
                            [
                                1774144860000,      // 2026-03-22 10:01:00
                                496579998.11764705
                            ],
                            [
                                1774144800000,      // 2026-03-22 10:00:00
                                608395087.6444445
                            ]
                        ]
                    }
                ],
                "window": 60000
            }
        ],
        // ...
    },
    "errorCode": "",                              // 错误码,空表示无错误
    "message": "",                                // 错误信息
    "success": true,                              // 接口调用状态,为 true 时表示调用成功
    "traceId": "69bfdf42000000001ac3936f1436ac54" // 请求的跟踪 ID
}

示例二:获取指定类型的所有 Span(获取原始数据)

采用分段查询方式,请求体,参数说明见注释:

{
    "queries": [
        {
            "qtype": "dql",
            "query": {
                "q": "R::resource:(`*`) { `service` = 'demo' AND `resource` = 'GET /health' }",
                "limit": 1,                   // 分段大小为 1
                "cursor_time": 1774145100000, // 初始请求取 timeRange 中的结束时间,后续请求取响应中的 next_cursor_time 的值
                "cursor_token": "",           // 初始请求取空值,后续请求取响应中的 next_cursor_token 的值
                "orderby": [
                    {
                        "time": "desc"
                    }
                ],
                "timeRange": [
                    1774144800000, // 2026-03-22 10:00:00
                    1774145100000  // 2026-03-22 10:05:00
                ]
            }
        }
    ]
}

响应体,仅包含重要返回数据及其注释:

{
    "code": 200, // 状态码,与 HTTP 响应码保持一致,无错误时固定为 200
    "content": { // 接口响应数据
        "data": [
            {
                // ...
                "next_cursor_time": 1774145099284000, // 将值作为下次请求的 cursor_time
                "next_cursor_token": "1774145099284000000-R_1774145099284_d6vksl01so5nqftmhv20", // 将值作为下次请求的 cursor_token
                // ...
                "series": [ // 数据查询结果
                    {       // 将以单列的方式输出一条原始数据的所有字段,示例响应仅保留了 __block_id 字段,禁用单列模式时,列名、列值等分别作为一个单独的数组
                        "column_names": [
                            "time",
                            "__block_id"
                        ],
                        "columns": [
                            "time",
                            "__block_id"
                        ],
                        "units": [
                            null,
                            null
                        ],
                        "values": [
                            [
                                1774145099284,
                                2135893696351448600
                            ]
                        ]
                    },
                    // ...
                ],
                // ...
            }
        ],
        // ...
    },
    "errorCode": "",                              // 错误码,空表示无错误
    "message": "",                                // 错误信息
    "success": true,                              // 接口调用状态,为 true 时表示调用成功
    "traceId": "69bfec720000000042c950e749998eff" // 请求的跟踪 ID
}

最佳实践

  • 权限最小化:为不同的应用场景(如报表系统、告警机器人)创建独立的 API Key,并赋予最小必要权限;
  • 避免触发 API 限流:一次请求中包含多条查询语句,尽量在应用层增加历史数据缓存;
  • 错误处理:必须对 API 返回的错误进行处理,例如实现指数回退重试机制;
  • 监控请求 OpenAPI 的服务:确保相关业务健康运行;
  • 在接口参数中设置聚合间隔和排序字段,而非在 DQL 中设置:DQL 支持以时间子句设置聚合间隔,但是 API 返回的点数受到优先级规则限制,只有 interval 参数和时间子句中的间隔保持一致时才能获得符合预期的结果,因此,建议使用 API 参数设置聚合间隔和排序方式,在其他场景中,如果 API 参数与 DQL 子句功能重复,仍然建议优先使用 API 参数而非 DQL 子句,利于编码且语义统一;
  • 获取原始数据时关闭单列模式,以减小响应体的体积:请求时设置 disableMultipleField=false 即可关闭单列模式,注意,此时用于聚合查询的 funcList 参数将失效。

总结

本文档围绕观测云 OpenAPI 数据查询接口展开,介绍了其在云原生可观测场景下的应用价值,说明了接口认证、限流规则及创建 API Key、调试 DQL 语句等前置准备,详细解析了 /api/v1/df/query_data_v1 接口的请求参数,并通过聚合数据查询、原始数据分段查询两个典型示例展示使用方法,最后给出权限、限流、错误处理等方面的最佳实践,可帮助开发者快速接入并规范使用该接口实现监控数据的程序化获取与应用。

GitHub 暂停 Copilot 新用户注册并收紧限制:“长时间运行、并行执行的工作流……已经对我们的基础设施和定价结构构成挑战”。

 

GitHub 宣布将暂停 Copilot 个人订阅计划的新注册,同时对现有用户施加更严格的使用限制。这一调整意味着,这款全球使用最广泛的 AI 编程工具之一,正在承受越来越大的系统压力。

 

这家隶属于 Microsoft 的公司,已经从原本基于请求次数的限制体系,转向对“会话”和“每周 token 使用量”分别进行独立限制。GitHub 同时建议用户,在处理简单任务时选择“倍率更低”的模型,并尽量分散请求时间,以减轻系统压力。

 

在本周发布的一篇博客中,产品副总裁 Joe Binder 表示:“随着开发者逐渐意识到 agent 和 sub-agent 在解决复杂编程问题中的价值,我们看到所有用户的使用强度都在上升。”

 

他同时承认:“这些长时间运行、并行执行的工作流确实能带来巨大价值,但也对我们的基础设施和定价结构提出了挑战。”

 

从“无限用”到“全面限”

 

GitHub 此次面临的问题,并不只是“用户变多”,更关键的是“使用方式发生了变化”。GitHub 在 2021 年推出 Copilot 时,它还只是编辑器里的代码补全工具。如今,它早已不只是“补全”,而是逐步变成 agent 化的编程助手。随着 Copilot CLI 等能力上线,开发者开始把调试、重构甚至完整功能开发直接交给它执行。

 

而且新一代模型支持更大的上下文窗口,这意味着开发者可以提交更长的提示,触发更复杂的处理流程,对算力的消耗也随之显著增加。例如,Anthropic 的 Opus 4.6 和 4.7 支持高达 100 万 token 的上下文窗口,而 Opus 4.5 仅为 20 万。

 

针对 GitHub 的新政策,安全解决方案架构师 Nathan McNulty 在 X 上评论道:“大家都在要更大的上下文窗口,但现实是,一次高级请求就可能耗掉一整周的 Opus 4.6 配额,这种模式根本不可持续。”

 

而他转发的,则是 Ed Zitron 的一条爆料。后者称:微软正在收紧 GitHub Copilot 的使用限额,将 Opus 模型从每月 10 美元的订阅中移除,并计划在 2026 年晚些时候转向基于 token/API 的计费模式。这也说明,微软已经在寻找降低 AI 服务成本的办法。

 

甚至还有开发者直接感叹:“Copilot 的时代结束了。我试了下用 Sonnet 按 API 计费,2 分钟就花了 49 美元。”

 

Copilot 开始限人、限量、限模型

 

随着 Copilot 的 agentic 能力快速扩展,智能体承担的工作越来越多,也有越来越多用户开始触及原本用于保障服务稳定性的使用上限。 Binder 表示,如果不做调整,整体服务质量就会下降。

 

接下来,GitHub 的这一决策将影响多个付费层级,包括 Copilot Pro、Pro+ 以及学生计划,这些套餐的新订阅将暂时关闭。现有用户仍可在不同套餐之间升级,而 Copilot Free 仍然对新用户开放,这也意味着 GitHub 仍在保留未来付费用户的入口。

 

与此同时,平台还引入了更严格的使用上限,对不同模型和功能在各个套餐中的分配方式进行了调整。Pro+ 套餐现在提供的使用额度超过标准 Pro 的五倍,但 GitHub 并未披露具体数值,也没有明确说明与此前相比收紧了多少。用户如果需要更高额度,可以升级到 Pro+。

 

过去,付费套餐往往意味着接近“无限制”的使用;现在,GitHub 正在更依赖使用控制机制,通过追踪请求量,在达到一定阈值后进行限制。换句话说,Copilot 正在向“按使用量约束”的服务形态靠拢,尽管计费方式本身尚未改变。

 

VS Code 和 Copilot CLI 也从本周开始,都会直接显示剩余可用额度。GitHub 的说法是,这样可以帮助用户避免“意外触达资源限制”。

 

VS Code 中的使用限制

 

Copilot CLI 的使用限制

 

在模型访问方面也发生了变化。Opus 模型已不再提供给 Pro 用户,新发布的 Opus 4.7 仅限 Pro+ 使用。同时,GitHub 也确认,旧版本的 Opus 4.5 和 4.6 也将从 Pro+ 中移除。

 

规则一改再改,门槛一提再提

 

事实上,GitHub 在 2026 年 4 月 10 日就已经引入了一系列“服务可靠性限制”和“模型级使用限制”,用于应对“高并发和高强度使用”。那次调整,GitHub 暂停了所有 Copilot Pro 的免费试用,理由是存在滥用行为。

 

这期间,不少用户还遇到了意外的限流。

 

用户 John Clary 表示:“我只是个业余开发者,但每个月在额外额度上也要花几百英镑。最近我经常遇到短时间的限流,中断请求,而且没有明确倒计时,只提示‘X 秒后重试’,通常不到 30 秒。但如果你真的这么做,很容易在 AI 正在处理关键任务时再次被打断,所以我一般会等 15 分钟再继续。”

 

Clary 表示,这种情况还能勉强应对。但随后他很快就触发了一个长达 44 小时的“每周限流”。

起初他以为是 bug,等了一阵,但一个小时后发现限流并不会自动解除,于是他提交了工单,并无奈切换到了 Auto 模式,让 Copilot 自动选择模型。这种模式很可能会优先选择推理成本更低的模型,因为 Clary 表示,性能明显变差了。

 

“从那之后,我的项目几乎没什么进展。Auto 模式选的模型质量很差,经常偷偷走捷径又不说明,我还得花时间让它改回来。”

 

类似的抱怨,也开始在 GitHub Copilot 社区中大量出现,一些关于限流的讨论帖,在这半个月里就新增了数十条投诉。不少用户形容这些限制“离谱地长”,有人甚至被告知需要等待几天才能再次使用服务。

 

当限流变成常态,这就不再是简单的容量问题了。越来越多开发者开始意识到,问题可能出在更底层:Copilot 的定价模式,本身已经跟不上现在的使用方式。

 

开发者 Roman Kir 指出,问题的转折点出现在 2026 年 3 月。彼时,GitHub 发现其限流系统存在一个 bug:一直在低估新一代模型(如 Claude Opus 4.6 和 GPT-5.4)的 token 使用量。这些模型单次请求消耗的基础设施资源远高于上一代,但这个 bug 让它们看起来成本很低。

 

当 GitHub 修复该问题后,限额立即恢复到原本配置的水平。对于正常使用的用户来说,这些限制瞬间变得过于严苛——几十个小时的封锁,coding agent 在任务中途被终止,也没有恢复路径,除了 Pro+ 之外,没有其他升级方案。

 

Roman Kir 进一步指出:“这一点之所以重要,是因为这个执行层的问题只在 agent 使用场景下才会出现。单次 API 请求在限流时还能‘降级运行’,但多步骤的 agent 任务不行。一旦在执行过程中触发限流,任务就会被打断,进入一个无法恢复的状态。这意味着,同样是算力受限,不同使用方式会导致完全不同的失败结果,而当前的订阅体系并没有区分这种差异。”

 

这背后更深层的原因是:GitHub 的定价架构,是基于一个旧模型成本结构设计的。过去,“一次高级请求”大致意味着相近的基础设施成本;但在前沿模型时代,这一假设已经不成立。GitHub 一方面以订阅形式出售前沿模型能力,另一方面要承担这些模型对应的真实基础设施成本,这两者已经不再对等了。

 

其他网友在限速讨论中也做出了类似的推测:“GitHub 的补贴水平似乎已经达到了难以为继的地步。因此,这与其说是一个漏洞,不如说是一项商业决策……”

 

GitHub 的举措并非孤例

 

GitHub 的这一调整,也延续了整个行业近期的一系列“紧急刹车”动作。例如,Anthropic 在 3 月收紧了 Claude 的会话限制,以“应对不断增长的需求”;而 OpenAI 也对 Codex 引入了新的使用上限。

 

开源项目 OpenClaw 等第三方智能体编排工具的兴起,也在进一步放大对 AI 工具的需求。这类工具可以让智能体几乎 7×24 小时自动调用模型,持续消耗 token。因此,Anthropic 还在本月早些时候限制了其订阅在第三方工具(如 OpenClaw)中的使用,这类调用不再包含在订阅内,而是单独计费。

 

Anthropic 的 Claude Code 负责人 Boris Cherny 在 X 上表示,这一变化源于订阅设计与实际使用方式之间的错配。“我们一直在努力应对 Claude 使用需求的增长,但当前的订阅模式并不是为这些第三方工具的使用方式设计的,”Cherny 写道,“算力是一种需要精细管理的资源,我们优先保障直接使用我们产品和 API 的用户。”

 

另一边,Google 也在 2026 年 1 月为其 Antigravity 服务引入了每周使用上限,并据称开始封禁通过 OpenClaw 使用该平台的账户,原因是“恶意使用大幅增加”。

 

整体来看,一个共识正在形成:当 AI 编程从“辅助工具”变成“长时间运行的智能体系统”,原有的订阅模式与算力供给,正在被彻底拉到极限。

 

参考链接:

https://thenewstack.io/github-copilot-signups-paused/

https://stratoatlas.com/cases/case-a-ai-2026-046.html

https://github.com/orgs/community/discussions/192435#discussioncomment-16558791

https://github.com/orgs/community/discussions/180092

https://github.blog/news-insights/company-news/changes-to-github-copilot-individual-plans/

2026 年,智能体将在企业级应用中取得哪些实质性突破?点击下载《2026 年 AI 与数据发展预测》白皮书,获悉专家一手前瞻,抢先拥抱新的工作方式!

为何 AI 辅助开发需要遵循 SDLC 的严谨性

SDLC(软件开发生命周期)是一套将需求转化为可运行软件的结构化流程,涵盖需求收集、方案设计、编码实施、测试及部署等环节。正是这套严谨的规范,防止大型项目因自身复杂性而走向崩溃。

Snowflake Cortex Code 能够在单次会话中构建完整的应用程序——具备全代码库访问权限、多文件编辑能力、任务编排功能以及原生 Snowflake 集成。然而,构建一个完整的应用,并不等同于构建一个正确的应用。

以一个包含 5 个页面的分析仪表盘为例,其背后涉及数十项隐含决策:图表库的选择、计算方法的定义、数据流模式的设计、缓存策略的制定,以及逻辑层与展示层的分离。若缺乏结构化的约束,智能体将代为做出这些决策——速度快、信心足,却可能偏离正确方向。一个能在几分钟内生成数百行可运行代码的智能体,会同等程度地放大良好的流程与糟糕的流程。

以下这些保障大型项目成功的实践,绝不能因为代码由 AI 生成而被视为可有可无:

  • 代码先行,需求前置:开发人员与智能体在实施前需共享一份明确的契约。需求范围应无歧义,技术选型应无意外;

  • 实现先行,架构前置:分层逻辑、模块边界与 API 签名必须预先锁定,以确保跨文件的逻辑一致性;

  • 全流程可追溯:每项功能均对应一条编号需求。代码审查的标准应从“这段代码看起来对吗?”转变为“这段代码是否符合我们事先达成的共识?”;

  • 变更时保留既定行为:在修复缺陷或进行重构时,需明确记录不可变更的行为,将隐含假设转化为可核验的清单。

规范驱动技能

规范驱动技能将这种规范化流程引入 Cortex Code。它通过一个包含强制审批关卡的结构化五阶段生命周期来指导开发过程:

在每个关卡,Cortex Code 都会停止并等待您的明确批准才会继续。您在每一个决策点都保持完全掌控。

核心能力:

  • EARS 标注法需求 —根据自然语言描述生成正式、可测试的需求(当……时,系统应……,以便……);

  • 三种工作流类型 —新功能开发、缺陷修复(含回归预防)、以及重构(含行为保留);

  • 持久化规约产物 — 生成 requirements.md、design.md 和 tasks.md,作为持续演进的项目文档。

适用场景:

  • 从零开始构建完整的应用程序(涉及多文件、多模块);

  • 添加跨越多个文件或层级的重大功能;

  • 修复需要防止周边行为出现回归的缺陷;

  • 在保留模块外部接口的前提下进行重构。

使用方法:

只需触发一次技能—可通过明确指令(例如:“使用规范驱动技能,构建一个股票分析应用”)或通过自然语言(例如:“我想构建一个股票分析应用”)。Cortex Code 会根据“构建功能”、“修复缺陷”、“重构”或“创建规约”等短语自动检测意图。明确表达更为可靠;自然语言在大多数情况下也能正常工作。技能激活后,只需自然回应即可 — Cortex Code 会引导您走完每个阶段,提出澄清性问题,展示文档产物供您审阅,并在获得批准前等待您的指示。

端到端示例:构建股票分析应用

理解工作流的最佳方式是观察其实际运行。以下是一个完整演练——构建一个包含 5 个页面的 Streamlit 股票分析仪表板,集成 Snowflake 数据、Plotly 图表、技术指标和量化信号。

展示的每个提示和响应均来自真实的 Cortex Code 会话。演练内容详尽;如需快速概览,请跳至入门指南部分。

第 1 阶段:需求澄清

您的提示:

使用规范驱动的技能,我想构建一个股票分析Streamlit应用5个主要板块:1.道指30成分股概览仪表板 - 所有30只股票的汇总表,含日内涨跌幅、热力图可视化2.单只股票深度分析 - K线图、成交量、关键统计指标3.行业板块分析 - 按GICS行业分类分组,进行表现对比4.技术分析 - 简单移动平均线、指数移动平均线、布林带、相对强弱指标、指数平滑异同移动平均线,附带买卖信号5.量化信号 - 动量、波动率、均值回归、相关性矩阵数据源:股票数据位于Snowflake数据库 FINANCE__ECONOMICS 和 DB_STOCK 中所有Snowflake资产置于 DB_STOCK 中,本地文件置于 stock_app/ 文件夹内图表使用Plotly绘制,数据访问使用 st.connection('snowflake')仅限本地运行 - 不部署至Streamlit in Snowflake
复制代码

执行动作:Cortex Code 进入澄清阶段。它会探索您的 Snowflake 数据库——执行 SHOW SCHEMAS 命令,查询 INFORMATION_SCHEMA,检查 FINANCE__ECONOMICS 和 DB_STOCK 两个数据库中的表结构——以了解哪些数据可用。它发现 DB_STOCK.CURATED.DAILY_STOCK_PRICES 表包含自 2018 年至今超过 22,000 个股票代码的开盘价、最高价、最低价、收盘价、成交量数据,而 DB_STOCK.CURATED.COMPANIES 表包含公司元数据。同时,它还发现两个数据库中均不存在行业分类数据。

然后它会提出有针对性的澄清性问题:

Cortex Code 响应:

在我创建规范之前,需要先澄清以下几点:1.道指 30 范围:仅限当前 30 只成分股,还是也包括历史成分股?2.数据连接:使用 st.connection('snowflake') 配合 secrets.toml,还是直接用原生 snowflake.connector?3.部署方式:仅本地开发,还是也包括 Streamlit in Snowflake(SiS)?
复制代码

您的回复:

仅当前 30 只。使用 st.connection。仅本地。
复制代码

执行动作:Cortex Code 汇总了所有已获取的信息,并在阶段 1 审批关口处暂停:

Cortex Code 响应:

以下是我的理解:用户故事:金融分析师需要一个 Streamlit 仪表板,用于分析道指 30 成分股。5 个页面:概览、个股详情、板块分析、技术分析、量化信号。数据源:DB_STOCK.CURATED.DAILY_STOCK_PRICES(OHLCV 数据)、DB_STOCK.CURATED.COMPANIES。已识别数据缺口:不存在板块/行业分类表——将创建包含 GICS 分类信息的 DOW30_REFERENCE 表。数据连接:使用 st.connection('snowflake') 配合 @st.cache_data(ttl=300)。图表:全部采用 Plotly(K 线图、矩形树图、条形图、饼图、散点图、热力图)。计算逻辑:技术指标和量化信号在已缓存的 DataFrame 上通过纯 pandas 进行计算。超出范围:实时数据流、用户认证、投资组合跟踪、新闻情绪分析、期权数据、SiS 部署。上述理解是否正确?我是否可以继续创建规范?
复制代码

你的回复:

是的。
复制代码

请注意,Cortex Code 主动识别了一个数据缺口(缺少板块分类表)并提出了解决方案——这一切都发生在编写任何一行代码之前。

第 2 阶段:规范制定

执行动作:Cortex Code 生成规范文档 specs/features/dow30-stock-analytics/requirements.md。该文档为一份正式的规范文档,采用 EARS(Easy Approach to Requirements Syntax,简易需求语法)标记法,共包含 27 项需求,覆盖全部 5 个页面的各项功能。本次仅创建该文件,不包含设计文档或任务分解文件。

 

以下为各章节关键需求摘要:

Cortex Code 响应:

REQ-001:道指 30 成分股参考表系统须维护一张名为 DB_STOCK.CURATED.DOW30_REFERENCE 的数据表,用于存储道琼斯工业平均指数当前的 30 只成分股信息。表中须包含以下字段:TICKER(股票代码)、COMPANY_NAME(公司全称)、SECTOR(GICS 行业板块)、INDUSTRY(GICS 子行业)。目的:使所有页面能够将价格数据与板块及行业元数据进行关联查询。REQ-006:市场热力图当概览仪表板加载时,系统须展示一个使用 Plotly 实现的矩形树图热力图。图中每个色块代表一只道指 30 成分股,色块面积按成交量加权,颜色按日涨跌幅进行映射。目的:使用户能够直观识别全部 30 只成分股的相对成交量及表现情况。REQ-009:交互式 K 线图当用户选定某只股票及时间范围后,系统须展示一个基于 Plotly 实现的交互式 K 线图,显示所选周期内的 OHLC(开盘价、最高价、最低价、收盘价)价格数据,并配备时间范围切换按钮(1 个月、3 个月、6 个月、1 年、5 年、全部)。目的:使用户能够在不同时间跨度下分析价格形态。REQ-018:RSI 副图指标当用户在技术分析页面查看某只选定股票时,系统须展示周期为 14 日的相对强弱指标(RSI)副图,并在图中包含位于 70(超买)和 30(超卖)的水平参考线。目的:使用户能够识别超买与超卖状态。REQ-026:综合信号评级系统须综合动量得分(权重 40%)、波动率得分(权重 20%)及均值回归信号(权重 40%),为每只股票计算一个综合信号,并输出单一评级(看涨 / 看跌 / 中性)。目的:为用户提供每只股票单一且具备可执行性的参考指标。…(共 27 项需求,编号 REQ-001 至 REQ-027)您是否批准此规范?
复制代码

每项需求均附有具体的验收标准(以复选框形式呈现)。例如,针对 K 线图的验收标准包括:OHLC 数值准确无误、时间范围筛选功能正常、支持缩放/平移/十字光标、通过 rangebreaks 处理周末休市缺口、默认时间范围设为 1 年。

您的回复:

复制代码

执行动作:Cortex Code 将文档头部信息中的状态更新为 status: approved,并进入第 3 阶段。该规范即成为后续开发的契约——此后的每一项决策均须追溯至对应的编号需求。

 

第 3 阶段:设计阶段

执行动作:基于横跨 5 页的 27 项需求、多数据源以及两个计算模块,Cortex Code 在 specs/features/dow30-stock-analytics/design.md 路径下生成了技术设计文档。此阶段仅创建设计文件。

该设计定义了一个三层架构,并严格遵循关注点分离原则:

  • 数据层(data/snowflake_queries.py)——包含 6 个带缓存的查询函数,负责处理所有与 Snowflake 的交互。每个函数均使用 @st.cache_data(ttl=300)装饰器。禁止其他任何模块直接访问 Snowflake;

  • 计算层(utils/indicators.py 与 utils/quant.py)——包含 13 个纯 Pandas 函数,用于技术指标计算(SMA、EMA、布林带、RSI、MACD、信号检测)和量化分析(动量、波动率、均值回归、相关性、综合评分)。该层不依赖 Snowflake,也不依赖 Streamlit;

  • 展示层(pages/*.py)——包含 5 个 Streamlit 页面,每个页面映射到特定的需求(例如,4_Technical.py 对应需求编号 REQ-016 至 REQ-020)。页面调用数据层获取 DataFrame,将其传递给计算函数,并使用 Plotly 渲染结果。

Cortex Code 响应:

设计文档明确了以下内容:-完整文件结构 — 涵盖 data/、utils/、pages/ 和 config 目录下的 16 个文件。-Snowflake DDL — 包含针对所有 30 支道指成分股的完整 CREATE TABLEINSERT SQL 语句,并附带 GICS 行业/子行业分类数据。-模块 API — 定义了所有函数签名,包含参数、返回类型及列名约定。-页面布局 — 规定了每个页面将使用的 Streamlit 控件及 Plotly 图表类型。-关键设计决策 — 所有计算均使用纯 Pandas 完成(不使用 Snowflake 用户定义函数),为 200 日均线预留 250 天的预热缓冲数据,以及处理周末空缺的区间中断逻辑。您是否批准此设计?
复制代码

您的回复:

是的,我批准。
复制代码

执行动作:Cortex Code 将更新 design.md 的前置元数据状态为 status: approved,并进入第四阶段。架构现已锁定——后续执行将严格遵循此蓝图执行。

第 4 阶段:实施阶段

执行动作:Cortex Code 智能体创建 tasks.md 文件,其中包含 11 项实施任务,并开始系统性地逐一执行:

Cortex Code 响应:

实施计划:1.创建 DOW30_REFERENCE 表(Snowflake DDL)2.创建 data/snowflake_queries.py(包含 6 个带缓存功能的查询函数)3.创建 utils/indicators.py(包含 SMA、EMA、BB、RSI、MACD 及信号检测逻辑)4.创建 utils/quant.py(包含动量、波动率、均值回归、相关性、综合评分等函数)5.创建入口文件 app.py6.创建页面 pages/1_Overview.py7.创建页面 pages/2_Stock_Detail.py8.创建页面 pages/3_Sectors.py9.创建页面 pages/4_Technical.py10.创建页面 pages/5_Quant_Signals.py11.创建 requirements.txt 与 secrets.toml.example 配置文件
复制代码

Cortex Code 智能体逐一攻克各项任务,所生成的文件严格遵循已批准的设计规范——正如需求 REQ-018 所规定,RSI 计算采用了 Wilder 平滑算法;综合信号生成严格应用了需求 REQ-026 中定义的 40/20/40 权重配置;每一个函数签名均与设计文档中的 API 定义完全吻合。

所有 11 项任务完成后,Cortex Code 智能体在阶段 4 的审批关卡处暂停。

Cortex Code 响应:

实施完成。已创建的 Snowflake 对象:-DB_STOCK.CURATED.DOW30_REFERENCE —— 包含 30 支道指成分股及其 GICS 行业/子行业分类数据。-已创建文件(共 16 个):-app.py — 带侧边栏品牌标识的应用入口-data/snowflake_queries.py — 6 个带缓存功能的查询函数-utils/indicators.py — 7 个纯 Pandas 实现的技术指标函数-utils/quant.py — 6 个纯 Pandas 实现的量化信号函数-pages/1_Overview.py 至 pages/5_Quant_Signals.py — 全部 5 个前端页面文件-requirements.txt、.streamlit/secrets.toml.example — 依赖与环境变量示例文件是否准备进入验证阶段?
复制代码

您的回复:

是的
复制代码

第 5 阶段:验证阶段

执行动作:Cortex Code 对照已批准的规范执行系统性验证:

Cortex Code 响应:

验证结果:检查项	| 结果- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -| - - - - - - -需求可追溯性 - 全部 27 项需求均已映射至实现代码	27/27 | 通过文件结构 - 全部 16 个文件均符合 design.md 设计	| 通过数据层 - 6 个查询函数,签名正确,缓存机制有效	| 通过计算层 - 13 个函数,纯 pandas 实现,公式正确	| 通过展示层 - 全部 5 个页面均实现了分配的需求	| 通过语法校验 - 全部 11 个 .py 文件编译通过	11/11 | 通过架构合规性检查:	- 三层分离原则得以维持 - 无页面直接导入 Snowflake 连接	- 所有查询均使用 @st.cache_data(ttl=300) - 所有图表均使用 Plotly 绘制	- 技术指标页面为计算 200 日均线额外拉取了 250 个预热交易日数据	27 项需求验证通过。规范驱动工作流已完成。
复制代码

每项需求均精确追溯至其具体实现位置—例如,REQ-018(RSI 副图指标)映射至 4_Technical.py:174–185 及 indicators.py:35–54。这种可追溯性意味着后续审查代码的任何人员都能够清晰理解每一个函数存在的缘由。

结果

一次对话。五个阶段。一个功能完整的五页分析仪表板—外加三项永久性的规范文档产出物:

specs/features/dow30-stock-analytics/├── requirements.md # 27条EARS需求—契约文档├── design.md # 架构、API、数据流—蓝图文档└── tasks.md # 11项实施任务—检查清单
复制代码

六个月后,当有人问“为什么综合信号使用 40/20/40 的权重分配?”—答案就在 REQ-026 里。当新开发人员加入时,他们在动手写代码之前会先阅读 design.md。这些规范文档不是一次性的废纸,而是该项目的永久记忆。

使用 Cortex Code 并基于规范驱动(Spec-driven)技能构建的功能完整的股票分析 Streamlit 应用。

Bug 修复工作流:三部分规范文档

使用规范驱动技能修复 Bug:热力图所有方格均显示为白色
复制代码

Cortex Code 分析该 Bug,然后生成三部分规范文档:

 

第三部分是关键所在。通过记录绝不能更改的内容,智能体拥有了一份修复后可对照核验的检查清单。杜绝静默回归。

重构工作流:行为保留

使用规范驱动技能,将数据层重构为使用原生 Snowflake 连接器
复制代码

在进行任何代码更改之前,Cortex Code 会记录需保留的行为:

 

未经您明确批准需保留的内容,智能体无法执行重构。

入门指南

安装方式:

# 用户级(适用于所有项目)git clone https://github.com/sfc-gh-tjia/coco_skill_spec_driven_dev.gitcp -r coco_skill_spec_driven_dev ~/.snowflake/cortex/skills/spec-driven# 或项目级(单项目)cp -r coco_skill_spec_driven_dev .cortex/skills/spec-driven
复制代码

使用方法:以 use spec-driven skill, [您的意图]开头,或自然描述需求— Cortex Code 会检测工作流类型并引导您完成各阶段。

 

激活后,可自然回应:yes、approved、add requirement for error handling、option 2。

结语

智能体编码工具已彻底改变了我们构建软件的速度,但并未改变软件成功的根本要素:清晰的需求定义、经过深思熟虑的架构设计,以及系统化的验证流程。这些实践之所以不可或缺,是因为模糊性会层层累积——每一个不明确的需求都可能演变为错误的假设,而每一次错误的假设最终都将导致返工,甚至更糟,演变为数月后才暴露的生产环境缺陷。

Snowflake Cortex Code 中的规范驱动技能将这些实践固化于流程之中。它并非繁文缛节,而是关键的质量检查点:智能体在每个阶段都必须获得您的明确批准方可继续推进。您需要在设计开始前审阅需求,在编码实施前批准架构,并在宣告完成前依据规范进行最终验证。

针对漏洞修复场景设计的三段式 bugfix 格式,直击困扰所有代码库的常见故障模式——修复一个漏洞时无意中引入新的回归问题。通过明确记录“不应改变的行为”,该技能将“别破坏现有功能”这一祈使要求,从美好愿望转变为可逐项核验的清单。

所有产物均会持久保留。需求文档、设计文档和任务列表将成为项目永久的历史档案,具备可搜索、可审计的特性,在初始开发完成许久之后,对于新成员入职与长期维护仍具有极高价值。

这一切的初衷并非为了放慢速度,而是为了“一次把事情做对”。五分钟的需求澄清,可避免数小时的返工;一份经过批准的规范,能杜绝实施完成后“我要的不是这个效果”的尴尬;明确的行为保留定义,则能在问题发布前拦截回归漏洞。

AI 智能体生成代码的速度远超任何人类开发者,但关键在于代码是否契合原始意图。规范驱动开发正是为了确保这一点。

相关资源

适用于 SnowflakeCortex Code的规范驱动技能已开源:

github.com/sfc-gh-tjia/coco_skill_spec_driven_dev

关于作者:Tianxia Jia,人工智能与云专家,专注于在 Snowflake 和 AWS 上架构前沿的 AI/ML 解决方案。

 

原文地址:https://medium.com/snowflake/spec-driven-development-in-snowflake-cortex-code-applying-sdlc-rigor-to-ai-assisted-workflows-b6882926c1bc

点击链接立即报名注册:Ascent - Snowflake Platform Training - China更多 Snowflake 精彩活动请关注专区

全文 链接 **:https://tecdat.cn/?p=45662
原文出处:拓端抖音号@拓端tecdat
封面

    • *

关于分析师

在此对 YouMing Zhang 对本文所作的贡献表示诚挚感谢,他在东北大学完成了信息与计算科学专业的学士学位,专注机器学习、 深度学习 **算法领域。YouMing 喜欢钻研算法,关注深度学习前沿动态,曾参与多个关于消费者行为预测模型及市场趋势分析的数据挖掘项目。

过去,我们总觉得“老年人”是守着储蓄、紧捂钱包的一代。但如果你还这么想,可能正错过中国未来十年最大的消费富矿。真实情况是,一场由“新银发”主导的消费革命已经悄然打响。

我们为你深度拆解这片即将达到30万亿规模的超级蓝海市场。

文完整研究报告数据图表和文末100+份银发经济行业最新参考报告合集已分享在交流群,阅读原文查看、进群咨询,定制数据、报告和900+行业人士共同交流和成长。

    • *

是谁在定义未来?答案是新银发

首先,我们需要重新认识一个群体——新银发。报告将目光精准锁定在55-65岁的人群。他们可不是我们刻板印象中步履蹒跚、思想保守的“老人”。

这批人亲历了中国经济腾飞的黄金年代,享受了改革开放的红利,积累了丰厚的财富。更重要的是,他们是互联网普及和数字化转型的亲身建设者。报告中一个看似反直觉的数据揭示了真相:在被问及“最近最开心的体验”时,高达77%的新银发选择了线上或线上线下融合的体验。对他们而言,手机、 AI 、电商不是新鲜玩意儿,而是生活的水和电。

这一代银发族的“主权意识”正在觉醒。埃森哲的调研数据显示,与2021年相比,他们的人生重心发生了显著偏移:将“家庭”和“事业”视为前三优先级的比例分别下降了12及11个百分点,而将“财富”和“个人爱好”放在首位的占比则分别上升了10和12个百分点

电商行业银发群体人生优先级变化对比双轴图1
(图1展示了家庭、事业、财富、个人爱好在2021与2025年间的占比变化,清晰地描绘出生活重心的转移)

这意味着,他们正从围绕家庭运转的配角,回归为自己而活的主角。这场从“为他人”到“为自己”的观念重构,是理解所有银发经济机遇的底层密码。

    • *

从“延迟满足”到“即时享受”,悦己消费全面爆发

当“悦己”成为新银发的人生主旋律,他们的钱包投向也发生了深刻变革。他们不再只满足于基本生活、看病买药,而是开始追求品质生活、精神愉悦和自我实现。

报告数据显示,在新银发群体规划未来一年的资金投入时,悦己体验类的消费意愿正在猛增。与2021年的同龄段人群相比,计划在旅游出行、健身运动、休闲娱乐和个人教育上增加投入的比例均大幅上升。

电商行业银发群体消费类别变化对比双轴图2
(图2通过柱状与折线的对比,直观呈现了新银发在旅游、运动、教育等体验型消费上投入意愿的显著提升)

以旅游为例,这早已不是跟团打卡式的“下车拍照”。 新一代 银发族追求的是自由行、深度游,享受松弛的在地文化体验。2026年春节的数据就是最好的证明:60岁以上人群的酒店入住量同比增长了56%** ,“探亲+度假”的模式激活了高星酒店和商务酒店的消费热点。

不仅如此,他们对“美”和“健康”的追求也远超想象。调研显示,55-65岁人群中,近期购买过美妆护肤品的比例从2021年的40%升至2025年的45% ,在60-65岁的高龄段,这一比例甚至达到了52%。这背后是他们渴望通过外在形象管理,展示自己充满活力的生活状态,拒绝被年龄定义。

    • *

银发消费的新入口:AI与算法

要抓住这群新银发,就必须摸清他们的消费路径。一个颠覆性的发现是,AI工具已经超越传统搜索引擎和线下咨询,成为他们探索新生活的第一入口

电商行业银发群体信息获取渠道横向比例条形图5
(图5数据表明,39%的新银发首选AI,而短视频/直播、熟人推荐也是其重要信息源)

报告显示,39%的新银发会首选AI工具来改善生活或寻找灵感,因为AI提供的对话式、总结性信息,天然贴合他们对低学习成本和高自主性的需求。当他们形成明确购买意向后,会再回到电商平台或线下门店进行最终验证。同时, 短视频 **、直播和社交平台深度嵌入决策链路,扮演着激发兴趣和建立信任的关键角色。

    • *

相关文章

2026AI医疗行业专题报告:智能医疗器械、手术机器人、脑机接口、可穿戴设备|附240+份报告PDF、数据、可视化模板汇总下载

原文链接:https://tecdat.cn/?p=44979

然而,在享受数字生活的同时,新银发也面临着巨大的风险。另一份权威调查《谁在盯着父母的手机?》揭露了令人担忧的现实:高达72%的银发用户经常收到保健品、养老理财等定向推送的广告,更有59%的银发用户曾遭遇“大数据杀熟” ——自己手机上看到的价格比家人朋友更高。

电商行业银发群体算法歧视灰底比例条形图4
(图4用灰底比例条形图,冲击性地展示了超七成用户深陷定向广告,近六成遭遇价格歧视的严峻现实)

这揭示了一个残酷的真相:算法在部分平台手中,正成为针对老年人的“收割利器”。这也反向说明,一个真正透明、尊重、保护银发用户的平台,将能赢得他们巨大的信任红利。

    • *

谁在赢得新银发?真实案例拆解

理解了新银发是谁、要什么、以及他们在哪,企业该如何行动?报告中的几个案例为我们指明了方向。

品牌理念上,斯凯奇做了一个很好的示范。它没有选择将代言人梁朝伟与“年龄”或“老年”绑定,而是传递一种普适的“从容、舒适”的生活状态。这种去标签化的沟通,与新银发追求自我表达、拒绝被定义的身份认同高度契合,自然融入了全年龄段消费者的心智。

产品设计上,核心是兼顾功能与心理需求。红松 APP **的成功之处在于,它不只是一个面向银发的兴趣社区,其平台内的“小助理”不仅是客服,更像是用户的“小伙伴”。许多银发用户会主动向小助理分享日常,形成了陪伴式的情感连接。这种设计,让用户在获得功能价值的同时,保留了体面感和社交身份,守住了他们珍视的“生活主场”。

传播策略上,深耕有温度的内容是关键。维京邮轮精准定位人文旅行,在微信、抖音、小红书等平台,通过用户共创与达人合作,在银发社群中建立文化认同,鼓励分享真实体验。传播不再是单向输出,而是变成了用户间有价值、有共鸣的交流,这种参与感是建立长期信任的基石。

    • *

行动指南:企业如何抓住银发红利?

综合报告的洞察,我们为希望深耕银发市场的企业提炼了三条可直接落地的行动建议:

  1. 调整品牌叙事,拥抱“去年龄化”沟通:停止使用“银发”、“老年”等标签进行功能补偿式叙事。借鉴斯凯奇的经验,转向以生活状态、审美品味和普适价值为沟通核心,让产品成为消费者表达“我是谁”的载体,而非年龄的提示器。
  2. 重构产品体验,坚守“体面掌控感” :适老化设计的终点不是功能堆砌和操作简化。参考红松的模式,产品和服务应在解决实际痛点的同时,赋予用户选择权和社交身份。用AI技术隐于无形,降低门槛,但绝不剥夺用户的自主决定权和体面感。
  3. 布局新流量入口,深耕“信任闭环” :放弃对线下地推和传统广告的依赖,将资源投向AI工具优化和短视频/直播内容生态。确保你的品牌能被主流AI模型准确理解和推荐,在短视频平台持续输出有温度、有专业性的内容,在用户决策链路的源头建立信任,并最终在社群中完成转化和口碑裂变。

中国银发经济的战略窗口期已经到来。新一代银发群体有钱、有闲、有活力,更重要的是,他们有强烈的自我意识。最终赢得这个市场的,不会是那些高高在上、为老人“规划”一切的品牌,而是那些能平等对话、真诚陪伴、并支持他们活出精彩人生的伙伴。

获取文末所有参考行业报告及数据,进交流群,加小助手微信号:tecdat_cn

文章中所有数据图表列表:

  • 电商行业银发群体人生优先级变化对比双轴图1
  • 电商行业银发群体消费类别变化对比双轴图2
  • 电商行业银发群体信息获取渠道横向比例条形图5
  • 电商行业银发群体算法歧视灰底比例条形图4

本专题内的参考报告(PDF)目录

  • 埃森哲:2026中国消费者洞察报告-新银发的活力人生
  • 2026谁在盯着父母的手机-银发用户手机使用行为调查报告-中国消费者杂志社
  • 中国银发经济市场调研报告2026-解数咨询
  • 《银发经济:社会结构演进及政策加码支持,银发悦己需求快速扩容-国信证券》
    银发旅游时空大数据分析报告——基于中国联通对全国4686个旅游景区的动态监测.pdf
    2026-04-15 15:48
    2026谁在盯着父母的手机-银发用户手机使用行为调查报告-中国消费者杂志社.pdf
    2026-04-10 15:41
    埃森哲:2026中国消费者洞察报告-新银发的活力人生.pdf
    2026-03-29 09:04
    Citi花旗银行:2026年中国银发经济:医疗与保险报告(英文版).pdf
    2026-03-29 09:03
    中国银发经济市场调研报告2026-解数咨询.pdf
    2026-03-27 15:42
    上海市统计局:上海市银发经济统计分类(2025).pdf
    2026-03-26 16:45
    银发旅游提升老年人幸福感的调查研究.pdf
    2026-03-20 15:34
    人口老龄化背景下银发经济的发展潜力研究——基于Citespace可视化分析-南京财经大学.pdf
    2026-03-10 16:27
    纺织服饰:悦己消费产业链研究之银发经济-关注运动产业和适老化产品企业机会.pdf
    2026-03-04 15:40
    银发经济:社会结构演进及政策加码支持,银发悦己需求快速扩容-国信证券.pdf
    2026-03-02 16:07
    银发经济行业专题:食品饮料篇——掘金银发餐桌,从“吃饱”到“吃对”-国信证券.pdf
    2026-02-27 15:49
    银发经济行业专题:家庭耐用品篇——乘智能化之风,家电家居助力养老护理.pdf
    2026-02-21 09:13
    保健品行业深度报告:银发经济与自我保健时代迎来发展新机遇.pdf
    2026-01-12 15:13
    联想集团:2025智享银龄乐享生活-共创银发美好时代行动报告.pdf
    2025-12-20 16:09
    银发经济发展典型案例.pdf
    2025-12-16 16:22
    2025年生机盎然的银发社会-BCG.pdf
    2025-12-16 16:20
    上观智库:2025年上海银发人群消费进化洞察报告.pdf
    2025-12-16 16:19
    2025年金融赋能中国银发经济:推动老龄社会的包容与可持续发展报告.pdf
    2025-12-16 16:13
    复旦大学:2025年中国银发科技发展报告.pdf
    2025-12-11 16:36
    耐用消费产业行业研究:银发消费综述:如何掘金官方定义的万亿消费规模赛道.pdf
    2025-12-10 16:54
    中国银发经济市场与投资赛道66条(2025)(精要版).pdf
    2025-11-19 15:20
    赛迪顾问:2025年中国银发经济发展研究报告.pdf
    2025-11-14 14:16
    2025“银发加AI”应用趋势报告.pdf
    2025-10-31 15:20
    银发经济的关节之光:MOVEFREE益节的抖音电商品牌拆解.pdf
    2025-10-28 16:19
    新银发力量:活力、悦己、得劲——2025快手新银发人群洞察报告-艾瑞咨询.pdf
    2025-10-27 16:17
    银发经济:医药行业发展新蓝海(2025).pdf
    2025-09-10 15:41
    2025年飞瓜抖音银发市场线上消费与广告投放洞察报告.pdf
    2025-08-28 16:40
    银发电商的精准营销策略.pdf
    2025-08-26 17:02
    银发人群科技出行研究报告.pdf
    2025-08-26 17:02
    银发健康食品赛道创新图谱-解数咨询.pdf
    2025-08-22 16:28
    华泰证券-可选消费行业消费洞察系列: “银发经济”的黄金时代.pdf
    2025-08-19 15:38
    展望银发经济的结构性机遇-华泰证券.pdf
    2025-08-19 15:38
    2024银发人群洞察报告-QuestMobile.pdf
    2025-08-13 15:26
    2025年银发族市场洞察报告-英扬传奇增长咨询.pdf
    2025-08-12 16:14
  • 等其他100+份精选银发经济行业报告(进群获取完整目录)

当你的公司开始记录你敲了哪个键、鼠标点了哪里,甚至不定期截下你的屏幕,你会怎么想?

 

这正在 Meta 发生。据 Business Insider 获取的内部公告,Meta 已向美国员工下发通知,将在办公电脑上启用一款名为 Model Capability Initiative(MCI)的追踪软件,用于记录鼠标移动、点击以及键盘输入,然后把这些数据直接喂给公司的人工智能模型当训练素材。

 

随后,一位 AI 研究科学家把这则备忘录转发到了自己团队的内部频道——Meta SuperIntelligence Labs,让同事们一起围观。

 

备忘录解释称,这么做的目的是提升 AI 模型在那些至今还搞不定的人类操作上的能力,比如从下拉菜单中选择选项、使用键盘快捷键,以及在应用程序之间切换以完成任务等。文件显示,这套监控会覆盖员工使用“与工作相关的应用和网址”,包括 Gmail、GChat、VSCode,以及一款内部应用 Metamate。

 

Meta 甚至将理由说得非常直接:现有的 AI 模型并不真正理解人类是如何使用电脑的,因此需要真实世界的样本:去观察人类在工作中如何点击、切换、操作,并把这些行为转化为 agent 可以学习的执行路径。

 

Meta CTO Andrew Bosworth 也表示:从员工身上收集这些数据,有助于实现公司的愿景,在那个世界里,“大部分工作由 agent 完成,人类负责指挥、审查,并帮助它们不断改进”。

 

备忘录里甚至还写着:“员工只需要完成日常工作,就可以帮助模型变得更好。”

 

下面是这份完整公告的译文:

 

正如 Mark Zuckerberg 和 Alexandr 最近分享的那样,我们推出的 Muse Spark 是 MSU 一系列新一代大语言模型中的第一个。我们的模型正处于非常强劲的发展轨道,而加速这一进程的一个方式,就是利用我们日常工作的数据。尽管 AI 模型在研究和编程等技术能力上表现出色,但在一些基础层面上,仍然无法像人类一样使用电脑,比如从下拉菜单中选择选项、使用快捷键等。要让代理真正理解人类如何完成日常任务,我们需要用真实的使用数据来训练模型。

 

这正是所有 Meta 员工可以通过日常工作帮助模型变得更好的地方。

 

从今天开始,我们将向美国的全职员工和外包人员推出一款工具,用于记录电脑输入行为,包括鼠标移动、点击位置、键盘输入,以及用于上下文理解的屏幕内容。

 

该工具的使用范围仅限于一份经过批准的工作应用和网址列表,例如 Gmail、GChat、Metamate 和 VSCode。美国员工将看到一个弹窗,引导启用名为 Model Capability Initiative(MCI)的工具。

 

该工具仅适用于电脑,不涉及手机。如需了解更多,包括其工作原理和隐私保护措施,请查看内部 wiki 和常见问题说明。

 

Meta 开了个坏榜样:2026 职场终极趋势?

 

Meta 并不是唯一朝这个方向推进的公司。Anthropic 在 2024 年已经展示过类似能力的技术,OpenAI 去年发布了 “Operator”,可以代替人类使用浏览器;而 Microsoft 甚至已经为 agent 准备好了专用的云端 PC。

 

这些尝试背后,是一个越来越清晰的想象:在不远的将来,我们会把一部分原本需要自己动脑、动手在电脑上完成的事情,交给运行在虚拟电脑里的 agent。比如让它帮你订机票、回邮件,或者盯着电商网站,一旦发现心仪商品打折,就直接下单。

 

Meta 给这套愿景起了一个更宏大的名字——“个人超级智能”。公司 CEO Mark Zuckerberg 的说法是,它可以“帮助你实现目标,创造你想看到的世界,体验各种冒险,成为更好的朋友,并成长为你想成为的人”。

 

为此,Meta 正在向其位于美国的正式员工和临时工推广 MCI。员工的工作笔记本电脑上会弹出一个窗口,要求他们启用该工具。据路透社报道,Meta 希望通过将数万名员工的日常活动转化为训练数据,来提升内部 AI 代理的性能,最终使其能够代表员工执行端到端的工作任务。

 

不过,内部评论显示,这份公告在 Meta 内部引发了明显的不安与质疑。在内部沟通平台上,该公告下方点赞最高的一条评论是:“这让我非常不舒服。我们该如何退出?”

 

Meta 首席技术官 Andrew Bosworth 回应说:“在公司提供的笔记本电脑上,没有退出此设置的选项。”这句话随即引发了一连串哭泣、震惊和愤怒的表情符号反应。

 

对此,Meta 公司表示将采取安全措施保护敏感内容,且这些数据不会用于训练 AI 之外的任何其他用途。但也有消息称,该公司多年来其实一直在以某种方式监控员工在公司电脑上的活动。

 

也有评论指出,这种精确到鼠标点击和键盘输入的监视,简直就像一座“全景监狱”,彻底打破了传统的职场边界。

 

知名投资人 Jason 则将这件事定义为 2026 年的职场终极趋势。原因很简单:随着 AI 监控工具(键盘记录、屏幕录制、API 接口)的流行,企业能以极低的成本、极高的精度,量化每一个员工的工作行为——这不再是传统的人管人,而是一场数据驱动的效率革命。在他看来,这套监控体系会成为企业最锋利的管理工具:找出不干活的人、淘汰可被自动化替代的岗位、提拔真正创造价值的员工,最终实现精简高效、利润飙升。他甚至认为,所有虚假的“汇报型”工作都将消失——这对社会反而是件好事。

 

但除了监控焦虑,我们不应该忽略更深层的代价。

 

谷歌曾在一篇名为《谷歌团队成功的 5 个关键》的博客文章中总结过:在研究团队发现的 5 种动力中,心理安全是迄今为止最重要的一个。“团队成员之间的关系越安全,他们就越有可能承认错误,合作,并承担新的角色。它几乎影响了我们对员工的每一个重要方面。心理安全感较高的团队成员不太可能离开谷歌,他们更有可能从队友提出的不同想法中汲取力量,带来更多的收入,高管认为他们的效率一般是其他人的两倍。”

 

而针对 Meta 的监控计划,当每一次点击、每一段输入都被实时记录归档,员工会立刻进入防御状态——放弃试错,放弃创新,放弃跨界协作,只做可量化、可留痕、不会出错的机械工作。监控能提升短期效率,却会慢慢腐蚀一家公司的创造力与长期韧性。极致精益的背后,留下的往往不是效率,而是一个不敢犯错的组织。

 

一位网友的评论很有意思,他说:“一个企业最重要的,依旧是人,是组织,是构建这个组织的创始人的底色。微软的底色是缺少品位的商人,Meta 的底色是太聪明的商人。缺少品位和太聪明,长期来看,会急,会陷入困境......期待更多创业公司的底色更好。让整个世界的底色,也会因此不一样。”

 

AI 会淘汰低效的工作,这是必然,但靠监视与压榨换来的效率,注定走不远。未来能站稳脚跟的企业,最终拼的不是极致管控,而是在自动化浪潮里,守住人本身的创造力与价值。

 

参考链接:

https://www.businessinsider.com/meta-new-ai-tool-tracks-staff-activity-sparks-concern-2026-4

https://www.infoq.cn/article/1y1ptrapcsnjjlelb14m

在金融行业,引入一项新技术从来不是一场“军备竞赛”,而是一场严苛的“压力测试”。当 AI 编程工具以惊人的提效速度席卷整个软件行业,许多互联网公司和小型团队迅速将“代码行数”和“Token 消耗”挂上绩效考核,甚至直接与裁员挂钩时,神州信息这家深耕银行核心软件系统的金融科技企业,却选择了一条截然不同的路。

 

它没有盲目跟风,而是先回到了一个根本问题:我们到底该不该用 AI? 从 2025 年初开始,神州信息展开了一场长达数月的系统性验证。他们不满足于“代码生成快不快”,而是用真实的金融项目需求做对比测试,从代码质量、任务拆解能力、存量工程匹配度,到开发规范与文档体系的兼容性,每一个维度都经过反复校验,直到确认 AI 生成的代码在缺陷密度和扫描覆盖度上与人工开发“基本持平”,才谨慎地迈出推广的第一步。

 

更关键的是,当外界将“提效”与“裁员”划等号时,神州信息给出了完全不同的答案。面对金融系统固有的复杂性——账务一致性、7×24 小时高可用、严格的合规与问责——他们深知,AI 现阶段只能作为经验工程师的“副驾驶”,而非替代者。省下来的人效,被用来承接更多项目、覆盖更多场景,而非减少一个岗位。他们甚至警惕“能力断层”的风险,坚持保留初级工程师的培养路径。

 

正是这种基于严谨验证、拒绝激进裁员、重视人机协同的实践,让神州信息在喧嚣的“AI 取代人类”叙事中,提供了一个稀缺而理性的样本。下面这篇对神州信息软件工艺创新部的独家专访,将带你深入一家金融科技企业如何科学地落地 AI,了解它的逻辑、它的指标,以及它对未来开发者能力的冷静预判。

 

在金融场景里用 AI:不是先上工具,而是先反复验证

 

InfoQ:能不能先介绍一下您所在的部门,以及您现在主要负责的工作?

 

吴娟:我在 25 年初就开始做一些和 AI 落地应用推广相关的工作了。去年 11 月,神州信息专门成立了 AI 创新中心,下面设了两个部门,一个是软件工艺创新部,一个是业务场景创新部,我现在就在软件工艺创新部。

 

神州信息一方面是一家软件公司,另一方面又长期为银行提供金融软件服务,所以我们在软件工艺上本身就有比较深的积累,包括开发规范、技术栈、技术架构等。去年 AI 开始大规模落地之后,公司也希望把 AI 真正融入现有的软件工艺过程中,切实去推动降本增效。我们这个部门,主要就是在这个方向上做应用落地和智能化改造。

 

从去年到今年,我们整体的定位一直比较明确,就是基于 AI 来推动软件工艺的智能化升级。前期会先从编码、测试等具体研发环节入手,把 AI 逐步用起来;后续再往整个软件工艺全流程的智能化方向推进。

 

同时,公司管理层对 AI 的价值一直非常认可。从去年开始,组织层面就在持续推动“AI for process”这件事。无论是内部提效,还是面向外部业务和交付,公司都希望尽可能去尝试、去挖掘 AI 能真正带来的价值。

 

InfoQ:AI 这三年从补全到 Agent 的演进,对你们带来的最大变化是什么?你们内部有没有做相应的调整?

 

吴娟:从时间上看确实是三年的演进,但对我们来说,真正带来质变的时间点,其实是在 2025 年 2 月之后。

 

我们其实一直在尝试,AI 到底能不能在研发环节里真正帮我们提效。前期比较早做的一件事,就是想用大模型来辅助完善设计文档。因为在实际开发里,代码和文档经常会不一致,团队在“文码一致”这件事上会消耗很多精力。所以我们当时最先切入的一个场景,就是希望借助 AI 的能力,根据代码去同步更新文档,减少这类维护成本。但从实际效果来看,当时生成的文档质量整体是不可用的,这是我们当时一个比较直接的判断。

 

转折点出现在 2025 年初。一方面是模型能力明显提升,比如 DeepSeek 等模型出来之后,效果有了一个明显跃迁;另一方面,编程助手工具开始快速丰富起来,像 Cursor、通义灵码这一类工具逐渐成熟。我们也在这个阶段开始引入工具做系统性的验证,整体感受是:对 AI 的认知需要重新评估了。

 

当时我们专门选了一款编程助手工具做深入验证,核心不只是看这类工具能不能生成代码,更重要的是看它能不能适配我们现有的研发模式,尤其能不能用于金融行业这类业务复杂、系统复杂的软件开发场景。验证之后,我们的判断是,它整体上能够达到预期。

 

我们当时看的其实不只是它能不能帮我们节省时间,而是从几个维度一起评估,包括代码生成质量、任务拆解情况、功能实现情况,还有一个最关键的点,就是它到底能不能适配我们现有的开发模式。

 

代码生成质量这部分,相对还是比较基础的,主要看准确性、健壮性和可读性。真正要求更高的,其实是任务拆解能力。因为这不只是写代码的问题,而是它能不能理解我们现有的需求和设计文档,能不能把功能描述覆盖全。

 

还有一点对我们特别重要,就是定位能力。因为我们的系统不是从零开始搭的,而是在现有产品和解决方案上不断做增量开发,所以我们会特别看它能不能在已有工程里找对位置,修改代码时能不能准确找到对应逻辑。同时也会看它生成出来的逻辑是不是合理,是否符合业务逻辑和执行顺序。

 

功能实现这一块,我们更关注的是完整性。也就是说,它不只是把主流程做出来,还要把异常情况和边界场景一并覆盖到。

 

在与现有开发模式的匹配度上,我们主要看了几个方面。

 

第一是开发规范的匹配。也就是说,它能不能符合我们现有的一些基础要求,比如数据标准、数据字典,以及日常开发中的命名规范等。

 

第二是内部工程的匹配度。我们会重点看它能不能识别我们现有的工程体系,包括已有的架构设计和长期形成的标准体系,并在这个基础上按照既有的架构结构去生成代码。

 

第三是内部文档的匹配度。因为我们在初期使用时也发现,很多 AI 工具更适合处理 Markdown 这类格式,但我们现有的大量存量文档,无论是项目、产品研发还是交付过程中的文档,很多仍然是以 doc 或者 excel 这类传统格式来管理的。所以我们也会评估,它的引入会不会额外增加文档维护、格式转换等成本。

 

当然,验证下来也不是没有问题。我们当时觉得,它在一些基础错误上还需要继续改进,比如类型转换这类问题;另外像依赖包解析、现有开发规范的加载,也还不够稳定。再加上上下文长度受限,token 一旦过长,有时就会出现任务中断这类异常情况。这些都是我们当时重点关注、也认为后续需要优化的地方。

 

基于这一轮验证,我们在 2025 年 5 月之后,开始在内部项目中逐步推广编程助手的使用,优先在一些关键的交付项目中落地。同时我们也会重点考虑金融行业的一些要求,比如数据安全、私有化部署等,确保工具能够真正用在安全的环境中,没有后顾之忧。

 

InfoQ:也有人认为,AI 现在的提效主要还是集中在写代码这一段,对整个软件工程链路的影响其实还比较有限,您怎么看?

 

吴娟:这个说法其实是成立的,但只说对了一半。编码确实是最容易被 AI 改造的环节,但它在整个软件工艺流程里的占比本身就不算太高,所以如果只停在这里,整体提效是有限的。所以我们一开始也是从编码切入,但很快就往测试、需求、设计这些环节去扩展,比如用 AI 生成测试用例、测试脚本,或者在需求和设计阶段用智能体去辅助相关角色。

 

AI 提效,不是为了裁人,而是为了解决人手不够

 

InfoQ:在引入 AI 之后,研发提效应该怎么衡量?像 DORA、SPACE 这些体系还适用吗,还是需要新增一些指标?

 

吴娟:从我们的实践来看,像 DORA 这类传统指标,在金融行业其实不会因为 AI 的引入而失效,反而依然是最核心的衡量标准。

 

比如部署频率、变更前置时间、变更失败率、服务恢复时间,这些对银行核心系统来说都是非常关键的健康指标。因为银行系统上线本身就有非常严格的流程,要提前报备、审批、对外公告,而且不能随意停机,所以生产稳定性始终是第一优先级。在这样的前提下,这些指标本身不会因为 AI 出现而改变。

 

另外,SPACE 这类框架本身就是从人的视角出发的,所以到了 AI 时代,我觉得它反而更有洞察力。像满意度、绩效、沟通协作这些维度都不会变。AI 更多是作为一个新的成员,或者辅助成员,参与到这些维度里面。

 

在质量指标上,我们依然非常看重,比如代码扫描覆盖度、缺陷密度等,而且在 AI 介入之后,要求甚至会更高。

 

我们在做验证时,是拿真实项目需求来对比的:一边是项目组按传统方式开发,另一边是用 AI 编程助手生成代码再由人工审核。然后用同一套标准去评估两边的结果。一方面用代码扫描工具去看问题数量和分布,另一方面让测试人员对两个版本做同样的功能验证,统计缺陷密度,比如千行代码的缺陷数量。

 

从结果来看,在代码扫描覆盖度和缺陷密度这两个维度上,AI 生成的代码和人工开发基本是持平的。也正是基于这一点,我们才认为它在质量上是可接受的,具备推广的前提。所以从这个角度来说,传统的质量指标在 AI 时代依然是必须坚持的。

 

至于一些效率类指标,比如人均代码行数、人均提交次数,我们其实在 AI 之前就已经淡化了。因为在我们的业务场景里,不同角色的工作性质差异很大,比如架构师可能每天产出的代码不多,但价值很高,而一些基础开发的提交量可能会更大,用这种指标去衡量并不合理。

 

即便在 AI 介入之后,这类指标可能更容易“做高”,但从软件质量和业务价值的角度来看,它们并不能反映真实的工程效果,尤其是在金融行业,这类指标的参考意义其实是比较有限的。

 

InfoQ:很多人觉得,AI 带来的提效更多还是停留在个人层面,还没有真正反映到组织绩效上,您怎么看?您这边的情况是怎样的?

 

吴娟:这种情况确实存在。AI 在初期更多体现为个人提效,比如原来两天做完的事,现在一天就能做完。但从项目整体来看,人员投入和交付周期未必马上会变,所以这部分效率提升,短期内不一定能直接反映到组织绩效上。

 

不过从我们的实践看,一些具体环节已经开始出现比较明显的组织级提效。

 

比如在测试用例编写这个环节,原来可能计划 5 个人一个月来完成,现在借助 AI 生成测试用例,只需要 1 个人做审核即可,而且在异常场景的覆盖上,AI 有时甚至比人工考虑得更全面。在这个环节,我们是可以明确统计出人力节省的。

 

再比如文档维护,特别是“文码一致性”这类工作。以前在项目交付后期,如果代码和设计文档严重不匹配,往往需要投入大约 15 个左右的人月来做文档补齐和修订。现在通过 AI 根据代码反向生成设计文档,这部分工作可以缩减到 3 到 5 个人月,节省效果也比较直观。

 

所以从我们的实际情况来看,AI 带来的提效,确实是可以逐步体现在组织层面的,只是它不是一开始就以“整体效率提升”的形式出现,而是先从局部环节突破,再慢慢累积出来。

 

InfoQ:现在有不少声音在说,AI 提效最终会走向裁员,您怎么看?

 

吴娟:从我们公司的情况来看,短期内还不会出现这种情况。

 

不过,如果企业一开始就把“用 AI 提效”的目标直接等同于裁员,其实反而会影响推广效果。员工的使用意愿会明显下降,甚至会出现抵触。

 

我们去年就看到过两种比较典型的反应:一种是觉得 AI 生成的代码质量不行,不愿意用;另一种则是觉得 AI 已经能写得很好了,反而担心被替代,也会产生抗拒心理。

 

所以我们在推广的过程中,一直给大家传导的思想是 AI 不会淘汰人,但是会淘法不会使用 AI 的人,鼓励大家用好 AI。AI 其实是检验人的水平的试金石,是辅助个人放大自身优势和能力的工具。

 

所以从组织推进的角度来看,AI 的落地不仅是技术问题,也是人的问题。如果一开始就把它和裁员绑定在一起,这件事本身就很难真正推开。

 

另外一个原因在于,我们面对的是金融这类复杂业务系统,整体工程复杂度比较高,所以 AI 在代码生成这一环节的效果,目前还存在一定边界。

 

这里面一方面是代码生成之后的可用度问题,另一方面也和具体场景有关。并不是所有场景都适合交给 AI。比如一些复杂的账务处理、事务一致性保障,以及银行 7×24 小时运行机制相关的代码实现,这些都高度依赖长期积累下来的工程经验,只有对业务和系统都非常熟悉的人,才能写出足够稳健的代码。

 

AI 目前在一些相对简单、标准化程度更高的场景里,效果还是比较明显的,比如查询、交易处理,或者增删改查这类业务逻辑。在金融这类复杂业务系统的开发过程中,它现阶段更适合承担辅助角色,帮助研发人员完成其中一部分工作。

 

当然,随着模型能力持续演进,再加上我们自己也在做智能体和知识库建设,这种能力还会继续提升。

 

但至少在当前阶段,我们认为它还不足以替代现有开发人员,尤其还替代不了那些经验比较丰富的开发人员。

 

从另一个角度来看,如果只保留经验丰富的开发人员,而忽略初级工程师的培养,反而可能带来能力断层。在金融系统开发中,这种断层的代价是很高的。当中间层级出现断档时,知识传递会受影响,进而影响系统稳定性。所以 AI 并不能简单地用来替代某一类人群,尤其不能通过削减初级工程师来换取所谓的效率提升。

 

从我们服务的客户来看,银行本身就受到严格监管,对合规、安全、稳定性都有很高要求。在新技术应用上,我们也会更关注这些方面。所以现阶段,AI 生成的代码仍然需要结合人工审核和把关,才能更好地应用到金融场景中。从这个角度来看,AI 目前更多还是起到辅助作用,还不足以支撑人员的直接缩减。

 

尤其是在金融合规这方面,AI 可以生成代码,但像合规判断、数据安全边界的控制,以及在出现问题时的责任承担,这些都必须由人来完成,而且依赖的是长期积累下来的经验。如果把 AI 带来的提效,直接用来压缩这部分人力,我们认为是一个风险很高的误判。

 

所以从我们的实际情况来看,目前的思路并不是“用 AI 减少人”。一方面,我们本身项目就比较多,经常会出现人员紧张、资源不够用的情况;另一方面,我们更希望把 AI 节省出来的人效,用来承接更多项目、覆盖更多场景,是把事情做得更多,而不是把做事的人变少。

 

现在看质量,未来看闭环:生产力考核的变化方向

 

InfoQ:现在很多大模型厂商会强调“AI 生成代码直接进入生产”的比例,你们会把这个作为过程指标去关注吗?

 

吴娟:我们内部其实更强调的是人机协同,而不是单纯去看“AI 生成代码占比”这样的指标。

 

即便引入了 AI,我们仍然有一套比较严格的流程规范。比如 AI 生成的代码,首先需要对应的工程师进行审核;工程师提交之后,开发组长还需要再做一轮代码 review。整个过程里,责任主体始终是开发人员,最终的提交和责任归属也都是以人为主。

 

所以我们并不会特别去强调“有多少 AI 代码直接进入生产”。从金融客户的角度来看,这类指标本身也不是他们最关心的。和一些互联网公司的开发模式相比,我们的流程会更加严格。所有代码都需要经过完整的开发、审核、测试流程,包括多轮测试和回归验证之后,才会进入不同环境,比如测试环境、行方的 FAT、UAT,最终再到生产环境。而在生产环节,流程会更加严格。所以在整个过程中,一定是有人参与、有多环节把控的,而不是简单地把 AI 生成的代码直接部署到生产环境。

 

InfoQ:现在有些公司会给开发者单独的 AI 预算,比如每月几千美元,用来调用模型。也有人说“如果不花掉与自己工资相当的 Token,就不算用好 AI”。从公司的角度看,这种投入怎么判断是否合理?

 

吴娟:我们的情况和很多互联网公司不太一样。很多互联网公司是基于公有云环境,直接调用像 Claude、Gemini、GPT 或国内的这类模型,所以成本主要体现在 token 消耗上。但在我们这里,天然就有私有化部署的要求。尤其是银行客户,关键系统大多还是要求在私有环境中运行。所以我们整体的投入,不是在 token 上,而是在 GPU 资源上。

 

目前我们是自采 GPU 资源,在内部部署模型,比如 DeepSeek、智谱 GLM 等。这种模式下,对开发者个人来说,并不存在“token 用多少”的成本问题,主要是公司层面的资源投入。

 

另外,我们也不会完全局限在现有的私有化模型上。像最新的一些模型能力,比如 Claude 等,我们也会做对比评估,看看在代码生成等场景下的差异,以及它们具体好在哪里。因为我们这个部门本身就是做软件工艺创新的,所以会承担一部分“先行探索”的角色。比如对一些新模型、新工具,我们会在小范围内做试点验证。但这种尝试是可控的,不会直接用真实的全部工程代码去做。

 

整体来看,这部分外部资源的消耗其实是比较小的,公司也可以支持。对我们来说,更核心的投入,还是在 GPU 资源这一块。

 

InfoQ:那在使用层面,你们会不会去评估个人的 ROI,比如有的人资源用得多,但产出相对少?

 

吴娟:我们目前更多还是正向鼓励大家去使用,而不是去做这种“用得多、产出少”的评价。因为不同角色之间其实是很难直接用同一套标准去衡量的。比如像架构师,在做一份架构设计方案时,可能会基于 AI 做多轮调研、反复推敲,过程中调用次数会比较多,但最终产出可能就是一份设计文档,或者几个架构原型。而开发人员在做一些相对标准化的功能开发时,调用次数可能也很多,但对应的代码产出也会比较多。这两类工作本身就不具备直接对比的基础。

 

所以我们不会简单用调用次数、资源消耗,或者产出多少,去判断一个人的使用效果,更不会据此做评价。在当前阶段,我们更看重的是把 AI 用起来、用好。只要它能够在实际工作中发挥作用,对我们来说就是有价值的。

 

InfoQ:从个人评价的角度来看,现在有些开发者会大量使用 agent,甚至通过并行方式来完成工作;而有些人仍然停留在辅助型用法。不同使用方式带来的生产力差异非常明显。如果从个人考评的维度来看,这种差异你们会纳入考量吗?

 

吴娟:不同用法带来的效率差异确实很明显。像辅助式用法,更多是持续交互;而 agent,尤其是多 agent,在一些批量处理场景里效率会更高。

 

比如代码扫描问题分析、单元测试生成、设计文档补充这类工作,更适合批量执行,可以让 AI 先跑完,再由人集中审核。但像架构设计、功能开发这类工作,往往还是需要持续交互,去确认代码匹配度、功能完整性和业务逻辑是否正确。

 

所以我们更看重的是场景是否合适,而不是简单判断哪种方式更好。现阶段,我们也不会因为一个人用了 agent 或多 agent,就直接把这类差异纳入个人考评。

 

InfoQ: 最后一个问题,现在 Agent 整体还处在比较早期的阶段,但从今年开始,它展现出来的能力已经有了很大的变化。如果再往未来看 3 到 5 年,变化可能会更大。您觉得到了那个时候,开发者生产力考核里最需要调整的,会是什么?

 

吴娟:我觉得变化一定会非常大。现在开发者使用 AI 工具,已经不只是最早那种问一句答一句的辅助方式了,而是在往“直接把任务做完”这个方向走。以前很多事情还需要反复交互,但随着多智能体协作越来越成熟,现在有些任务其实已经能由智能体自己闭环完成了。比如生成一份完整的 PPT,并直接放到指定路径下,这种能力已经开始应用了。

 

第一点,是考核从“代码产出”转向“任务闭环”。从编码这个角度来看,像提交次数、bug 修复数量这些指标,肯定不会再是首要关注的了。未来更重要的是看任务有没有形成闭环:开发者和编程助手(智能体)是怎么协同,把一个任务完整地做完,比如能不能把任务拆解清楚,让智能体自主完成模块开发,包括完成单测、功能验证,甚至自动部署到测试环境,走完内部“送测”的流程。

 

第二点,是从“个人产出”转向“可复用能力和知识沉淀”。不再只关注代码写得好不好,而是要看这个人的表达能力和逻辑完整性。换句话说,他是否能够“教会 AI 做事”,是否能够构建可复用的 Agent。这里有两个关键点:一是 Agent 本身可以复用,二是过程中沉淀的知识库、知识模板(例如提示词、规则、模板)可以积累下来。

 

因为我们在推广 AI 编码的过程中也发现,对于一些能力表现相对更好的人员来说,他们真正拉开差距的一个点,就在于能不能把自己使用 AI 的经验沉淀下来。比如在编码过程中,他们会把提示词,或者我们内部说的 rule 规则,也可以说是 skills,沉淀得非常好。这种沉淀一方面会直接提升他自己当前的代码生成质量,另一方面,这些积累下来的内容也可以拿到项目组里给其他人使用,甚至可以跨项目组复用。因为很多问题本身就是共性的。

 

所以在这种情况下,后面可能就要更多去看,一个人在知识沉淀上的贡献,或者说在智能体训练上的贡献。换句话说,就是他能不能成为一个“教会智能体做事”的人。通过这些能力,其实是为了提升 Agent 的复用能力,从代码层面来看,就是提升代码的可用度,以及在不同项目之间的复用占比。

 

第三点,是“可审计、可追溯”成为基础能力。不只是看事情有没有做完,还要看整个过程是不是可追溯的。因为金融软件对安全性和稳定性的要求非常高,银行系统的稳定性通常要做到多个“9”的级别,比如核心系统要 99.999%。一旦某个环节出现问题,我们必须能够追根溯源,找到问题是在哪个环节产生的,而不是只解决表面这一个问题,而是能够定位并解决这一类问题。

 

尽管很多工作可以交给智能体,但人依然需要具备能力去理解它做了什么。要能够跟踪 Agent 的行为轨迹,知道每一步的推理和调用关系。同时,开发者最终还是要对结果负责,这样在出现问题之后,才能保证整个过程是可追溯、可回放的。

 

第四点,是从“单一能力”转向“跨域能力”。过去我们的角色划分比较严格,需求、设计、开发、测试,各个环节的边界都比较清楚。后面用了 AI 之后,因为 AI 在各个环节里都可能做得比较好,这其实会改变我们对开发者的考核方式。

 

以前有些开发人员开发能力很强,但业务理解能力不够,或者需求沟通能力不够,未来这类单一能力可能就不够了。后面可能会更看重广度,而不只是深度,或者说,更看重这种跨域连接的能力。也就是他能不能把业务、数据和 AI 能力打通,成为中间的连接者;能不能让智能体理解公司整个开发流程,并在这个基础上去完成任务、优化过程;同时还要具备需求验证的能力,以及从整体上闭环去看任务验收的能力。

 

因为以前开发人员有一个比较明显的特点,就是把代码写出来、跑通、不报错,一个简单功能实现了,好像就完成了。他未必真正关注这个功能到底实现了什么、原始需求是什么,所以版本一旦交给测试人员,往往还会暴露出很多问题。但现在如果用了 AI,它不仅能帮你写代码,还能进一步生成各种业务场景下的测试用例,那开发人员就需要有能力去判断,这些业务场景是不是都覆盖到了。

 

所以对开发人员来说,未来需要具备的,是一种从前到后、能够把整个任务看完整的能力。

延伸阅读:

AI 提效 20%,我们程序员加班却越来越狠:老板量生产力的尺子,歪了?

 

原文链接: https://tecdat.cn/?p=45663
原文出处: 拓端抖音号@拓端tecdat
 

封面

关于分析师

在此对YouMing Zhang对本文所作的贡献表示诚挚感谢,他在东北大学完成了信息与计算科学专业的学士学位,专注 深度学习 、机器学习法领域。近期参与为某头部私域电商平台提供 AI 智能体选品与用户画像系统的架构设计与落地验证。

    • *

“私域流量是金矿,但挖矿的人快累死了。”这是近两年我们在一线交流中最高频听到的感叹。商家们手握成千上万的“好友”,却困在拉群、发券、答基础问题的无限循环里——复购率上不去,人力成本下不来。私域看似是你的“私人资产”,但在AI全面渗透商业的2026年,不升级“挖矿工具”,这座金矿的效率实际上并不属于你。

本文完整研究报告数据图表和文末300+份电商行业最新参考报告合集已分享在交流群,阅读原文查看、进群咨询,定制数据、报告和300+行业人士共同交流和成长。

从16.79%到64.07%:一场“人力”与“ 算力 **”的交接

你是不是也觉得,AI在电商里的应用无非就是自动回复和几张数字人直播?白皮书用数据打破了这一惯性认知。2025年,国内AI私域电商的GMV已达到 0.65万亿元,渗透率约16.79% ;更惊人的是预测——到2030年,市场规模将飙升至3.37万亿元,渗透率突破64.07%

这组数据揭示了一个本质跃迁:AI正在接管私域运营的“生产力”核心。 它不再是辅助聊天的插件,而是能够独立完成选品、导购甚至售后决策的“硅基员工”。

首先来看当前的市场构成。尽管传统私域仍占主导,但AI赋能的模式已展现出强大的增长潜能。

电商_AI私域电商市场构成圆环图表1

与此同时,渗透率的提升速度同样惊人。从辅助工具到核心引擎,AI私域电商正处在新一轮变革的起点。

电商_AI私域电商渗透率多边形条形图表2

我们制作了这张信息图,可以直观看到从“传统私域”到“AI原生私域”的价值重构逻辑。

电商_AI私域电商主题锚定信息图表1

过去,我们对于私域增长的理解,往往局限于如何批量导入流量,再做粗暴转化。而在亿欧智库提出的AI私域电商 模型 中,其本质是以大语言模型和AI智能体为基础设施,将运营模式从“人力密集型”升级为“算力驱动型”** 。这好比将个体商铺经营,升级为现代化的智能工厂流水线。

图2清晰地展示了这种市场动能:2025年的点与2030年的预测点之间,增长曲线陡峭,AI私域电商正处在新一轮变革的起点。

电商_AI私域电商认知反转信息图表2

重新理解“人、货、场”:当AI成为你的“超级团长”

白皮书敏锐地指出,AI对私域的改造,绝非简单的“+AI工具”,而是对“人、货、场”的范式重构。公域电商的逻辑是“一对多”追求爆款,而AI私域电商的逻辑是“一对一”的深度服务,其颗粒度细得像一个24小时待命的专属管家。

要理解这种重构的价值,不妨先看看目前头部平台的真实处境。2025年Q4,电商平台在即时零售和AI等新业务上的巨额投入,直接体现在了净利润率的分化上:阿里巴巴为5.9%,美团转亏至-16.4%,京东仅0.3%,而拼多多凭借海外业务Temu的强劲表现,仍保持21.2%的行业最高净利润率。

电商_平台净利率刻度线图表3

这种“增收不增利”的局面,恰好解释了为什么AI驱动的精细化运营变得如此紧迫——当流量红利见顶,深度挖掘用户终身价值就成了唯一的出路。

我们用一个分层图来帮你理解:什么样的私域模式属于“高危区”,什么样的布局才算踩中了“红利区”。

电商_AI私域电商价值分层信息图表3

从上图可以看到,如果你的私域运营还完全锁死在人工客服、无标签化群发、千篇一律的标准化推荐上,就正是处于“高风险/低价值区”。这就像大家都在用智能手机了,你还在依靠电报传递信息。

相反,进入“高价值/红利区”的玩家,都在做同一件事:利用AI智能体,基于用户记忆预测模型进行选品,实现千人千面的1对1个性化服务。 白皮书将这种转变的核心提炼为:从“流量收割”的短期逻辑,转向“用户资产深度经营”的长期主义。

AI技术在不同电商模式中的渗透路径各有不同。华源证券的一份研究将AI电商划分为三种模式,并对其核心能力做了量化对比:传统搜索对模糊需求的理解深度仅为“低”,以亚马逊Rufus为代表的“Farmer模式”为“中高”,而以ChatGPT和Gemini为代表的“Hunter模式”达到了“高”——后者不隶属于单一电商平台,理论上更倾向于在全网范围内寻找最优解。

电商_AI电商模式半圆面积比例图表4

这种“Hunter模式”的威力已经有了数据印证:由ChatGPT引导的零售网站访问转化率,从2024年6月的约6%跃升至2025年6月的约11%,一年内近乎翻倍。

电商_ChatGPT转化率阴影条形图表6

这说明,能精准匹配用户深层需求的“AI买手”,正在成为电商流量的新入口。

    • *

相关文章

2026AI医疗行业专题报告:智能医疗器械、手术机器人、脑机接口、可穿戴设备|附240+份报告PDF、数据、可视化模板汇总下载

原文 链接 **:https://tecdat.cn/?p=44979

    • *

鲸灵样板:500万数字团长背后的“硅基军团”

抽象的底层逻辑,需要具象的商业结果来佐证。白皮书详细拆解了鲸灵集团——“新一代AI私域电商平台”的运作方式,这为我们理解行业方向提供了绝佳的观察窗口。

过去,类似“团长”这样的角色,需要一个人完成选品、发素材、回答售前问题、处理售后。这种极度依赖个人体力与经验的操作方法,天花板极低,服务质量也很难保持稳定。

鲸灵集团的做法是打造了一支庞大的“硅基员工”队伍。这支队伍深度参与到电商的全生命周期中:

  • 智能选品:AI不用再去猜测市场爆款,而是基于500万数字团长积累的真实交易对话数据,进行需求预测。
  • AIGC素材:AI智能体结合团长真实的实拍素材,自动生成带有“活人感”的商品文案和图片,而非千篇一律的广告。
  • 自动化服务:服务Agent接管了高达 99% 的重复性咨询,让“数字团长”真正解放出来,专注于策略设定和关系维护这类更具价值的创造性工作。

我们用一张长图详细对比了传统私域运营与鲸灵AI全链路模式,后者清晰显示了AI如何从前端触达到后端售后全面重塑业务流。

电商_AI私域电商案例流程信息图表4

这种AI驱动的精细化运营,在其他平台的实践中同样得到了验证。 小红书 **《2026电商经营白皮书NPL》中有一个典型案例:女装品牌Blacknini初期老客占比高达98%,增长遭遇瓶颈。通过在小红书采取矩阵化IP拓圈、精细化运营群聊蓄水、根据用户反馈共创新品等动作,该品牌成功将老客占比降至50%左右,同时实现了单月生意破亿的跃迁。

电商_Blacknini老客占比多边形条形图表5

这个案例揭示了同一个核心规律:当AI将运营者从重复劳动中解放出来,他们就能将精力投入到用户关系、内容创新和策略迭代这些真正创造长期价值的事情上。

你的三步操作清单:从“看客”到“玩家”

基于白皮书的核心洞察,我们为决定要入局的商家,整理了一份可以立刻行动的落地指南。

电商_AI私域电商行动指南信息图表5

第一,用“人机结合”代替“纯人力”。
不要试图用AI完全取代你的团长或运营,而是让他们从一个“客服+销售”的角色,进化为“AI驯养师+策略师”。先在售前咨询、智能跟单这种重复性环节上用AI接住流量,释放团队的精力去做更核心的用户关系构建。

第二,从“记流水”到“建大脑”。
很多人只记录用户的成交数据,忽略了行为数据和对话数据。白皮书特别强调了“私域语料资产”的重要性。每一条来自用户的真实询问和反馈,都是喂养AI模型、让它更懂用户的最宝贵原料。你需要开始有意识地沉淀你的用户数据。

第三,借力成熟的AI平台快速切入。
对于大多数商家而言,没必要上来就自研模型。白皮书建议,可以直接接入市场上已经成熟的AI私域电商平台,比如本文分析的鲸灵模式,或者阿里、京东等巨头推出的AI工具。先用起来,90天内就可以看到运营效率的实际变化,远比闭门造车要现实得多。

获取文末所有参考行业报告及数据,进交流群,加小助手微信号:tecdat_cn

本文主要数据图表列表:

  • 电商_AI私域电商市场构成圆环图表1
  • 电商_AI私域电商渗透率多边形条形图表2
  • 电商_平台净利率刻度线图表3
  • 电商_AI电商模式半圆面积比例图表4
  • 电商_ChatGPT转化率阴影条形图表6
  • 电商_Blacknini老客占比多边形条形图表5
  • 电商_AI私域电商主题锚定信息图表1
  • 电商_AI私域电商认知反转信息图表2
  • 电商_AI私域电商价值分层信息图表3
  • 电商_AI私域电商案例流程信息图表4
  • 电商_AI私域电商行动指南信息图表5

本专题内的参考报告(PDF)目录

  • 《中国AI私域电商2026行业白皮书-亿欧智库》
  • 《互联网电商25Q4业绩总结及26年展望:AI深度赋能电商,线上消费迎拐点》
  • 《AI电商,海外巨头是如何实践的?》
  • 《2026《小红书电商经营白皮书NPL》》
    互联网电商25Q4业绩总结及26年展望:AI深度赋能电商,线上消费迎拐点.pdf
    2026-04-22 15:15
    跨境电商拉美市场进入战略白皮书.pdf
    2026-04-09 16:17
    2026《小红书电商经营白皮书NPL》.pdf
    2026-04-15 15:46
    2025抖音电商时尚红人之书-抖音电商&CBNData.pdf
    2025-10-27 16:21
    2026年情绪经济电商消费报告-Nint任拓.pdf
    2026-04-03 15:22
    AMZ123:全球电商市场报告——日本篇.pdf
    2026-04-13 15:26
    2026在家下厨烹饪消费电商数据报告.pdf
    2026-04-12 10:00
    飞瓜数据:2026年3月飞瓜抖音电商营销月报.pdf
    2026-04-15 15:44
    基于代际数字反哺的老年电商消费现状及建议.pdf
    2026-03-19 15:42
    飞瓜快数:2026年3月飞瓜快手直播电商月报.pdf
    2026-04-15 15:44
    中华二十四节气之春季夏抖音电商招商方案.pdf
    2026-03-31 17:47
    中国AI私域电商2026行业白皮书-亿欧智库.pdf
    2026-04-23 15:45
    2025中国跨境电商物流行业研究-灼识咨询.pdf
    2026-03-21 17:12
    2025年精油芳疗电商消费趋势-知行咨询.pdf
    2026-01-19 16:53
    2025年染发类目电商消费趋势-知行咨询.pdf
    2026-01-19 16:45
    飞瓜数据:2026年2月飞瓜抖音电商营销月报.pdf
    2026-03-12 16:10
    2025年洁面类目电商消费趋势-知行咨询.pdf
    2026-01-16 15:14
    “逛春天!”抖音商城溜达节西湖市集招商方案【电商】【抖音营销】.pdf
    2026-04-16 16:03
    2025年巧克力电商消费趋势-知行咨询.pdf
    2026-01-20 19:05
    2025年儿童鞋包电商消费趋势-知行咨询.pdf
    2026-01-20 18:51
    2025年防晒产品电商消费趋势-知行咨询.pdf
    2026-01-20 19:05
    2025中国贸促会跨境电商重点联系企业名录.pdf
    2026-03-27 15:36
    “逛春天!”抖音商城溜达节西湖市集招商方案【电商】【抖音营销】.pdf
    2026-04-03 15:16
    乳液面霜品类电商消费趋势-知行战略咨询.pdf
    2026-01-21 17:42
    友望数据:2025年度视频号电商生态洞察报告.pdf
    2026-02-21 09:19
    网经社:2026年Q1电商平台商家投诉数据报告.pdf
    2026-04-17 19:20
    2025年男士护理电商消费趋势-知行咨询.pdf
    2026-01-20 19:05
    AMZ123《2025跨境电商行业年度报告》.pdf
    2026-01-27 15:55
    2025年唇部彩妆类目电商消费趋势-知行咨询.pdf
    2026-01-15 15:29
    2025年面部精华类目电商消费趋势-知行咨询.pdf
    2026-01-15 15:29
    市场监管局:2025直播电商行业发展白皮书.pdf
    2026-03-09 16:34
    SHOPLINE订阅电商模式白皮书.pdf
    2025-12-17 16:14
    飞瓜数据:2026年1月飞瓜抖音电商营销月报.pdf
    2026-02-06 16:44
    飞瓜数据:2026年1月飞瓜快手直播电商月报.pdf
    2026-02-06 16:45
    双十一电商数据复盘——保暖衣.pdf
    2025-12-01 15:24
    2025年身体护理电商消费趋势-知行战略咨询.pdf
    2026-01-15 15:29
    抖音电商《woman天生出彩》3·8特别企划招商方.pdf
    2026-02-06 16:46
    2025年身体乳类目电商消费趋势-知行咨询.pdf
    2026-01-19 16:46
    Nint任拓:2026年三大电商消费趋势报告.pdf
    2026-02-02 15:58
    宝宝零食品类电商消费趋势-知行战略咨询.pdf
    2026-01-18 13:22
    网经社:2025年度中国跨境电商投诉数据与典型案例报告.pdf
    2026-03-10 16:23
    《抖音电商200个干货问题知识手册》.pdf
    2025-11-15 15:04
    知行战略咨询:2025年足部护理电商消费趋势报告.pdf
    2026-01-21 14:40
    沙利文:2026年中国跨境电商WMS白皮书.pdf
    2026-02-08 10:13
    网经社:2026年1月电商平台商家投诉数据报告.pdf
    2026-03-08 14:55
    2025双十一电商数据复盘——文胸.pdf
    2025-12-01 15:24
    知行战略咨询:2025年面部护肤电商消费趋势报告.pdf
    2026-01-19 16:49
    知行战略咨询:2025年足部护理电商消费趋势报告.pdf
    2026-01-19 16:48
    观潮&POP趋势:2026年春夏抖音电商时尚趋势报告.pdf
    2026-01-15 15:27
    2025年坚果零食电商消费趋势-知行战略咨询.pdf
    2026-01-20 19:05
    2025年方便速食类目电商消费趋势-知行咨询.pdf
    2026-01-20 18:51
    瓜数据:2025年12月飞瓜抖音电商营销月报.pdf
    2026-01-09 17:03
    2025电商榜单价值及影响力洞察报告.pdf
    2025-12-09 16:22
    知行战略咨询:2025年儿童服饰电商消费趋势报告.pdf
    2026-01-19 16:49
    电商大促新周期新打法洞察报告——从节点狂欢到常态深耕-艺恩.pdf
    2026-03-21 17:16
    2025盈风加速拉美聚焦跨境电商拉美市场进入战略白皮书-派安盈.pdf
    2026-04-07 15:40
    _知行战略咨询:2025年西式糕点电商消费趋势报告.pdf
    2026-01-18 13:19
    华源证券:AI应用追寻系列报告(四):AI电商,海外巨头是如何实践的?.pdf
    2026-04-19 08:19
    _知行战略咨询:2025年婴童尿裤电商消费趋势报告.pdf
    2026-01-18 13:19
    等其他300+份精选电商行业报告(进群获取完整目录)

人在现场,上下文却不在

做可观测性的人,都有过这种体验:

你在日志查看器里发现一堆 500 错误,想搞清楚原因。于是你选中日志、复制、打开另一个 AI 聊天窗口、粘贴、描述上下文、等待回答。等 AI 终于给出一个结论,你发现没有上下文,AI 根本没法准确分析。

人在现场,但解决问题的工作流早已断裂。

观测云做 Obsy AI Copilot 的初衷是:让 AI 不是另一个需要打开的窗口,而是当前页面里的副驾驶。 你在哪看数据,AI Copilot 就在哪理解数据、分析数据、甚至帮你采取行动。它就像你打高尔夫时的球童,开拉力赛时的领航员,就像是你磨合多年的好朋友。

远不止聊天机器人

传统 AI 助手是独立的。Obsy AI Copilot 是嵌入式的。

它能感知你当前正在查看的 Dashboard、监控视图、日志筛选条件、时间范围与图表定义。不需要你手动搬运上下文,Copilot 自动注入当前页面的全部观测语境,精准理解"你现在想解决什么问题"。

你只需要在当前页面,用自然语言直接发问,上下文会被自动注入与 Obsy AI Copilot聊天窗口。就像你在开拉力赛之前,领航员已经有了所有赛道的信息以及路书,以及你的驾驶习惯和性格特点。

图片

一些核心功能,已在你当前页面待命

1、自然语言建板(dashboard-intent)

当你想创建或修改一个 Dashboard/监控面板时,只要用自然语言描述分析目标,例如"分析近 7 天 API 错误率变化,并展示 TOP5 服务",Copilot 自动生成图表、标题、描述和初始布局,帮你快速得到第一版可用的分析面板。

图片

2、异常事件智能诊断(analyse-diagnose)

面对告警和故障,Copilot 可以采集日志、链路、容器、指标、主机等多维度数据,进行关联分析并生成根因分析报告。相当于在你的告警页面里直接派驻了一位 7×24 小时的值班分析师。

图片

3、DQL 智能生成(dql-generator)

不熟悉 DQL 语法?直接描述你想查什么,例如"查看过去一小时订单服务的错误日志"。Copilot 会自动生成对应的 DQL 查询语句,覆盖指标、日志、事件、链路全数据源,并完成语法校验。

图片

4、官网文档实时检索(mdsearch-doc-retrieval)

产品功能怎么配置?参数什么意思?排障步骤是什么?Copilot 会实时检索观测云官方帮助文档,给你准确的配置说明、操作指导和可点击的文档链接,避免你在知识库里翻找。

图片

5、页面数据智能分析(page-analysis)

无论你当前在看 Dashboard、RUM 前端性能页、链路追踪页还是任意数据页面,Copilot 都能基于当前视图做深度分析——总结页面核心数据、定位前端性能瓶颈、解析链路错误分布,让分析结论直接呈现在你眼前。

图片

即将上线:零切换的沉浸式场景

在未来迭代中,Copilot 将进一步实现"页面内零切换"的极致体验。以下三个场景正在路上,展示 Copilot 如何在你当前正在看的页面里,直接开始工作。

场景一:日志页 → 直接问"这些错误是什么导致的?"

用户在日志查看器已筛选好 source:nginx AND status:500,时间范围近 1 小时。打开 Copilot 侧边栏,输入:"这些错误是什么导致的?"

Copilot 自动携带当前页面的筛选条件和样本日志,直接给出分析结论:"主要是上游连接超时,集中在 /api/payment 路径。"

你没有复制粘贴任何日志,没有描述筛选条件,AI 已经知道你看见了什么。

图片

场景二:Dashboard → 直接说"给这个图加一条上周同期的对比线"

用户在查看「今日订单量」折线图,点击 Copilot:"给这个图加一条上周同期的对比线。"

Copilot 读取当前图表的指标定义,自动生成并添加 time_shift(7d) 查询,在同一图表渲染出两条线。

你没有手动写 DQL,没有新建图表,一句话完成同比分析。

图片

场景三:监控页 → 直接说"给这台机器配个告警"

用户在「主机监控」页,筛选出某台 CPU > 80% 的服务器。点击 Copilot:"给这台机器配个告警。"

Copilot 读取当前页面的主机 ID 和指标,生成告警规则草稿:"当 web-server-03 的 CPU 使用率 > 90% 持续 5 分钟时触发。"

你不需要手动填写主机标签和指标名,基于当前视图一键创建。

图片

三大价值,降低全团队可观测门槛

  • 以用户意图驱动:根据你所在页面自动注入上下文,结合筛选条件、图表定义、时间范围与视图状态,精准理解"你现在想解决什么问题"。
  • 嵌入式分析:将交互式分析直接嵌入观测云的工作流程。分析、解释与操作发生在当前页面,而不是把你带离正在处理的问题现场。
  • 适用于所有人的洞察:无需依赖资深运维、SRE 或可观测性专家。即使不熟悉 DQL、指标定义或查询语法,也能用自然语言获得清晰、可执行的分析结果。

更少切换,更低门槛,更快行动

总结成一句话:从人类"看见问题"到"理解问题"再到"执行操作",路径更短,决策更快。

Obsy AI 的起点

Obsy AI Copilot 是观测云 AI 原生战略的第一扇窗。它负责理解你所关注的一切,在你看数据的地方,陪你思考,帮你行动。而在它背后,Obsy AI 智能体团队(AI SRE、AI Devops 专家、AI 安全工程师、AI 测试工程师……)正在准备上场,即将重磅推出,负责执行你所决定的一切。

Copilot 是副驾驶,Agent 是执行团队。人机协同,才是 AI 时代可观测性的完整图景。

Obsy AI Copilot 现已上线。

打开观测云,在你当前正在看的页面里,直接开始工作。