2026年1月

许多安全团队仍在用点击率衡量钓鱼攻击。它易于追踪、便于放入演示文稿,但同时也具有误导性。测量点击率就像"测量潮汐涨落"——它会自然波动,很少能预测实际影响。

更有意义的问题是大多数防护项目无法回答的:如果攻击者进入邮箱,他们能造成多大破坏?

这才是真正的成熟度指标。不是完成率,也不是谁记得悬停查看URL。即使点击率微乎其微,只需一名员工稍不注意就足以酿成大祸。更不用说无需钓鱼攻击就能发生的收件箱入侵正日益普遍。

钓鱼攻击只是可能的入口;危机发生在后续阶段

在让首席信息安全官彻夜难眠的事件中,钓鱼攻击只是获取访问权限的手段。真正的问题在于攻击者进入后会发生什么:

  • 窃取多年的敏感邮箱数据和共享文件
  • 利用邮箱重置下游应用的密码
  • 使用被盗身份从可信来源钓鱼其他员工

多因素认证并非万能解药——有大量方法可以完全绕过它进入云工作空间。如果入侵不可避免,目标就从完美预防转向弹性防护。

无需猜测即可保护Google Workspace

通过为云工作空间实施自动化修复工作流,Material Security可处理繁琐事务——例如收回敏感附件或撤销危险的第三方应用权限——无需为每个事件手动干预。

申请演示

分层式弹性邮件安全方法

当今市场上大多数邮件安全工具仅专注于阻止入站攻击——即预防。这固然关键,但不能是唯一的防护措施。现代攻击速度太快、规模太大、手段太复杂。任何仅依赖入站防护的方案都是不足的。

预防
- 阻止入站威胁,修复错误配置,加固风险文件共享。尽可能在攻击发生前采取预防措施。

检测与恢复
- 具备在损害发生前发现入侵和接管迹象的可视化能力。不仅包括异常登录行为,还有数据访问模式、邮件转发规则、文件共享行为等账户异常迹象。

遏制
- 持续风险缓解措施,减少爆炸半径,最小化攻击者入侵账户后可能造成的损害。限制其窃取敏感数据、横向移动以及在环境中扩散攻击的能力。

大多数组织在预防方面做得相当好,但范围往往过于有限。较成熟的组织具备一定的检测响应能力。但极少能有效实施遏制。

缺失的层面:遏制

遏制措施并不炫目,也无法简单归入现有安全类别。但它对降低入侵严重性有着惊人影响。

可以这样理解:预防是保养汽车、安全驾驶、避免事故。检测响应是确保事故后人员安全并呼叫救援。遏制则是安全带和安全气囊:让碰撞灾难性降低的安全措施。

遏制不是口号,而是一套针对攻击者入侵后目标的实用控制措施:

提升邮箱窃取难度:
为何获得账户访问权就意味着能无限制获取多年的个人身份信息和财务报告?内部隔离——对敏感信息要求额外验证——可限制攻击者的"战利品"。

通过密码重置阻断横向移动:
如果想通过一项控制改变入侵轨迹,那就是:拦截密码重置邮件并强制额外多因素认证挑战,使被入侵邮箱不会变成身份失陷。

修复"设置债务":
攻击者钟爱遗留默认设置。禁用IMAP/POP(可绕过多因素认证)和清理应用专用密码是显著缩小爆炸半径的基础防护措施。

超越人工分类处理

大多数团队面临的障碍是时间。没有人手能手动审核每个文件权限或分类处理每个用户报告。

如果认真对待遏制,就需要能自动执行枯燥工作的系统——在后台检测风险并修复——让团队仅在真正需要判断时才介入。

应该衡量的替代指标

如果点击率只是潮汐,这些指标才能真正反映风险:

邮箱可窃取性:
无需额外验证即可访问多少敏感内容?

重置路径暴露度:
有多少关键应用可通过仅邮件密码重置访问?

遏制时间:
攻击者入侵后,您能以多快速度限制其行动?

邮件安全多年来过度关注前门防护。现在应该开始思考:如果攻击者此刻正在邮箱中,他们在接下来十分钟能做什么?您能以多快速度剥夺这种能力?

了解Material Security如何自动化实施遏制。

赞助撰写:Material Security

伊利诺伊州公共服务部(IDHS)作为该州最大的政府机构之一,因隐私设置错误,意外泄露了近70万居民的个人及健康数据。

该机构于9月22日发现数据泄露事件,当时发现家庭与社区服务司为资源分配决策创建的地图,因隐私控制配置不当,在某个地图网站上公开可见。

这些原本仅供内部使用(如指导办公室选址等决策)的地图,在去年问题被发现前已在网上公开访问多年。

此次数据泄露影响了两组伊利诺伊州居民。约672,616名医疗补助和医疗保险储蓄计划的受益人在2022年1月至2025年9月期间,其地址、案件编号、人口统计详情和医疗援助计划名称被在线暴露,但姓名未包含在内。

另一组规模较小的32,401名康复服务司客户,则在2021年4月至2025年9月期间暴露了包括姓名、地址、案件编号、案件状态和转介来源等信息。

IDHS表示:"2025年9月22日,IDHS发现家庭与社区服务司规划与评估局在地图网站上创建的地图因隐私设置错误而公开可见。该地图网站无法识别谁查看了这些地图。截至目前,IDHS未发现因此事件导致个人信息被实际或试图滥用的情况。"

发现事件后,IDHS将地图访问权限限制为授权员工,并于9月26日完成封锁。该机构还审查了所有暴露的地图,现已阻止将可识别客户信息上传至公共地图平台的尝试。

该机构正根据联邦健康隐私法的要求通知受影响个人,并向相关监管机构报告了此事件。

2024年12月,IDHS曾披露另一起数据泄露事件,攻击者在网络钓鱼攻击后入侵多个员工账户,访问了1,166,094人的个人信息。

Claude Code WebUI

项目地址: https://github.com/DevAgentForge/claude-code-webui

网页版的 Claude Code ,允许您部署后在任意设备通过网页进行 AI 编程,

ScreenShot

项目简介

Claude Code WebUI 让用户可以通过浏览器与 Claude Code 进行对话,兼容本地 Claude Code 配置。
该项目使用 React 构建前端,Bun 作为后端运行时,实现了完整的会话管理、实时消息流、权限控制等功能。

注意:目前可能仅支持 macOS/Linux ,所以下面的使用方法也仅针对这两类系统。

开始使用

在开始安装本项目之前,请先确保安装了 Bun 环境与 Claude Code, 如果已有,请忽略。

安装 Bun

curl -fsSL https://bun.sh/install | bash

安装 Claude Code

npm install -g @anthropic-ai/claude-code

运行 Claude Code WebUI

bunx @devagentforge/claude-code-webui@latest

如果你想自定义端口,可以设置环境变量

PORT=3000 bunx @devagentforge/claude-code-webui@latest 

从源码运行

git clone https://github.com/DevAgentForge/claude-code-webui.git
cd claude-code-webui 

bun i 
bun run build
bun run start

注意

本项目依赖文件 ~/.claude/settings.json, 与 Claude Code 共享此配置,请自行配置 Claude Code 。

撰稿:李文朋

编辑:王一鹏

最近,“Meta 以 20 亿美元收购 Manus”的消息传得很热。

Manus 曾被嘲讽“套壳”,但业内人士认为,虽然 Manus 整体架构和理念不算颠覆式“新”,但在任务连通性、容错、回退机制等实现上,极度考验工程能力,远不是“换个皮”那么简单。

 

在 Manus 创始团队与媒体的最近一次访谈中,联合创始人季逸超提出目前 Manus 定位只是一位“通用型助手”,帮普通人把复杂工作流做完,不能完全替代用户本身。这也是因为在 ToC 场景里,普通用户对体验要求很苛刻——慢一点不行,错一点也不行,Manus 团队很清楚这一点。

 

如果说 ToC 用户已经够“难伺候”,那 ToB 客户对 Agent 的要求只会更高:一方面,企业希望 Agent 真正“上生产”,意味着要接入复杂的权限体系、业务系统和合规要求;另一方面,任何一次错误操作、脏数据写入、流程走错,带来的代价都远比个人用户高得多。

 

所以会看到,过去一年很多企业在这条路上吃了不少苦:投入人力、投入预算,最后做出来的 Agent 用不了。MIT《2025 年商业 AI 现状》报告里提到,约 95%的生成式 AI 试点项目很难进入生产环境,很多最终都卡在上线前后。

 

问题出在哪?就在于这些一连串的工程难题。

 

比如代码标准不统一、系统接口五花八门、工具调用不稳定、开发周期被拉得很长;数据资产混乱、想用调不出;安全合规和权限管理一碰就痛;甚至出现“越用越退化”的优化难题。

 

说到底,并不是模型不行,也不是工程师不会做,而是整个 Agent 开发还不够成熟,大家还在摸索阶段,没有提前规划一套更清晰、更稳定的“做法”。

 

所以,国内的云厂商开始认真思考一个问题:到底怎样才能帮助企业把 Agent 的难题解决掉?有没有一种更适合落地的开发范式?

 

2025 云栖大会上,阿里云 CTO 周靖人就曾提出过「AI 时代的 Agent 开发范式」。而在 1 月 7 日,阿里云百炼对“1+2+N”体系和开发范式做了一次更系统的升级,把它落成一个工程化的体系。

 

这套“1+2+N”体系的想法并不复杂,本质是把 Agent 落地拆成三层:

 

稳底座(1):把模型和云资源这些基础能力做稳定、可扩展、可治理。地基不稳,再漂亮的 Agent 也只能停在 PoC。

 

定范式(2):给企业一套把 Agent 做成“工业产品”的开发与运行体系,能开发、能部署、能迭代,交付不再反复折腾。

 

理杂活(N):把真实业务里最难、最碎、但最致命的集成、权限、评测、成本这些“脏活累活”,做成可插拔的组件,让企业能按需拼装。

 

从这个角度看,这次阿里云百炼迭代背后体现的是一种更务实的方向:要用更工业化的方式,让企业的 Agent 在真实业务里跑起来。

 

一、“N”:通用大方案,不如啃硬骨头的“高手组件”

 

经过大量 Agent 的试错,企业如今在启动一个 Agent 项目时,最先拎出来掂量的往往不是模型,而是数据怎么处理与调用、安全问题能不能搞定、上线后怎么评估和优化。

 

这些硬问题不先解决,再漂亮的 Agent 构想也很难真正走进生产环境。而在阿里云百炼的“1+2+N”体系里,“N”恰恰就是优先来啃这些硬骨头的。

 

更关键的是,这一次“N”做了很大的升级:它把落地过程中那些最常见、最难啃、最容易反复踩坑的环节抽象出来,沉淀成一组可插拔、可组合的模块化组件。Agent 开发的难题看起来五花八门,但很多难题其实有共通的解法,可以被提炼、被复用。

 

“N”组件的存在,可以让企业缺什么就用什么、按需组合,把时间花在业务价值上,而不是重复造轮子。

 

这次升级里,一个直观的变化在应用广场:阿里云百炼把同类 Agent 做成了十多个精选合集,提供新的多模态模板,支持免登录体验,也能一键调用 API,把“试试到跑起来”的路径压得更短。

 

真正决定“能不能落地”的挑战,还有数据连接与知识管理、安全与权限控制、可观测与持续优化等问题。

 

企业做 AI 转型,数据治理永远是“卡脖子”环节。尽管大家都知道数据重要,但真落到工程上,标注、清洗以及让模型读懂私有数据的成本极其高昂。

 

目前,企业内部约 80%的数据以 PDF、图像、视频或会议录音等非结构化形式存在。据 IDC 预测,这些数据多处于“不可检索、不可复用”的沉睡状态。随着全球数据量预计在 2026 年激增至 221ZB,如何将这些碎片资产转化为 Agent 可调用的知识,成为企业发展的关键。

 

阿里云百炼的思路是把这条链路做成“工具化”:用多模态 RAG、多模态数据库、Connector 连接器,把数据处理变成更工业化的流水线。

 

多模态数据库通过智能解析、分类归档,打破图像/音频/视频等模态壁垒;多模态知识库 RAG 不再局限于纯文本,支持数十种格式的高精度解析,包括扫描件 PDF、复杂报表、音视频会议记录等。

 

在 Workflow 层面添加多模态文件处理与生成节点,同时提供覆盖 Chunking、Embedding、(多模态)Embedding、Rewrite、Retrieval、ReRank 等在内的向量化全流程能力,用于检索与消化企业数据资产。

百炼平台还提供开箱即用的 RAG 工具,企业无需自建复杂的向量库与检索链路,也能获得高性能的知识检索与生成能力。

 

把知识库做起来只是第一步。要让 Agent 真正有用,它就得能接入实时数据。然而,长期以来 ERP、CRM 等异构系统间的集成成本高昂,导致 65%的企业受访者认为业务系统沦为新的“数据孤岛”。

 

百炼平台推出的 Connector(企业级数据连接器),就是想把这个门槛降到最低。

 

通过 Connector,企业可以一键对接飞书、语雀、MySQL 及 OSS 存储;连上之后,这些数据既能直接喂给知识库,也能驱动工作流跑起来;平台还提供数十种预置工具(Tools),支持用自然语言直接查询或检索数据等。

 

当然,数据一旦接进来了,真正棘手的问题也随之出现:权限边界与责任归属难题。

 

长期以来,很多 Agent 在企业业务中多以匿名形式存在。这种“身份透明”导致操作链路难以溯源,不仅无法明确执行指令的主体,更埋下了越权操作的隐患。

 

为此,百炼平台引入 Agent Identity 组件,将 Agent 纳入企业身份治理的范畴。

 

通过集成 Okta、EntraID 等主流系统,平台为每个 Agent 分配数字身份,使其行为从孤立的匿名调用转变为绑定主体、可供审计的合规操作。

 

百炼平台也将传统的“常驻权限”升级为“按需授权”仅在执行任务时获得短期令牌,任务结束权限即刻回收。

 

配合权限降级机制,Agent 的边界被严格限制在用户授权范围内,确保无法越权。全链路审计日志则让每一步决策都透明可查,解决了企业“敢不敢给权限”的顾虑。

 

针对执行环境安全,百炼平台也构建了 Sandbox(沙盒)物理隔离屏障。当 Agent 处理外部代码或第三方数据时,系统可以利用虚拟化技术将其限制在独立空间内,精简系统调用并严控网络访问。

 

每一个任务会话均在“即用即弃”的容器中运行,执行完毕立即重置,彻底阻断了数据残留与交叉污染。平台同步引入实时监控与会话回放,一旦监测到异常行为将立即终止任务。这种设计为 Agent 提供了“受控下的自由”:在屏障内保持灵活性,在边界外确保系统安全。

 

而当 Agent 真正跑进业务之后,新的共性难题也会浮现:怎么评估、怎么持续改进。

 

与传统软件不同,Agent 的执行具有非确定性:即便输入相同,也可能因模型的随机性、工具调用顺序或上下文波动产生不同的输出。这导致开发者难以追踪 Agent 决策逻辑,在任务失败时无法精准定位是模型、工具还是流程缺陷。

 

百炼平台通过 Trace(可观测)与 Evaluate(评估)组件,实现了从“黑盒”到“透明”的转变。

 

Trace 组件提供完整的执行轨迹追踪,清晰复现了从思考(Thought)、行动(Action)到观察(Observation)的每一步。开发者可以判断哪一步耗时最长、哪个工具失败率最高,或是在哪个环节陷入了逻辑死循环。

 

结合 Token 消耗、响应速度等量化指标,这些数据可通过 Grafana 进行可视化监控,构建起实时的生产环境观测能力。

 

基于此,Evaluate 则建立了体系化的评价标准。

 

在任务完成度评价方面,百炼平台可以通过衡量目标满足率与输出质量对 Agent 进行评分;并支持“模型评测(LLMasJudge)”、专家打分与人工复查相结合的混合模式,对失败任务进行深度归因。

 

可以说,基于日志(Logs)、指标(Metrics)与追踪(Traces)的三大支柱,百炼平台设计了一个“评估—优化—验证”的持续迭代闭环。这种由数据驱动的迭代机制,也驱动着 Agent 实现“越用越好用”的工程闭环。

 

相比于自建底层架构,直接调用百炼平台的成熟组件能让开发周期缩减数倍。以 RAG 系统为例,以往搭建搜索和解析链路需要数周,现在利用多模态 RAG 组件,几个小时就能跑通。

 

企业不需要为每个 Agent 单独开发身份认证或数据接口,一套 Agent Identity 就能管好所有 Agent 的工号,一个 Connector 就能接通全公司的数据源。

 

放在阿里云百炼“1+2+N”体系中,组件化正填补模型到业务之间的最后一块拼图:模型提供计算力,开发范式定好流程,而这“N”个组件则专门负责解决数据怎么连、权限怎么划、效果怎么评、安全怎么管这些具体的“杂活”。

二、“2”:“下一代”Agent,需要新开发范式

 

“N”组件把坑填平,只解决了“这事能不能接得上、管得住”。企业真正要把 Agent 变成长期能用的工业生产能力,还得解决另一个现实问题:怎么开发、怎么协作、怎么迭代。

 

阿里云百炼“1+2+N”体系里的“2”,就负责这一点,它涵盖两种开发方式(低代码+高代码),以及配套 Agent 开发平台,通过同一套平台和运行时,分别服务两类人、两种交付方式。

 

为什么要做成“2”种模式?因为企业落地 Agent 的过程,基本就是两条路同时走:想快速试点、尽快看到效果,低代码更省事、更快;真要进核心业务、对接复杂系统,高代码才够灵活、够深。

更现实的是,企业在代码协作上存在长期的“割裂”:低代码不够用,高代码效率低。产品经理用低代码搭建的草案,往往需要技术团队用高代码重新开发,而这种重复劳动会导致业务逻辑在传递中失真。

 

为了让 Agent 更快、更深地融入业务,百炼把低代码和高代码“打通”:企业可以从低代码起步做验证,再逐步演进到高代码做优化,形成一种更自然的渐进式开发,让真正懂业务的人与懂技术的人有机协作。

 

据 Gartner 的预测,到 2028 年,企业里相当一部分 Agent 应用会由业务人员主导搭建。双开发模式很可能会成为 Agent 走向工业化落地的一种主流形态。

 

但“2”的意义还不止是“怎么写代码”。更重要的是:下一代 Agent 本身就需要新的开发范式。

 

过去的一年,很多企业里的 Agent 实际上还停留在比较“表层”的形态:一种是以提示词工程为核心、更多承担辅助角色的 Copilot;另一种是能处理重复流程、严格按预设步骤执行的“数字员工”。它们能提升效率,但往往缺少主动规划与闭环执行能力。

 

Agent 不应仅“被告知怎么做”,而是“应该主动思考怎么做”。

 

因此阿里云百炼提出了 Agent2.0:未来的 Agent 要能围绕目标自主规划,把复杂问题拆成可执行的小任务,过程中还能根据反馈调整策略,最后交付更稳定、质量更高的结果。

 

按照这个定义,Agent2.0 的核心链路是“规划—执行—反思”。

 

而现实里很多 Agent 开发失败,问题往往是开发范式还停留在老路上。传统那种线性链路(用户 →Agent→ 模型 → 输出)有三个硬伤:没有规划,就很难应对动态场景;没有反馈与纠错,走偏就很难拉回来;没有长期记忆,交互体验容易断裂。

 

为了能承载 Agent2.0 的生产级落地,百炼平台对开发范式做了系统升级:AgentScope 从过去偏“开源写代码”的工具形态,演进为覆盖 Agent 全生命周期的工业化开发平台。

第一步,是把“上手门槛”压到尽量低。

 

一方面,AgentScope 做了对主流模型能力的统一集成,内置 100+预训练模型,拿来就能用。

 

另一方面,百炼平台提供了一批可复用的智能体库,比如交易智能体(EvoTraders)、调研智能体、金融分析智能体、数据科学智能体(Data-Juicer)、浏览器使用智能体、语音智能体等,减少从零开始的成本。

 

第二步,是围绕更高级的 Agent2.0,把“协作与执行”能力补齐。

 

AgentScope 主要通过三块来支撑:

 

多智能体编排:引入基于 Actor 模型的分布式架构,支持多个专业 Agent 的并行协作与自动调度。研究表明,协作模式任务成功率比单一 Agent 高出 90.2%。

 

智能体上下文管理(长期记忆):深度适配 Mem0、ReMe 等记忆系统。使得 Agent 能够自主存储并检索历史交互中的关键信息,在后续任务中实现能力的持续迭代。

 

工具调用能力:全面兼容 StreamableHTTP、SSE、STDIO 等主流接口标准。通过支持 AnthropicAgentSkill 规范,在运行时即可动态加载新工具或移除冗余资源。

 

在工具调用这层,ReAct 这类“边想边做”的范式,也被不少实践证明更容易形成任务闭环:学术基准测试中,ALFWorld 任务只需 2 个示例即可达到 71%的成功率,高于强化学习模型的 37%;在复杂任务中,准确率相较纯 FunctionCalling 提升约 15%–20%,成本比 CodeAct 低 78.9%。

 

在 Agent2.0 优化与部署阶段,阿里云百炼通过 AgentScope-Studio+AgentScope-Runtime 打通了全生命周期的工业化链路。

 

AgentScope-Studio 可通过自定义多维表现指标,评估工作流设计的合理性;提供从输入到输出的全链路追踪与可视化,让 Agent 行为与决策过程实现“可观测、可复盘”。

 

百炼平台利用评测结果持续改进,让失败样本成为训练资产,形成“评测→优化→验证→再优化”的迭代闭环,实现从“盲目调参”到“数据驱动优化”的范式转换。

 

在落地部署环节,AgentScope-Runtime 支持 Docker、K8S、ACK、Serverless 等多种部署形态;通过 Agent-as-a-Service 将 Agent 封装为可独立调用的 API 服务,兼容 A2A 与 ResponseAPI 等协议,便于集成、弹性扩缩与快速迭代。

 

如果把阿里云百炼的开发范式拆开来看,其实就是从“构建”走向“运营”的一个完整闭环。

 

前半段构建,重点是更快、更省力地把东西搭起来:

 

用可选智能体模板减少重复劳动;用多智能体编排与工作流把复杂任务拆成可协作的子任务;用高低代码一体化实现统一开发与交付;通过 ReAct 等方式完成多任务的规划、执行与自我纠偏,再结合用上下文和长期记忆支撑长链路执行等。

 

后半段上线运营,就是做让它智能地跑起来:

 

用可观测和自动化评测把效果变成可量化的指标;打通真实系统和数据源,拿到反馈并持续优化;在企业既有基础设施上实现更便捷的部署与稳定运维;同时借助 Identity、模型单元专属部署、机密推理等能力,把权限、安全与合规治理补齐。

 

这套开发范式的最大亮点,就是它统一按照“工业级 Agent2.0”的标准做事:高效的开发体系+可持续的反馈闭环+便捷可靠的上线部署。

 

三、“1”:模型优势之外,深挖“模型服务”工程

 

最后,无论是组件化拼装,还是低/高代码协作,最终都要落在同一个问题上:模型调用能不能稳定、能不能扛流量、能不能控成本、能不能过合规。

 

所以“1”是整个体系的地基——模型与云服务底座把推理服务、弹性、部署形态与安全边界做成统一供给,保证上层“能跑起来,也跑得久”。

 

很多企业在用 Agent 的过程中,卡住的往往不是“模型会不会”,而是一些更现实、更工程的问题:1)延迟、并发、稳定性跟不上真实业务流量;2)成本容易失控(链路长、多轮工具调用、重试一多就更明显);3)部署和合规麻烦(私有化、混合云、权限边界、数据隔离等)。

 

在调用模型的时候,企业最关心的也无非就两件事:成本与性能。为此,百炼平台提供了一套云资源调度组合拳:“异步调用+闲时调度”。

 

以前搞大规模的数据清洗、标注,或者是分析长视频,这些任务不仅计算密集,而且耗时漫长。最头疼的就是走“同步调用”,跑到一半接口超时了,任务断掉,前面全白干。

 

有了异步调用就省事多了,它像寄快递一样,你把任务丢给后台,拿个任务 ID,就可以去干别的。不用在那儿死等结果,等服务器处理完了你再回来取就可以。

 

而“闲时调度”更像“错峰用电”:不着急的任务挪到资源空闲的时候跑,单价更划算,整体资源利用率也更高。阿里云百炼官方给出的数据是,动态调度后闲时推理成本可降低 50%。对需要处理海量数据的企业来说,这种节省是实打实的。

 

此外,阿里云百炼这次把“模型服务能力”也做了系统升级,主要围绕四块:模型后训练、专属模型单元部署、平台可观测、推理安全防护,系统性地”深挖“模型的服务能力。

 

先从选型说起。百炼平台把模型体验中心做了结构性重构,把在线模型的能力做成更直观的“能力图谱”,支持文本、视觉理解、图像/视频生成、语音交互等全模态体验。

 

这样企业就不用靠猜,也不用“盲选”,可以在平台上直接对比不同模型在具体场景下的表现,再做选择。

 

模型选定之后,是否“实用”往往取决于后训练。很多企业真正需要的不是通用能力,而是用自家数据和业务知识微调出来的“专家模型”,这才更贴近业务,也是企业的核心壁垒。

 

模型训完后,真正容易被“拦住”的常常是部署。自建集群运维复杂、成本也难估:为了应付峰值不得不预留一堆算力,平时又闲着浪费;多租户环境下的数据隔离和性能争抢,会让企业心里不踏实。

 

阿里云百炼推出“模型单元”部署,其实相当于给企业开了条“专属通道”,减少资源争抢带来的不确定性,让高并发和低延迟更稳定。

 

同时提供全托管的 Serverless 方式:系统会跟着实时流量自动扩缩容——忙的时候自动扩,保证体验;闲的时候自动收,尽量省成本。

 

官方给出的测试数据里,模型单元部署相对传统自建集群方案,推理性能提升超过 1.3 倍,并发能力提升超过 1.5 倍。对企业来说,这类提升的意义很直接:同样的业务量,成本更低性能更好。

 

此外,调用模型处理数据时,最难绕开的是安全——尤其在金融、医疗、法律等高敏行业。很多企业不是不想用,而是卡在一句话:数据给到模型,会不会出事?

 

为此,百炼平台推出模型“机密推理服务”,依托三层安全架构,为企业构建起全链路的数据保护围墙:

 

第一层是基于 CPU/GPU 硬件可信执行环境的机密计算能力,将模型推理运行在硬件隔离的安全区内。即便云侧其他组件遭受攻击,敏感数据也难以被窃取或泄露。

 

第二层是端到端加密的可信链路:实现了从用户端到云端计算中心的全程加密传输。数据在加密状态下进入 TEE 区域处理,计算结果在加密状态下返回,确保数据在“流动”与“处理”的全生命周期中始终处于保护伞下。

 

第三层是公开审计的可信服务:平台提供可验证的身份与安全能力证明。企业不仅能自主校验服务安全性,更能以此作为合规背书,向管理层、审计机构及客户证明其 AI 系统的高安全性。”

 

在使用体验上,机密推理被做成了“一键交付”的形态:企业只需要在模型库中选择支持机密推理的版本,一键部署到 TEE 隔离环境,就能直接调用机密推理服务来处理敏感数据。

 

放在一起看,这次升级是在原有模型性能优势之上,又补上了几块关键拼图:云资源调度、后训练、模型单元化部署、机密推理安全体系等。几块一起发力,让大模型调用变得更实用、更省钱,也更安全。

四、没人愿意再“从零开始”,阿里云百炼 Agent 平台企业版已发布

 

从市场角度来看,政企、金融、医疗等行业在采购云服务时,始终受困于一种不完美的平衡。

 

公有云上手快、性能强,但数据边界与合规要求是跨不过的门槛;私有化部署虽有安全感,但往往陷入“模型、工具、流程”极其复杂的运维战泥潭,开发周期长、技术更新慢。

 

1 月 7 日,阿里云百炼企业版的发布,为市场提供了一个既保留数据主权,又拥有云端顶级效率的方案。

 

企业版支持专有云、本地化及 VPC 隔离,百炼平台将云端的成熟能力“下沉”至企业环境。更重要的是,百炼平台企业版支持源码级交付。这不仅仅是技术开放,更是给予企业自主演进的确定性。

 

企业不再需要买一堆零件回去组装,而是直接获得一个在自身安全边界内运行的 Agent 基座。

 

事实上,企业版也并非新功能的简单集合,而是将百炼平台“1+2+N”体系(顶级模型、成熟范式、核心组件)封装为完整的交付体:

 

双代码统一:兼顾业务验证的敏捷性与复杂逻辑的深度定制。

 

多模态 RAG:激活企业沉睡的音视频与文档资产,转化为实时知识。

 

Trace 与 Evaluate:将 Agent 的黑盒行为拉到台面上,让调试与迭代成为标准工序。

 

大规模组织的管理诉求:企业版强化了多租户部署、SSO 账号集成以及细粒度的权限审计。这些功能解决了 IT 部门的核心忧虑——让 Agent 的应用在组织内部不仅“能跑通”,更“可治理”。

 

一个行业走向成熟的标志,是目光从技术指标移向业务价值的“深水区”。

 

阿里云百炼 Agent 平台企业版,本质上在扮演“AI 时代技术中台”的角色。从行业趋势上看,未来企业大概率将不会从零开始建设 AI 能力,而是直接基于一个完整、成熟的技术中台起步。

 

这意味着,在一年的野蛮生长后,留给企业 AI 试错的窗口期正在关闭。

 

展望 2026 年,Agent 应用爆发增长几乎已成共识。Gartner 预测,到 2026 年底,40%的企业应用将集成任务型 AI agents(相比 2025 年不足 5%),这也标志着 Agentic AI 正从概念走向主流生产环境。

 

对阿里云这样的全栈人工智能服务商而言,这将是多年技术积累转化为业务增量的红利期;对使用模型与 Agent 的企业客户而言,也将是 Agent 正式进入“拼效率、拼落地”的竞争元年。

撰稿:李文朋

编辑:王一鹏

最近,“Meta 以 20 亿美元收购 Manus”的消息传得很热。

Manus 曾被嘲讽“套壳”,但业内人士认为,虽然 Manus 整体架构和理念不算颠覆式“新”,但在任务连通性、容错、回退机制等实现上,极度考验工程能力,远不是“换个皮”那么简单。

 

在 Manus 创始团队与媒体的最近一次访谈中,联合创始人季逸超提出目前 Manus 定位只是一位“通用型助手”,帮普通人把复杂工作流做完,不能完全替代用户本身。这也是因为在 ToC 场景里,普通用户对体验要求很苛刻——慢一点不行,错一点也不行,Manus 团队很清楚这一点。

 

如果说 ToC 用户已经够“难伺候”,那 ToB 客户对 Agent 的要求只会更高:一方面,企业希望 Agent 真正“上生产”,意味着要接入复杂的权限体系、业务系统和合规要求;另一方面,任何一次错误操作、脏数据写入、流程走错,带来的代价都远比个人用户高得多。

 

所以会看到,过去一年很多企业在这条路上吃了不少苦:投入人力、投入预算,最后做出来的 Agent 用不了。MIT《2025 年商业 AI 现状》报告里提到,约 95%的生成式 AI 试点项目很难进入生产环境,很多最终都卡在上线前后。

 

问题出在哪?就在于这些一连串的工程难题。

 

比如代码标准不统一、系统接口五花八门、工具调用不稳定、开发周期被拉得很长;数据资产混乱、想用调不出;安全合规和权限管理一碰就痛;甚至出现“越用越退化”的优化难题。

 

说到底,并不是模型不行,也不是工程师不会做,而是整个 Agent 开发还不够成熟,大家还在摸索阶段,没有提前规划一套更清晰、更稳定的“做法”。

 

所以,国内的云厂商开始认真思考一个问题:到底怎样才能帮助企业把 Agent 的难题解决掉?有没有一种更适合落地的开发范式?

 

2025 云栖大会上,阿里云 CTO 周靖人就曾提出过「AI 时代的 Agent 开发范式」。而在 1 月 7 日,阿里云百炼对“1+2+N”体系和开发范式做了一次更系统的升级,把它落成一个工程化的体系。

 

这套“1+2+N”体系的想法并不复杂,本质是把 Agent 落地拆成三层:

 

稳底座(1):把模型和云资源这些基础能力做稳定、可扩展、可治理。地基不稳,再漂亮的 Agent 也只能停在 PoC。

 

定范式(2):给企业一套把 Agent 做成“工业产品”的开发与运行体系,能开发、能部署、能迭代,交付不再反复折腾。

 

理杂活(N):把真实业务里最难、最碎、但最致命的集成、权限、评测、成本这些“脏活累活”,做成可插拔的组件,让企业能按需拼装。

 

从这个角度看,这次阿里云百炼迭代背后体现的是一种更务实的方向:要用更工业化的方式,让企业的 Agent 在真实业务里跑起来。

 

一、“N”:通用大方案,不如啃硬骨头的“高手组件”

 

经过大量 Agent 的试错,企业如今在启动一个 Agent 项目时,最先拎出来掂量的往往不是模型,而是数据怎么处理与调用、安全问题能不能搞定、上线后怎么评估和优化。

 

这些硬问题不先解决,再漂亮的 Agent 构想也很难真正走进生产环境。而在阿里云百炼的“1+2+N”体系里,“N”恰恰就是优先来啃这些硬骨头的。

 

更关键的是,这一次“N”做了很大的升级:它把落地过程中那些最常见、最难啃、最容易反复踩坑的环节抽象出来,沉淀成一组可插拔、可组合的模块化组件。Agent 开发的难题看起来五花八门,但很多难题其实有共通的解法,可以被提炼、被复用。

 

“N”组件的存在,可以让企业缺什么就用什么、按需组合,把时间花在业务价值上,而不是重复造轮子。

 

这次升级里,一个直观的变化在应用广场:阿里云百炼把同类 Agent 做成了十多个精选合集,提供新的多模态模板,支持免登录体验,也能一键调用 API,把“试试到跑起来”的路径压得更短。

 

真正决定“能不能落地”的挑战,还有数据连接与知识管理、安全与权限控制、可观测与持续优化等问题。

 

企业做 AI 转型,数据治理永远是“卡脖子”环节。尽管大家都知道数据重要,但真落到工程上,标注、清洗以及让模型读懂私有数据的成本极其高昂。

 

目前,企业内部约 80%的数据以 PDF、图像、视频或会议录音等非结构化形式存在。据 IDC 预测,这些数据多处于“不可检索、不可复用”的沉睡状态。随着全球数据量预计在 2026 年激增至 221ZB,如何将这些碎片资产转化为 Agent 可调用的知识,成为企业发展的关键。

 

阿里云百炼的思路是把这条链路做成“工具化”:用多模态 RAG、多模态数据库、Connector 连接器,把数据处理变成更工业化的流水线。

 

多模态数据库通过智能解析、分类归档,打破图像/音频/视频等模态壁垒;多模态知识库 RAG 不再局限于纯文本,支持数十种格式的高精度解析,包括扫描件 PDF、复杂报表、音视频会议记录等。

 

在 Workflow 层面添加多模态文件处理与生成节点,同时提供覆盖 Chunking、Embedding、(多模态)Embedding、Rewrite、Retrieval、ReRank 等在内的向量化全流程能力,用于检索与消化企业数据资产。

百炼平台还提供开箱即用的 RAG 工具,企业无需自建复杂的向量库与检索链路,也能获得高性能的知识检索与生成能力。

 

把知识库做起来只是第一步。要让 Agent 真正有用,它就得能接入实时数据。然而,长期以来 ERP、CRM 等异构系统间的集成成本高昂,导致 65%的企业受访者认为业务系统沦为新的“数据孤岛”。

 

百炼平台推出的 Connector(企业级数据连接器),就是想把这个门槛降到最低。

 

通过 Connector,企业可以一键对接飞书、语雀、MySQL 及 OSS 存储;连上之后,这些数据既能直接喂给知识库,也能驱动工作流跑起来;平台还提供数十种预置工具(Tools),支持用自然语言直接查询或检索数据等。

 

当然,数据一旦接进来了,真正棘手的问题也随之出现:权限边界与责任归属难题。

 

长期以来,很多 Agent 在企业业务中多以匿名形式存在。这种“身份透明”导致操作链路难以溯源,不仅无法明确执行指令的主体,更埋下了越权操作的隐患。

 

为此,百炼平台引入 Agent Identity 组件,将 Agent 纳入企业身份治理的范畴。

 

通过集成 Okta、EntraID 等主流系统,平台为每个 Agent 分配数字身份,使其行为从孤立的匿名调用转变为绑定主体、可供审计的合规操作。

 

百炼平台也将传统的“常驻权限”升级为“按需授权”仅在执行任务时获得短期令牌,任务结束权限即刻回收。

 

配合权限降级机制,Agent 的边界被严格限制在用户授权范围内,确保无法越权。全链路审计日志则让每一步决策都透明可查,解决了企业“敢不敢给权限”的顾虑。

 

针对执行环境安全,百炼平台也构建了 Sandbox(沙盒)物理隔离屏障。当 Agent 处理外部代码或第三方数据时,系统可以利用虚拟化技术将其限制在独立空间内,精简系统调用并严控网络访问。

 

每一个任务会话均在“即用即弃”的容器中运行,执行完毕立即重置,彻底阻断了数据残留与交叉污染。平台同步引入实时监控与会话回放,一旦监测到异常行为将立即终止任务。这种设计为 Agent 提供了“受控下的自由”:在屏障内保持灵活性,在边界外确保系统安全。

 

而当 Agent 真正跑进业务之后,新的共性难题也会浮现:怎么评估、怎么持续改进。

 

与传统软件不同,Agent 的执行具有非确定性:即便输入相同,也可能因模型的随机性、工具调用顺序或上下文波动产生不同的输出。这导致开发者难以追踪 Agent 决策逻辑,在任务失败时无法精准定位是模型、工具还是流程缺陷。

 

百炼平台通过 Trace(可观测)与 Evaluate(评估)组件,实现了从“黑盒”到“透明”的转变。

 

Trace 组件提供完整的执行轨迹追踪,清晰复现了从思考(Thought)、行动(Action)到观察(Observation)的每一步。开发者可以判断哪一步耗时最长、哪个工具失败率最高,或是在哪个环节陷入了逻辑死循环。

 

结合 Token 消耗、响应速度等量化指标,这些数据可通过 Grafana 进行可视化监控,构建起实时的生产环境观测能力。

 

基于此,Evaluate 则建立了体系化的评价标准。

 

在任务完成度评价方面,百炼平台可以通过衡量目标满足率与输出质量对 Agent 进行评分;并支持“模型评测(LLMasJudge)”、专家打分与人工复查相结合的混合模式,对失败任务进行深度归因。

 

可以说,基于日志(Logs)、指标(Metrics)与追踪(Traces)的三大支柱,百炼平台设计了一个“评估—优化—验证”的持续迭代闭环。这种由数据驱动的迭代机制,也驱动着 Agent 实现“越用越好用”的工程闭环。

 

相比于自建底层架构,直接调用百炼平台的成熟组件能让开发周期缩减数倍。以 RAG 系统为例,以往搭建搜索和解析链路需要数周,现在利用多模态 RAG 组件,几个小时就能跑通。

 

企业不需要为每个 Agent 单独开发身份认证或数据接口,一套 Agent Identity 就能管好所有 Agent 的工号,一个 Connector 就能接通全公司的数据源。

 

放在阿里云百炼“1+2+N”体系中,组件化正填补模型到业务之间的最后一块拼图:模型提供计算力,开发范式定好流程,而这“N”个组件则专门负责解决数据怎么连、权限怎么划、效果怎么评、安全怎么管这些具体的“杂活”。

二、“2”:“下一代”Agent,需要新开发范式

 

“N”组件把坑填平,只解决了“这事能不能接得上、管得住”。企业真正要把 Agent 变成长期能用的工业生产能力,还得解决另一个现实问题:怎么开发、怎么协作、怎么迭代。

 

阿里云百炼“1+2+N”体系里的“2”,就负责这一点,它涵盖两种开发方式(低代码+高代码),以及配套 Agent 开发平台,通过同一套平台和运行时,分别服务两类人、两种交付方式。

 

为什么要做成“2”种模式?因为企业落地 Agent 的过程,基本就是两条路同时走:想快速试点、尽快看到效果,低代码更省事、更快;真要进核心业务、对接复杂系统,高代码才够灵活、够深。

更现实的是,企业在代码协作上存在长期的“割裂”:低代码不够用,高代码效率低。产品经理用低代码搭建的草案,往往需要技术团队用高代码重新开发,而这种重复劳动会导致业务逻辑在传递中失真。

 

为了让 Agent 更快、更深地融入业务,百炼把低代码和高代码“打通”:企业可以从低代码起步做验证,再逐步演进到高代码做优化,形成一种更自然的渐进式开发,让真正懂业务的人与懂技术的人有机协作。

 

据 Gartner 的预测,到 2028 年,企业里相当一部分 Agent 应用会由业务人员主导搭建。双开发模式很可能会成为 Agent 走向工业化落地的一种主流形态。

 

但“2”的意义还不止是“怎么写代码”。更重要的是:下一代 Agent 本身就需要新的开发范式。

 

过去的一年,很多企业里的 Agent 实际上还停留在比较“表层”的形态:一种是以提示词工程为核心、更多承担辅助角色的 Copilot;另一种是能处理重复流程、严格按预设步骤执行的“数字员工”。它们能提升效率,但往往缺少主动规划与闭环执行能力。

 

Agent 不应仅“被告知怎么做”,而是“应该主动思考怎么做”。

 

因此阿里云百炼提出了 Agent2.0:未来的 Agent 要能围绕目标自主规划,把复杂问题拆成可执行的小任务,过程中还能根据反馈调整策略,最后交付更稳定、质量更高的结果。

 

按照这个定义,Agent2.0 的核心链路是“规划—执行—反思”。

 

而现实里很多 Agent 开发失败,问题往往是开发范式还停留在老路上。传统那种线性链路(用户 →Agent→ 模型 → 输出)有三个硬伤:没有规划,就很难应对动态场景;没有反馈与纠错,走偏就很难拉回来;没有长期记忆,交互体验容易断裂。

 

为了能承载 Agent2.0 的生产级落地,百炼平台对开发范式做了系统升级:AgentScope 从过去偏“开源写代码”的工具形态,演进为覆盖 Agent 全生命周期的工业化开发平台。

第一步,是把“上手门槛”压到尽量低。

 

一方面,AgentScope 做了对主流模型能力的统一集成,内置 100+预训练模型,拿来就能用。

 

另一方面,百炼平台提供了一批可复用的智能体库,比如交易智能体(EvoTraders)、调研智能体、金融分析智能体、数据科学智能体(Data-Juicer)、浏览器使用智能体、语音智能体等,减少从零开始的成本。

 

第二步,是围绕更高级的 Agent2.0,把“协作与执行”能力补齐。

 

AgentScope 主要通过三块来支撑:

 

多智能体编排:引入基于 Actor 模型的分布式架构,支持多个专业 Agent 的并行协作与自动调度。研究表明,协作模式任务成功率比单一 Agent 高出 90.2%。

 

智能体上下文管理(长期记忆):深度适配 Mem0、ReMe 等记忆系统。使得 Agent 能够自主存储并检索历史交互中的关键信息,在后续任务中实现能力的持续迭代。

 

工具调用能力:全面兼容 StreamableHTTP、SSE、STDIO 等主流接口标准。通过支持 AnthropicAgentSkill 规范,在运行时即可动态加载新工具或移除冗余资源。

 

在工具调用这层,ReAct 这类“边想边做”的范式,也被不少实践证明更容易形成任务闭环:学术基准测试中,ALFWorld 任务只需 2 个示例即可达到 71%的成功率,高于强化学习模型的 37%;在复杂任务中,准确率相较纯 FunctionCalling 提升约 15%–20%,成本比 CodeAct 低 78.9%。

 

在 Agent2.0 优化与部署阶段,阿里云百炼通过 AgentScope-Studio+AgentScope-Runtime 打通了全生命周期的工业化链路。

 

AgentScope-Studio 可通过自定义多维表现指标,评估工作流设计的合理性;提供从输入到输出的全链路追踪与可视化,让 Agent 行为与决策过程实现“可观测、可复盘”。

 

百炼平台利用评测结果持续改进,让失败样本成为训练资产,形成“评测→优化→验证→再优化”的迭代闭环,实现从“盲目调参”到“数据驱动优化”的范式转换。

 

在落地部署环节,AgentScope-Runtime 支持 Docker、K8S、ACK、Serverless 等多种部署形态;通过 Agent-as-a-Service 将 Agent 封装为可独立调用的 API 服务,兼容 A2A 与 ResponseAPI 等协议,便于集成、弹性扩缩与快速迭代。

 

如果把阿里云百炼的开发范式拆开来看,其实就是从“构建”走向“运营”的一个完整闭环。

 

前半段构建,重点是更快、更省力地把东西搭起来:

 

用可选智能体模板减少重复劳动;用多智能体编排与工作流把复杂任务拆成可协作的子任务;用高低代码一体化实现统一开发与交付;通过 ReAct 等方式完成多任务的规划、执行与自我纠偏,再结合用上下文和长期记忆支撑长链路执行等。

 

后半段上线运营,就是做让它智能地跑起来:

 

用可观测和自动化评测把效果变成可量化的指标;打通真实系统和数据源,拿到反馈并持续优化;在企业既有基础设施上实现更便捷的部署与稳定运维;同时借助 Identity、模型单元专属部署、机密推理等能力,把权限、安全与合规治理补齐。

 

这套开发范式的最大亮点,就是它统一按照“工业级 Agent2.0”的标准做事:高效的开发体系+可持续的反馈闭环+便捷可靠的上线部署。

 

三、“1”:模型优势之外,深挖“模型服务”工程

 

最后,无论是组件化拼装,还是低/高代码协作,最终都要落在同一个问题上:模型调用能不能稳定、能不能扛流量、能不能控成本、能不能过合规。

 

所以“1”是整个体系的地基——模型与云服务底座把推理服务、弹性、部署形态与安全边界做成统一供给,保证上层“能跑起来,也跑得久”。

 

很多企业在用 Agent 的过程中,卡住的往往不是“模型会不会”,而是一些更现实、更工程的问题:1)延迟、并发、稳定性跟不上真实业务流量;2)成本容易失控(链路长、多轮工具调用、重试一多就更明显);3)部署和合规麻烦(私有化、混合云、权限边界、数据隔离等)。

 

在调用模型的时候,企业最关心的也无非就两件事:成本与性能。为此,百炼平台提供了一套云资源调度组合拳:“异步调用+闲时调度”。

 

以前搞大规模的数据清洗、标注,或者是分析长视频,这些任务不仅计算密集,而且耗时漫长。最头疼的就是走“同步调用”,跑到一半接口超时了,任务断掉,前面全白干。

 

有了异步调用就省事多了,它像寄快递一样,你把任务丢给后台,拿个任务 ID,就可以去干别的。不用在那儿死等结果,等服务器处理完了你再回来取就可以。

 

而“闲时调度”更像“错峰用电”:不着急的任务挪到资源空闲的时候跑,单价更划算,整体资源利用率也更高。阿里云百炼官方给出的数据是,动态调度后闲时推理成本可降低 50%。对需要处理海量数据的企业来说,这种节省是实打实的。

 

此外,阿里云百炼这次把“模型服务能力”也做了系统升级,主要围绕四块:模型后训练、专属模型单元部署、平台可观测、推理安全防护,系统性地”深挖“模型的服务能力。

 

先从选型说起。百炼平台把模型体验中心做了结构性重构,把在线模型的能力做成更直观的“能力图谱”,支持文本、视觉理解、图像/视频生成、语音交互等全模态体验。

 

这样企业就不用靠猜,也不用“盲选”,可以在平台上直接对比不同模型在具体场景下的表现,再做选择。

 

模型选定之后,是否“实用”往往取决于后训练。很多企业真正需要的不是通用能力,而是用自家数据和业务知识微调出来的“专家模型”,这才更贴近业务,也是企业的核心壁垒。

 

模型训完后,真正容易被“拦住”的常常是部署。自建集群运维复杂、成本也难估:为了应付峰值不得不预留一堆算力,平时又闲着浪费;多租户环境下的数据隔离和性能争抢,会让企业心里不踏实。

 

阿里云百炼推出“模型单元”部署,其实相当于给企业开了条“专属通道”,减少资源争抢带来的不确定性,让高并发和低延迟更稳定。

 

同时提供全托管的 Serverless 方式:系统会跟着实时流量自动扩缩容——忙的时候自动扩,保证体验;闲的时候自动收,尽量省成本。

 

官方给出的测试数据里,模型单元部署相对传统自建集群方案,推理性能提升超过 1.3 倍,并发能力提升超过 1.5 倍。对企业来说,这类提升的意义很直接:同样的业务量,成本更低性能更好。

 

此外,调用模型处理数据时,最难绕开的是安全——尤其在金融、医疗、法律等高敏行业。很多企业不是不想用,而是卡在一句话:数据给到模型,会不会出事?

 

为此,百炼平台推出模型“机密推理服务”,依托三层安全架构,为企业构建起全链路的数据保护围墙:

 

第一层是基于 CPU/GPU 硬件可信执行环境的机密计算能力,将模型推理运行在硬件隔离的安全区内。即便云侧其他组件遭受攻击,敏感数据也难以被窃取或泄露。

 

第二层是端到端加密的可信链路:实现了从用户端到云端计算中心的全程加密传输。数据在加密状态下进入 TEE 区域处理,计算结果在加密状态下返回,确保数据在“流动”与“处理”的全生命周期中始终处于保护伞下。

 

第三层是公开审计的可信服务:平台提供可验证的身份与安全能力证明。企业不仅能自主校验服务安全性,更能以此作为合规背书,向管理层、审计机构及客户证明其 AI 系统的高安全性。”

 

在使用体验上,机密推理被做成了“一键交付”的形态:企业只需要在模型库中选择支持机密推理的版本,一键部署到 TEE 隔离环境,就能直接调用机密推理服务来处理敏感数据。

 

放在一起看,这次升级是在原有模型性能优势之上,又补上了几块关键拼图:云资源调度、后训练、模型单元化部署、机密推理安全体系等。几块一起发力,让大模型调用变得更实用、更省钱,也更安全。

四、没人愿意再“从零开始”,阿里云百炼 Agent 平台企业版已发布

 

从市场角度来看,政企、金融、医疗等行业在采购云服务时,始终受困于一种不完美的平衡。

 

公有云上手快、性能强,但数据边界与合规要求是跨不过的门槛;私有化部署虽有安全感,但往往陷入“模型、工具、流程”极其复杂的运维战泥潭,开发周期长、技术更新慢。

 

1 月 7 日,阿里云百炼企业版的发布,为市场提供了一个既保留数据主权,又拥有云端顶级效率的方案。

 

企业版支持专有云、本地化及 VPC 隔离,百炼平台将云端的成熟能力“下沉”至企业环境。更重要的是,百炼平台企业版支持源码级交付。这不仅仅是技术开放,更是给予企业自主演进的确定性。

 

企业不再需要买一堆零件回去组装,而是直接获得一个在自身安全边界内运行的 Agent 基座。

 

事实上,企业版也并非新功能的简单集合,而是将百炼平台“1+2+N”体系(顶级模型、成熟范式、核心组件)封装为完整的交付体:

 

双代码统一:兼顾业务验证的敏捷性与复杂逻辑的深度定制。

 

多模态 RAG:激活企业沉睡的音视频与文档资产,转化为实时知识。

 

Trace 与 Evaluate:将 Agent 的黑盒行为拉到台面上,让调试与迭代成为标准工序。

 

大规模组织的管理诉求:企业版强化了多租户部署、SSO 账号集成以及细粒度的权限审计。这些功能解决了 IT 部门的核心忧虑——让 Agent 的应用在组织内部不仅“能跑通”,更“可治理”。

 

一个行业走向成熟的标志,是目光从技术指标移向业务价值的“深水区”。

 

阿里云百炼 Agent 平台企业版,本质上在扮演“AI 时代技术中台”的角色。从行业趋势上看,未来企业大概率将不会从零开始建设 AI 能力,而是直接基于一个完整、成熟的技术中台起步。

 

这意味着,在一年的野蛮生长后,留给企业 AI 试错的窗口期正在关闭。

 

展望 2026 年,Agent 应用爆发增长几乎已成共识。Gartner 预测,到 2026 年底,40%的企业应用将集成任务型 AI agents(相比 2025 年不足 5%),这也标志着 Agentic AI 正从概念走向主流生产环境。

 

对阿里云这样的全栈人工智能服务商而言,这将是多年技术积累转化为业务增量的红利期;对使用模型与 Agent 的企业客户而言,也将是 Agent 正式进入“拼效率、拼落地”的竞争元年。

前端生态最具影响力的开源项目之一 Tailwind CSS,正经历一场罕见的生存压力测试。

 

其创始人 Adam Wathan 近日在社区公开表示,由于 AI 对业务模式造成的“残酷冲击”,Tailwind 在一天之内裁掉了工程团队约 75% 的员工。

 

他在 1 月 7 日一期自述播客中进一步解释:在 AI 编程工具大规模采用 Tailwind、使用量持续走高的同时,这种“被默认使用”的成功并未转化为可持续的商业回报,反而持续侵蚀了团队的生存空间。若趋势不变,大约 6 个月后将无法继续支付工资。Adam 形容这是一种“非常糟糕的认知”,迫使他们必须立刻缩编,避免走到“既撑不住工资、也拿不出体面遣散”的境地。

 

“我真的难受。胃都拧在一起了。”Adam 说。

 

“因为这件事,我感觉自己像个失败者:我做出了一个几乎‘统治世界’的开源 CSS 框架,用的人越来越多、越来越火,但商业上的成功,却和开源的成功呈现出一种反向关系。”

 

“我们只剩下六个月了。”

 

“我现在的每一秒,都必须用来让公司活下去”

 

这场裁员风波最终被外界注意到,触发点是一则围绕“大模型(LLM)文档支持”的 GitHub Pull Request。

 

2025 年 11 月,社区开发者向 Tailwind 官方仓库提交了一项合并请求,要求新增一个 llms.txt 端点,用于提供面向 LLM 优化的 Tailwind CSS 全部文档的纯文本合并版本。以此希望在所有文档页面加一个“复制为 Markdown”的按钮,因为现在很多人会把文档内容直接喂给 AI。

 

从描述来看,这个 PR 是将 Tailwind 所有官方文档(共 185 个文件)在构建阶段静态合并为一个纯文本、无 JSX、按章节顺序排列的文档文件,方便 LLM 直接读取和使用。从工程实现上看,这只是一个构建期脚本,改动规模有限。

 

但该 PR 提交后长期未获推进。面对社区的追问,Tailwind 创始人 Adam Wathan 回应称,当前团队有更重要的事情要做,比如先想清楚怎么让公司赚到足够的钱、把业务维持下去。他直言,如果越来越多的人不再访问文档,而是直接依赖 LLM 去爬 Markdown 文件,“只会导致文档访问量进一步下降,也就意味着更少的人会了解到我们的付费产品,最终让业务变得更加不可持续。”

 

“很抱歉,我现在没有时间去做那些不能帮我们付账单的事情。”

 

Adam 关闭了这个 PR。当然,评论区立刻炸了:这对社区太糟糕了,你们只想着赚钱,太失望了......

 

有社区开发者认为,让软件更容易融入用户工作流、解决他们日常互动中的痛点,本身就是扩大潜在付费用户的关键前提;而此功能旨在让人们能够使用 Tailwind 更快、更高效地构建更多内容,现在 Adam 以“变现”为由拒绝此类功能,“等于是在告诉你的客户,从他们那里赚钱比为他们提供服务更重要。”

 

争议升级后,Adam 不得不再次回应,并披露了 Tailwind 的真实处境。

 

他坦言他知道这个功能的价值,但现实情况是:“就在昨天,我们工程团队里有 75% 的人失去了工作,这是 AI 对我们造成的残酷冲击。”

 

在这样的背景下,他坦率地说,自己已经很难再把时间投入到这类“不直接带来收入”的事情上:“我现在的每一秒,都必须用来让公司活下去。确保还留在这里的人,每个月都能拿到工资。”

 

他同时透露,尽管 Tailwind “比以往任何时候都更受欢迎”,但 “我们的文档流量相比 2023 年初已经下滑了大约 40%。”而文档是他们的唯一分发渠道,没有客户,就意味着 “我们根本负担不起继续维护这个框架。”

 

更残酷的是,虽然 Tailwind “增长速度比历史上任何时候都更快,规模也比任何时候都更大”,但 “收入却下滑了接近 80%。”他总结说,眼下 “让 Tailwind 变得更好用”,与 “让这个框架的开发在商业上变得可持续” 之间,“几乎已经看不到任何相关性。”

 

所以,他必须先解决生存问题,不然“一旦没人继续维护,这个项目最终会变成无人问津的弃置软件。”

 

更反直觉的现实:Tailwind 反而“到处都在被用”

这件事迅速在 Hacker News 上爆了。

 

HN 首页一条帖子标题很直接:“Tailwind 的创作者裁掉了 75% 的工程团队”,链接指向 TailwindLabs 的 GitHub 讨论。发出约 10 小时后,评论也堆到 598 条,迅速变成当天的高热讨论。

 

这场裁员之所以在社区引发震动,很大程度上来自一种强烈的反差感。

 

2020 年 7 月,Adam Wathan 还在公开回顾 Tailwind 的“上升期叙事”:Tailwind 的累计安装量刚刚突破 1000 万,而他们的首个商业化产品 Tailwind UI 上线仅约 5 个月,收入就即将跨过 200 万美元。他把这段经历形容为“完全超出想象”,并特意把最初发布在 Twitter 的长帖重新整理成文章。

 

而且在 AI 的世界里,在大多数开发者的体感里,Tailwind 也不是处在衰退期,恰恰相反,它正在悄然变成一种 AI 生成 UI 的“默认选项”。当人们打开 AI 编程工具,让模型生成一个页面、一个组件,甚至一整套 UI 时,模型往往不会再询问“要不要写 CSS”,而是直接给出一串熟悉的 class——这种选择并非出于偏好,而是因为在当下的工程环境里,这样做最快、最稳,也最不容易出错。

 

Glide CEO 兼创始人 David Siegel 认为:“你可以把 Tailwind 看成是一套无代码(no-code)工具包,它实际上让 AI 在设计这件事上变得更强了。”

 

有意思的是,AI 在使用 Tailwind 这件事上,确实表现得异常出色。就像无代码平台通过预制组件,帮助非开发者也能构建稳定、设计良好的应用一样,AI 也开始把 Tailwind 当作一套“组件库”来使用——这让它能够更快工作,并生成更可靠、更一致的样式结果。

 

“AI 并不是在 CSS 这种底层样式语言上变得更强了,”Siegel 解释道,“而是我们发明了一种 AI 更擅长使用的‘高层语言’,它叫 Tailwind。”他进一步指出:“它看起来几乎就像自然语言。你不用写一堆括号、冒号之类的东西,只需要写 text-black,文本就变成黑色;写 rounded-md,按钮就会变成中等圆角。这些组件库,本质上就是建立在设计之上的低代码 / 无代码抽象。”

 

现代 AI 编程助手最擅长的,往往是遵循清晰、可重复的模式,或者在一个定义良好的词汇体系中进行组合与生成。而 Tailwind 的方法论恰好满足了这一点:它提供了一套高度一致的 class 命名和样式模式,使 AI 更容易生成正确、相关且稳定的代码建议。

 

正如Vercel CEO Guillermo Rauch所说:“整个 Web 生态正在向 Tailwind 标准化,所以每个 AI 工具都在用它。”

 

“我们只剩下六个月了”

 

在 Adam Wathan 看来,AI 一把极其锋利的双刃剑。

 

“我认为,AI 是我们业务陷入困境的重要原因之一——即便它也让 Tailwind 变得比以往任何时候都更受欢迎。但同时,我也觉得 AI 是一项了不起的技术,我对它感到兴奋,也在思考它如何帮助我、帮助我们。在目前这个阶段,我们可能被迫要更认真地思考,如何利用 AI 来覆盖我们需要处理的所有事情。”

 

在 1 月 7 日发布的音频中,Adam 反复提到一个他此前一直试图回避、却最终不得不正视的事实:公司的收入已经连续多年处在下滑通道,而且还在继续下滑。

 

过去几年,这种下滑并不剧烈,甚至“慢到让人几乎察觉不到”。每个月的收入只是比上个月少一点点,账单依然能付,团队还能维持运转,久而久之,这种“更低但还能接受的收入水平”就变成了新的常态。

 

Adam 形容,这是一种典型的“温水煮青蛙”状态。

 

真正的转折点,发生在最近的假期里。他第一次不再凭感觉判断,而是认真做了一次收入预测:拉数据、画曲线、计算每个月的平均下降额。结论比他预期得要糟糕得多:收入并没有触底企稳,而是以几乎固定的绝对值持续下滑——这意味着,从比例上看,下滑速度只会越来越快。如果假设什么都不改变,那么大约6 个月之后,公司就将无法继续支付工资

 

对一家小型团队来说,6 个月并不算长。如果继续拖下去,等到现金流真正断裂,团队不仅保不住,甚至连体面的遣散都无法提供。相比之下,现在主动缩编,至少还能给被裁的同事留出缓冲期,让他们有时间寻找下一份工作

 

于是,在本周一,Tailwind Labs 正式裁掉了工程团队的 75%

 

公司规模并不大,“75%”对应的其实是3 个人。但 Adam 特意强调比例的意义:如果只说“裁了 3 个人”,听起来像是小幅调整;而现实是,工程团队原本只有 4 名工程师,如今只剩1 人。这对团队而言是一次结构性的变化。

 

裁员之后,Tailwind 的资源配置也被压缩到了极限:

 

现在的团队结构是这样的:剩下的核心成员是三位公司合伙人——我自己、因 Refactoring UI 而为人熟知的 Steve(一直负责设计),以及 Jonathan Rennick(最早和我一起创建 Tailwind,也做了 Inertia.js)。

 

除此之外,我们只有一名全职工程师 Robin——他从零开始做了 Headless UI,也从零做了 Tailwind 3 和 Tailwind 4,是在公司待得最久的人。

 

还有 Peter,他更多是兼职,负责合作伙伴计划、一些运营事务和客户支持。

 

就这些人了。

 

换句话说,整个公司只剩下“3 位合伙人 + 2 名员工”,“这就是我们接下来全部的资源”。

 

接下来,Adam 也将重新回到更偏 IC(个人贡献者)的角色。他承认这算是某种“银边”:随着团队变大,他的工作越来越偏高层和战略层,关注哪些事情需要完成,并分配给合适的人,而不是亲自构建;而现在,团队规模逼迫他必须亲自下场。

 

被裁的三位工程师,都是他非常欣赏、也非常享受共事的人:Philip既能啃 Tailwind 核心,也能把 Tailwind Plus 的 elements 组件库和组件预览的复杂前端界面硬生生推进落地;Jordan是团队的“疑难杂症终结者”,最擅长扎进陌生代码库定位上游/兼容性问题、快速开 PR 修复,同时也能在 Headless UI 与服务器排障上扛住关键战役;Dan则以设计工程师身份主导 Tailwind 4 的视觉与品牌更新,设计 P3 色彩体系并自研选色与预览工具,还贡献了大量高质量的图解与课程平台素材。

 

他原本对未来和他们一起继续做新东西充满期待,脑子里有很多计划,很多想一起推进的方向。但现实摆在面前,只剩下两个选择:要么让他们在这里“免费工作”,要么放他们离开,去一个真的能每个月按时发工资的地方。

 

他选择了后者。“我真的很难受,”Adam 说,“胃都拧在一起了。”

 

而且他也意识到,外界并不总能理解裁员背后的现实逻辑。在社交平台上,总有人会把裁员简单归因为贪婪、冷血,或者“不在乎社区”。作为创始人,这几乎是一种默认要承受的角色负担——你很容易被塑造成反派。

 

不是因为我贪婪、想赚更多钱,而是因为收入正在逼近零点,而我刚刚裁掉了我这辈子见过最优秀的三位工程师之一。我不想事情变得更糟。”

 

“说实话,我甚至把 tailwindcss.com 的仓库暂时设成了私有,只是不想再面对 issues 和 PR。睡了一觉之后,我可能会撤回这个决定。但我会反复动摇,本身就说明我这周的情绪状态真的不太对。”

 

“现在,开源项目越受欢迎,生意反而越艰难。这真的很残酷。这就是现状。”

 

参考链接:

https://news.ycombinator.com/item?id=46527950

https://github.com/tailwindlabs/tailwindcss.com/pull/2388#issuecomment-3717222957

https://adams-morning-walk.transistor.fm/episodes/we-had-six-months-left

为了提高其软件系统的合规覆盖率,Meta 已经将大型语言模型应用于变异测试。这种方法将 LLM 生成的变异体(mutants)和测试集成到 Meta 的自动化合规加固(ACH)系统中,消除了传统变异测试在可扩展性和准确性方面的限制。该系统的目标是在满足合规义务的同时保持产品和服务的安全,帮助团队更高效地满足全球监管要求。

 

变异测试是故意在代码中引入一些小的变异体,并检查测试是否能够检测到它们,以此来评估测试套件的有效性。由于变异体数量过多、计算成本高昂且存在价值有限的等效变异体等因素,传统编译测试的应用有限。Meta 的方法是利用大型语言模型生成具备上下文感知能力的变异体以及对应的测试,从而降低噪声并使工程工作聚焦于高价值代码路径。

 

在没有 LLM 指引之前,变异测试依赖于基于规则的静态操作符。这些操作符会无差别地生成大量的变异体,其中许多在语义上与原始代码等价,压跨了测试基础设施和开发流程。

 

Meta的ACH系统使用 LLM 生成恰当的变异体和有针对性的测试,重点关注隐私、安全和监管问题。基于LLM的等价检测器会过滤掉多余的变异体,而测试生成器会生成单元测试,工程师可以进行审查但不需要手动编写,这显著降低了运营开销。Facebook、Instagram、WhatsApp 和 Meta 的可穿戴平台的早期部署产生了数万个变异体和数百个可执行的测试。

ACH 系统架构概览(图片来源:Meta技术博客

 

自从将研究成果纳入 ACH 以来,Meta 在FSE 2025EuroSTAR 2025大会上展示了他们的工作成果,即 LLM 如何帮助他们克服以前限制大规模变异测试的障碍。借助生成式 AI 更高效地生成测试用例,传统上用于评估测试质量的变异测试如今变得更具实用性和可扩展性。

 

正如 Meta 工程团队所强调的那样:

 

从 2024 年 10 月到 12 月,我们尝试在 Facebook、Instagram、WhatsApp 和 Meta 的可穿戴平台上部署了用于隐私测试的 ACH。在数千个变异体和生成的数百个测试中,隐私工程师接受了 73%的测试,其中 36%被判定为与隐私相关。

 

在 ACH 的基础上,Meta 推出了即时捕获测试(JiTTest)挑战赛,旨在探索大型语言模型在自动化软件测试中的应用。该系统会生成强化测试以防止回归问题,并生成捕获测试用于检测新代码或变更代码中的缺陷。它会在拉取请求进入生产环境前生成测试结果以供审核,这既解决了测试预言问题(Test Oracle Problem),又保留了人工监督环节。在 FSE 2025 大会上,Meta 发表了一篇论文,详细阐述了 JiTTest 挑战及其相关的开放研究课题。

 

Meta 表示,LLM 将耗时且容易出错的过程转变为更高效的系统,帮助简化并优化了合规和风险管理框架。正在进行的工作包括:将 ACH 扩展到隐私测试和 Kotlin 之外的更多领域和语言;通过微调和提示工程改进变异体生成;解决测试预言问题。Meta 还在研究开发人员如何与 LLM 生成的测试互动,以提升采用率和可用性。更多研究成果将在即将召开的会议中展示,包括Product@Scale

 

https://www.infoq.com/news/2026/01/meta-llm-mutation-testing/

闫俊杰在商汤敲钟前夕离开,创立了 MiniMax(上海希宇科技),也造就了全球从创立到 IPO 用时最短的 AI 企业——4 年,进程明显快于行业常态。

就在刚刚,1 月 9 日,MiniMax紧随其后挂牌上市,股票代码 00100。招股书显示,MiniMax 的 ToC 收入已经反超 ToB,这在中国大模型公司中极为罕见。

其招股书还透露了一堆硬核数据,截至 2025 年 9 月 30 日:

  • 累计个人用户:超过 2 亿

  • 覆盖 200+国家和地区

  • AI 原生产品 MAU:约 2760 万

  • 企业与开发者客户:超过 10 万家

在这次 IPO 中,Mini Max 计划发行约 2540 万股 H 股,开盘价 235.4 港元,截至上午 10:30,股价已飙升超 60%,市值超 820 亿港元(约合人民币 738 亿元)。

据富途证券数据,MiniMax 此次 IPO 超级火爆,公开发售部分的超额认购倍数高达 1209 倍,投资者通过保证金方式认购的金额累计超过 2533 亿港元。

资本市场为 MiniMax 的技术野心“买单”

在国内近年来涌现的一批 AI 独角兽中,唯二高频更新技术论文、投资开发者生态的,是 MiniMax 和 DeepSeek 背后的深度求索。

闫俊杰曾在各种场合明确表达: MiniMax 是一家技术驱动的公司。据招股书显示,MiniMax 最大的成本就是研发成本,为了在基础模型技术上集中注意力,海外版 App 甚至没有第一时间做英文化。投资人的评价大体也能回归到技术要素,即闫俊杰是一个真正对 AGI 有信仰的人,“他很真”。

这是除市场数据外,MiniMax 市值最明确的支点。

仅在 2025 年,MiniMax 已通过至少两篇公开科研论文系统阐述其大模型架构与推理优化方案,其核心成果包括 MiniMax-01,即基于 Lightning Attention 与 MoE 的超长上下文大模型;以及 MiniMax-M1,即针对推理计算效率进一步优化的模型版本。

相关论文不仅披露了核心机制,还在处理百万级 token 上下文和推理效率上提出可复现技术路径,而非简单参数展示。

回到 2024 年初,在稠密模型仍占主流的背景下,MiniMax 率先推出了中国首个混合专家系统(MoE)大模型 abab6——比 DeepSeek 火出圈 R1 早了约一整年。

在行业仍普遍依赖 Softmax Attention、并为其二次计算复杂度付出高昂算力成本时,MiniMax 开始在模型中大量引入自研的 Lightning Attention(线性注意力)

具体做法,简单来说就是在每 8 层模型结构中,只保留 1 层传统注意力,其余 7 层改用线性注意力,从而把长上下文推理的计算压力“削薄”。

改动后的直接效果是:模型在面对超长文本、长代码或多轮复杂推理时,不再随着上下文变长而指数级变慢。

这套注意力设计与 MoE 架构叠加后,进一步放大了效率优势,使模型在保持推理能力的前提下,大幅提升了长文本、长代码和复杂任务场景下的计算效率。

相比智谱以 GLM 系列基座模型为核心,在 ToB 与 ToG 侧已跑出较为稳健盈利能力的路径;MiniMax 展现出的是另一种取向:模型更强调产业化落地,已在 ToC 端取得了不错的成果。

围绕自研大模型,MiniMax 已形成包括 MiniMax Agent、海螺 AI、MiniMax 语音、星野以及开放平台在内的产品矩阵。

同时在海外市场亦已有实质进展:其产品和服务已覆盖 200 多个国家和地区,累计触达超过 2.12 亿名个人用户,并服务超过 13 万家海外企业与开发者(包括订阅、API 调用等渠道)。

按 2024 年基于模型的收入计算,MiniMax 是全球第四大 pure-play 大模型技术公司,还是全球第十大大模型公司,覆盖文本、视觉、音频、视频的全模态模型体系。

在上市前的近一年内,MiniMax 完成了从 MoE 架构探索(abab 6 / 6.5)基础大模型开源(MiniMax-01),再到高级推理模型(MiniMax-M1)的连续迭代。

以 MiniMax-01 系列为例,模型总参数规模已达数千亿量级,但单个 token 实际参与计算的参数仅为几十亿,使得模型可以在控制成本的前提下,原生支持百万级乃至更长的上下文窗口。

在 2025 年 12 月 23 日,MiniMax 还对外发布了最新旗舰级 Coding & Agent 模型 M2.1

在衡量多语言软件工程能力的 Multi-SWE-bench 测试中,该模型在仅约 10B 激活参数的前提下取得 49.4%的成绩,超越了 Claude Sonnet 4.5 等国际顶尖竞品,拿下全球 SOTA。

M2.1 要补上的,是此前不少模型在工程能力上的短板——过去的模型在编写简单脚本或前端代码时尚可应付,但一旦进入后端工程、系统架构或底层逻辑层面,表现往往迅速失稳。

这个模型的关键变化在于,其能力边界首次延伸至更完整的后端开发规范。

这些技术实现背后,是一支极其年轻的团队。据每日经济新闻消息,截至 2025 年 9 月底,MiniMax 员工 385 人,平均年龄 29 岁,研发人员占比近 74%,董事会平均年龄 32 岁。

其核心团队由一批来自商汤科技、全球一流高校和顶级科研机构的技术骨干组成,以创始人闫俊杰为首,包括杨斌、周彧聪等联合创始人。

闫俊杰拥有东南大学、本科到中科院自动化所博士及清华博士后背景,曾担任商汤副总裁与研究院副院长。

杨斌具备加拿大博士及 Uber ATG 与国际初创工程经验;周彧聪则是商汤早期算法团队核心成员。

团队多数来自 AI 与深度学习前沿领域,在 NLP、语音、视觉、生成模型等方向拥有丰富经验和多项全球发明专利。

站在年轻团队另一面的,是 AI 投资界的“老炮”们。

早期有阿里、腾讯、红杉中国、高瓴、IDG、云启、米哈游等产业与风投参与;IPO 前夕,阿布扎比投资局、Mirae Asset、Aspex、易方达等长线机构接力。

尤其是阿里,持有的 MiniMax 股权占比还要大于在智谱的比重。连续两场 IPO 后,一场投资界和 AI 创业团队之间的化学反应和默契已经诞生。

上市之后,还需直面 Claude Code 等问题

需要指出的是,由商汤的 ToB/ToG 模式,转到如今的 ToC/ToB 模式,闫俊杰麾下的 MiniMax 还未实现整理盈利;至少想赢得全球 AICoding 市场,绕不开和 Claude Code 的直接竞争

Claude Code 是一个面向真实软件工程的 Coding / Agent 模型,由 Anthropic 公司推出。该模型的重点是在 AI 生成代码以外,确保模型在工程约束下不失控,堪称 AICoding 神器。近日, Anthropic 宣布,Claude Code 上线仅 6 个月,已经创造了近 10 亿美元年化营收。

从公开信息看,MiniMax 并没有试图直接复刻 Claude Code 的路径,而是选择了另一种更偏效率驱动的技术路线。

MiniMax 在 Lightning Attention + MoE上的投入,本质上是在解决一个问题:如何在成本可控的前提下,把上下文和工程复杂度拉到“真实软件世界”的尺度。

对于 Coding 模型来说,长上下文不是加分项,而是入场券。 没有足够高效的注意力结构,就无法在真实代码库上长期运行 Agent。

M2.1 针对 Multi-SWE-bench 的表现,某种程度上正是在回应 Claude Code 的“主战场”——不是写某一段代码,而是完成跨语言、跨模块、带验证的软件工程任务

这意味着 MiniMax 正在补的,并不是单点能力,而是:后端规范、工程一致性,和多语言协作能力,这正是 Claude Code 最难被替代的部分。

MiniMax 若想在全球市场正面竞争,最终比拼的也不会只是 Benchmark,而是 Agent 是否可控、错误是否可解释,以及是否敢被放进 CI / CD 流程。

从招股书来看,MiniMax 的研发投入在过去三年中持续攀升:

2022 年为 1060 万美元,2023 年增至 7000 万美元,2024 年进一步扩大至 1.89 亿美元;截至 2024 年及 2025 年 9 月 30 日止的九个月,研发开支分别达到 1.387 亿美元和 1.803 亿美元。相关投入主要用于模型训练过程中产生的云服务费用。

另外,在头部云厂商和海外独角兽的夹击之下,MiniMax 同时承受着 ToB 与 ToC 两个市场的竞争压力。

模型技术仍在快速演进,这场拼性能、拼效率、拼工程化的技术马拉松还在继续;上市,只是把比赛带入了下一个赛段。

在一次采访中,闫俊杰提到,MiniMax 确实放弃过一些 ToB 订单,是基于对自身交付能力的判断,避免分散注意力。那么,如果 ToB 领域的工程化交付,当下还不是 MiniMax 的“长板”,短期来看,就只剩“技术登顶”一条路能帮 MiniMax 走到终局。

闫俊杰说他在 Dota2 游戏里爱玩小精灵,因为这个英雄实现过从五号位(辅助)转型成为一号位(核心),最终主宰比赛。

目前看来,对于 MiniMax 而言情况类似,能否在 Benchmark 上五转一,保持模型能力长期领先,是上市后走向 AGI 的关键。

参考链接:

https://www1.hkexnews.hk/listedco/listconews/sehk/2025/1231/2025123100026_c.pdf

https://huggingface.co/MiniMaxAI/MiniMax-M2.1?utm_source

过去一年,特朗普政府推行了一系列令人震惊的政策转向,这些政策可能削弱美国应对广泛技术挑战的能力和意愿,涵盖网络安全、隐私保护乃至打击虚假信息、欺诈和腐败等领域。这些转变,加之总统限制言论自由和新闻自由的举措,推进速度如此之快,以至于许多读者可能尚未完全意识到。

言论自由

特朗普总统多次声称,他在2020年大选中失利的一个主要原因是社交媒体和大型科技公司合谋压制保守派声音并扼杀言论自由。因此,总统在第二任期的本能反应一直是利用联邦政府的杠杆,试图限制普通美国公民以及希望访问美国的外国人的言论。

9月,唐纳德·特朗普签署了一项名为NSPM-7的国家安全指令,指示联邦执法官员和情报分析人员针对“反美”活动,包括涉及欺诈国税局的极端组织的任何“税务犯罪”。根据记者Ken Klippenstein广泛报道,该指令的重点是针对那些表达“反对法律和移民执法;支持大规模移民和开放边境的极端观点;信奉激进性别意识形态”,以及“反美主义”、“反资本主义”和“反基督教”的人士。

本月早些时候,司法部长帕姆·邦迪发布了一份备忘录,建议联邦调查局编制一份美国公民名单,这些人的活动“可能构成国内恐怖主义”。邦迪还命令联邦调查局建立一个“现金奖励系统”,以鼓励公众举报可疑的国内恐怖主义活动。备忘录指出,国内恐怖主义可能包括“反对法律和移民执法”或支持“激进性别意识形态”。

特朗普政府还计划对游客实施社交媒体限制,因为总统继续加强对外国游客的旅行限制。根据美国海关和边境保护局(CBP)的一份通知,游客——包括来自英国、澳大利亚、法国和日本的游客——很快将被要求提供其五年内的社交媒体历史记录。

CBP表示,它还将收集“几个高价值数据字段”,包括申请人过去10年的电子邮件地址、过去五年使用的电话号码以及家庭成员的姓名和详细信息。《连线》杂志10月报道称,美国CBP在今年前三个月在边境执行的设备搜查次数超过了以往任何季度。

CBP的新要求为第14161号行政命令增添了实质内容。该命令以打击“外国恐怖主义和公共安全威胁”为名,授予了广泛的新权力。民权组织警告称,这可能基于意识形态认知,导致旅行禁令重启以及签证拒签或驱逐出境范围扩大。批评者指称,该命令围绕“公共安全威胁”的模糊措辞,为基于政治观点、国籍或宗教针对个人创造了空间。目前至少有35个国家受到美国某种形式的旅行限制

犯罪与腐败

2月,特朗普命令行政机构停止执行《美国反海外腐败法》,此举冻结了海外贿赂调查,甚至允许对过去被认为“不适当”的执法行动采取“补救措施”。

白宫还解散了追缴盗贼资产倡议盗贼资产追缴特别工作组——这些部门在腐败案件和没收受制裁俄罗斯寡头资产方面证明了其价值——并将资源从调查白领犯罪中转移出去。

同样在2月,司法部长帕姆·邦迪解散了联邦调查局的外国影响力特别工作组,该实体是在特朗普第一任期创建的,旨在应对外国政府对美国政治的影响。

2025年3月,路透社报道称,美国多个国家安全机构已停止了一项旨在应对俄罗斯破坏、虚假信息和网络攻击的协调工作。前总统乔·拜登曾命令其国家安全团队建立工作组来监控这一问题,因为美国情报机构警告称俄罗斯正在升级针对西方国家的影子战争。

在一次对检察独立性的考验中,特朗普的司法部命令检察官撤销对纽约市长埃里克·亚当斯的腐败案。后果立竿见影:多名高级官员辞职以示抗议,案件被重新分配,混乱笼罩了纽约南区联邦地区法院(SDNY)——历史上该法院是美国在追究公共腐败、白领犯罪和网络犯罪案件方面最积极的机构之一。

在加密货币方面,政府已让美国证券交易委员会(SEC)的监管者从执法转向为一个长期饱受骗局、欺诈和“拉地毯”行为困扰的行业摇旗呐喊。SEC在2025年系统性地减少了对加密货币运营商的执法,撤销了对CoinbaseBinance等公司的主要案件。

或许最令人不安的例子涉及加密货币公司Tron的华裔创始人孙宇晨。2023年,SEC指控孙宇晨欺诈和市场操纵。随后,孙宇晨向特朗普家族的世界自由金融(WLF)代币投资了7500万美元,成为$TRUMP meme币的最大持有者,并获得了与总统共进独家晚餐的席位。

Facebook 2025年Python类型调查在 1200 多名受访者中进行,重点介绍了 Python 开发人员如何以及为什么越来越多地采用该语言的类型提示系统。该调查还揭示了开发者最看重的东西,以及他们最大的挫折和愿望。

 

总体而言,86%的受访者表示他们“总是”或“经常”在代码中使用类型提示,其中具有 5-10 年 Python 经验的开发人员的采用率最高。

 

虽然数据显示,类型提示在被调查的样本中被广泛采用,但不排除选择偏差,因为使用类型提示的开发人员可能更有可能做出回应。尽管如此,该调查揭示了使用类型提示的 Python 开发人员的一些有趣趋势。

 

调查结果显示,Python 的类型提示系统已经成为大多数工程师开发的核心部分。[...]我们发现,所有经验水平的玩家对打字的接受程度都是相似的,但也存在一些有趣的细微差别。

 

初级(0-2 年经验)和高级(10 年以上经验)开发人员使用类型提示的频率都较低,分别为 83%和 80%。该调查的作者认为,初级开发人员面临更陡峭的学习曲线,而高级开发人员可能正在处理大型遗留代码库,而在这些代码库中采用类型提示更为困难。

 

开发人员列举了采用 Python 类型系统的几个好处,包括更好的可读性和代码内文档,改进的 IDE 和工具支持,早期的错误检测以及增强的信心。他们还强调了高级特性的价值,如协议、泛型和在运行时检查注释的能力。

 

另一方面,受访者指出了一些挑战,包括第三方库中有限的类型提示支持,泛型和修饰符等高级特性的复杂性,以及复杂类型的冗长性增加。其他痛点包括工具碎片化、缺乏运行时强制执行以及难以修改遗留代码。受访者还指出,Python 的类型系统似乎不如其他语言(如 TypeScript)的表达能力强,而且它的快速发展意味着语法和最佳实践在不断变化。

 

调查中另一组有趣的发现涉及改进 Python 类型系统的方法。一些建议包括借鉴 TypeScript 的特性,如交叉类型、映射和条件类型、实用程序类型(如PickOmitkeyoftypeof),以及更好的字典结构类型。其他建议侧重于更好地支持泛型和代数数据类型,包括更高级的类型;基于类型提示的可选运行时类型强制和性能优化;改进了对函数包装器和装饰器等模式的处理,支持动态属性;等等。

 

在工具方面,MyPy 仍然是首选的类型检查器,采用率为 58%,紧随其后的是 Pyright/Pylance。新的基于 Rust 的类型检查器(如 Pyrefly、Ty 和 Zuban)越来越受欢迎,被超过 20%的受访者使用。Visual Studio Code 是最常见的 IDE,其次是 PyCharm 和 Vim/Neovim。

 

这项调查中还有更多内容无法在此一一介绍。请务必阅读原始文章以获取全部详细信息。

 

https://www.infoq.com/news/2026/01/facebook-typed-python-survey/

Matrix 首页推荐 

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。 

文章代表作者个人观点,少数派仅对标题和排版略作修改。


一眨眼2025年已经快结束,今年AI进步速度快到远超预期。从DeepSeek到Claude Code到GPT 5.1到Gemini3到Nano Banana二度升级,整整一年,AI圈都处于「月月有惊喜」的放烟花状态。

与之相伴的,是AI越来越嵌入我的工作场景,我扎扎实实感受到了AI对我工作(乃至个人生活)的优化与提升。今年最最喜欢的大模型是谷歌的Gemini,文书和信息分析的表现非常不错,也因此被我亲切地称呼为「G老师」。

本篇主要盘点和G老师相处的25年,我在如何花式压榨G老师,同时盘了盘目前法律人使用AI的现况。

本文将从【工具地图】和【项目思路】两个维度,复盘我这一年压榨G老师的经验。如果你想直接看实操,可以选择跳到第二部分进行阅读。

一、法律人使用AI的三个层级&调用工具的五个维度

(一)法律人的AI使用三层分级

最近非常启发我的一篇文章是杨律师写的《律师用 AI,别只盯着那些「法律 AI 工具」》,他在这篇文章中提到了法律人使用AI的三个层级:

第一层,是通用大模型工具。比如豆包、ChatGPT 这一类chatbot,能帮你改写、润色、翻译、起草,解决的是「文本处理」的通用问题。

第二层,是行业化的法律 AI 产品。比如法律检索、智能合同审查,这些是厂商基于「律师的共性场景」包装出来的服务。

第三层,则是你个人或团队的 AI 工作流。这一层,往往不会以「产品」的形式出现,而是:

  • 写好了就反复复用的提示词和模板;
  • 若干半自动的脚本、小工具、表单;
  • 以及围绕你自己的客户、案件、内容库搭出的上下文工程。

前两层可以用钱买,第三层只能靠你自己「支棱起来」。而真正把你从「会用 AI」拉向「离不开 AI」的,恰恰就是这一层。

图片

(二)个性化层级下的工具调用五阶梯

我非常认同杨律师的观点,在未来,第三层(个性化设计)的使用只会越来越重要。根据他对法律人使用AI的「第三层」,我认为第三层的工具调用可以被分成五个阶梯:

图片

第一阶:将应用嵌入已有工作流

这是最轻量的一层,追求「即时、无感」。例如以浏览器插件、输入法或划词助手等形式,让用户在阅读网页或打字时随时调用AI,主打一个Shortcut快捷操作 。法律场景下也已经有此类产品出现:

  • 如北大法宝最近研发了「律爱多浏览器助手」,用户可以在浏览网页时调用小助手一键检索浏览信息相关的法律法规;
  • 再如小杨老师奇川律师都曾经写文章介绍过豆包划词助手的快捷用法;
  • 又如案牍近期推出了word插件版本的新产品形态,这也是一种典型的让产品嵌入现有工作流的形式。
图片

第二阶:顶级模型定制化

这是最常用的进阶层。利用Claude Projects、GPTs或Gemini的Gem,通过投喂知识库、设置系统提示词和上下文,让AI成为懂你业务的专属助手 。

这一层的构想,是我在读小杨老师的文章《一文教你把GPT-5调试成最强法律助手》时得到的启发,她在这篇文章里介绍了何为「AI工程化思维」:

 一言以概之,AI工程化思维就是通过合理的架构,如版本控制(Prompt库)、学习机制(记忆库)、审查标准(Criteria)、反馈闭环(Iteration Log),使得输出效果不断提升,接近人类思维结果。 学会利用上述步骤尝试对大模型进行自主工程化设计,是让大模型表现越来越个性化的必要入口。

除此以外,今年Claude、Gemini、ChatGPT都在研发的skil功能也非常值得探索:只用 Claude Skills,打造专属 AI 伴侣|附完整教程。目前,我也已经看到有律师使用skil研发自己的小工具。

第三阶:自动化私有数据

利用Obsidian、Notion、飞书等软件,让个人数据更好地被流转调用 。这一层我摸索得不多,但身边已经有法律行业的朋友在卷了:

图片
此处感谢伊卡洛斯老师的截图授权,欢迎关注他的公众号「燧翼新章」

附相关文章:Gemini Cli + Obsidian 才是知识管理的神!!(附教程)

第四阶:搭建业务流应用

利用Dify、Coze或FastGPT搭建Workflow(工作流)和Agent。这里涉及多步推理,让AI像人一样按步骤思考,比如「先检索法条,再分析案情,最后写出报告」 。

第五阶:Vibe Coding

使用Cursor、Trae等工具进行开发,创造完全属于自己的工具 。

四五阶我目前几乎不涉及,此处就不再多展开,感兴趣的朋友可以自行检索。

(三)AI工具的使用心法:君子不器

列出这五层,不是为了让大家去攀爬技术的高峰,非要学会第五层工具才算「会用AI的律师」 。恰恰相反,我想强调的是 「君子不器」 。我们使用AI的核心原则应当是以完成任务为导向,而不是以技术为导向 。

不要为了显摆技术而去强行使用高阶工具。比如,没必要专门用自己做一个合同审查的agent,合同审查这个场景,花了更多精力和时间的法律科技公司研发的产品必然比一个律师手搓的小工具好用。作为律师个人,通过配置层做一个专门「思考合同条款的Agent」反而更实用、更好落地 。

图片

二、我使用Gemini搭建个性化工具的思路

作为一个非技术背景出身的纯血法学生,我目前的个性化探索主要围绕主流大模型自带的「自主工程化工具」展开。我把Gemini整成了项目制的,用到的工具是Gemini自带的「Gem」功能。

图片

Gem的架构非常简单,名称、指令(系统提示词)、知识库就是构成一个Gem的全部要素。

图片

(一)为什么是Gems,而不是Coze或Dify?

市面上有很多Agent搭建平台,比如Coze、dify、腾讯元器等等。我在日常工作中首选Gemini的Gems,主要基于以下考量 :

  • 顶级的模型底座:智能体的表现如何首先取决于调用了什么大模型。工作流程相对简单的法律任务,直接使用顶级大模型优于可以设计复杂流程的低代码工具。
  • 交互记忆的连贯性:Gems直接嵌入在Gemini的聊天界面中,拥有最多的日常交互记忆,使用起来像是在和一个熟悉的同事对话,而不是每次都在调试一个冷冰冰的软件。
  • 低门槛:因为门槛足够低,所以上手足够迅速,心理负担非常轻。

(二)拆分项目思路:法律工作的四象限切割法

至于究竟怎样的项目才值得被固定制作为一个gem,我总结了一套四象限切割法。我们可以构建一个坐标轴:X轴代表任务的属性(从复杂项目固定项目),Y轴代表我们的关注点(从高注意点高频次。针对落在不同象限的工作,我有完全不同的「调教」策略 。

图片

第一象限:高频次 + 固定项目(文书合并同类项):

  • 场景特征:这是律师最想摆脱的机械性劳动。比如发律师函、起草简单的借款合同。这些工作频率极高,结构非常固定。
  • 制作Gem的要点: 提供范本。 不要让AI创作,而是让它去填空。我创建了诸如「律师函起草小助手」这样的Gem,核心动作是将我过往写过的最完美的范本喂给它作为知识库。每次使用时,我只输入变量材料(相关联的具体的合同、金额、违约事实),它就能基于范本生成完美的初稿 。

第二象限:高注意点 + 固定项目(固定流程的特别核查):

  • 应对策略:提供优质提示词。 这里不需要AI模仿文风,而是需要明确要AI达成的任务要点。比如我制作了「合同条款斟酌小助手」,在系统提示词中预设了陌生人原则(假设对背景一无所知)和对抗者原则(假设是对方律师)。

我把审核的标准写进了Prompt里,强制AI对每一个条款进行压力测试,防止「想当然」的漏洞 。后面我也会提到制作优质提示词的小技巧。

图片

第三象限:高注意点 + 复杂项目(复杂文书与分析):

  • 场景特征:针对复杂项目的思考,比如撰写复杂的代理词、疑难案件的法律分析报告、实务文章等。这类工作无法用一个范本解决,往往涉及多线程的思考,我们很难在一个对话框里完成全部的任务。
图片
  • 应对策略: 对话框的重点分布(流程拆解)。 对于这种复杂项目,直接扔给AI很难直接得到好结果。

我的策略是将对话框变成「分步执行」的载体。例如在「论文指导小助手」中,我已经将论文需要的基础资料放置在知识库中,在这一基础上,我不会「论文指导小助手」让直接写论文,而是将论文切割为「寻找素材、搭建框架、撰写文本、修改文本至定稿」四个步骤。由于每个步骤有每个步骤需要注意的重点,因此每个步骤我都会单独开具对话框执行任务,确保重点不搅和在一起打架。

图片

第四象限:高频次 + 复杂项目(?):

  • 场景特征:这是象限图中标注「?」的区域,也是最难处理的「深水区」,是我目前还在探索的部分,暂时还没有特别典型的例子可举,待我再多探索下再来分享。

(三)关于如何撰写优质的Gem系统提示词

在前面我们讨论「四象限切割法」时提到,针对「高注意点 + 固定项目」,最核心的注意点是撰写优质提示词。所以,写好提示词对于法律人而言,不仅仅是技术问题,更是将我们脑子里的法律思维,翻译成AI能听懂的、可执行的指令。我总结了两条更适合法律人的进阶路径。

偷懒路径:让AI自己写AI的指令

如果你刚开始接触,不知道怎么描述需求,最简单的办法是「反向求助」,让AI利用它的归纳能力,帮你搭建80分起步的基础框架:

  • 针对老项目:如果你已经和Gemini在临时对话框里就某个案子聊了很久,这时你希望想把这个案子做成一个gem的项目。你可以直接在这个对话框里输入:「我现在想把上述内容制作成Gem以便后续复用。请结合我们的聊天记录,为我设计这个Gem的系统提示词。」
  • 针对新项目:直接告诉它你预期设置的Gem的背景。比如:「我是XX领域的诉讼律师,我最常用的功能是XXX,请结合我的情况,为我生成一个可以直接使用的个性化配置提示词。」

2. 进阶路径:Read in, Prompt out

这是我从醋泡白豆老师的文章里得到的灵感。所谓 Read in, Prompt out,就是我们在阅读法律专业文章、法官判词或大佬著作时,不要只盯着具体的知识点,而要思考如何提炼其中的方法论思维模型」,并将其转化为AI的审核原则

例如,我曾读到一篇名为《做律师,切忌「想当然」这三个字》(该提示词的撰写过程我已经写过文章,欢迎跳转查看详细步骤)的文章。文中提到,律师写合同最怕觉得「这还要写?不是谁都知道吗?」,但法官在裁判时只能依据条款本身,不会替你脑补。简而言之,合同上写的就是写的,没写的,法官也未必可以替你补脑。

为了解决这种律师常犯的「想当然」错误,我将文章中对于「想当然」的具体描述复制粘贴给了Gemini,并让Gemini基于此为我撰写提示词。Gemini生成的系统提示词非常不错,它认为审查一个条款需要遵循「四大审查原则」:

  • 陌生人原则:假设你对该交易所处的行业、交易习惯、以及合同双方的背景一无所知,这个合同条款的表达是否有效?
  • 对抗者原则:假设你是对方的律师,你会如何攻击这份合同?
  • 执行者原则:假设你是一名两年后才入职的员工,看到这份合同能否直接执行,无需进行任何口头询问?
  • 缺席者原则:假设所有参与当年合同谈判的人员都已离职或失联,仅凭文字能否还原原意?

这四大原则提供的视角非常到位,已经足以帮助我审查出一个合同条款可能存在的漏洞。算是我「Read in, Prompt out」最成功的一个提示词。

    2005 年,诺贝尔生理学或医学奖颁给了两位澳大利亚医生——Barry J. Marshall 和 Robin Warren,以表彰他们发现了幽门螺杆菌(Helicobacter pylori)

    这个发现在今天听起来似乎平平无奇,但在上个世纪八十年代,却是一次颠覆性的突破。彼时的教科书写得明明白白:没有任何微生物能在胃部的强酸环境中存活。医学界也普遍认为,胃病是压力或饮食习惯导致的「生活方式病」,严重者甚至需要手术切胃。他们的发现,让数以亿计的胃溃疡患者从此告别了切胃保命的噩梦。

    那么,这个能在胃酸里悠然生存的狠角色,究竟是个什么来头?它和你的胃、你的饭桌、甚至你的癌症风险,到底有着怎样的关系?我们又能做些什么?这篇文章,我们就来彻底聊透它。

    难缠的幽门螺杆菌

    强大的生存能力

    幽门螺杆菌属于螺旋杆菌属,是一种生活在人类胃部及十二指肠区域的微需氧细菌。它已经与人类共同进化了近 6 万年,也是目前已知的唯一能在强酸性胃液中长期生存和繁殖,并导致人类相关疾病的微生物。1

    正如名字中的「螺杆」二字,这种细菌呈螺旋形或弯曲的杆状,有时也呈现轻微的「S」形。其长约 2.5-4.0 微米,宽约 0.5-1.0 微米,非常微小,大约是人体红细胞直径的一半。你可以把它想象成一个微型螺丝钻或红酒开瓶器。这种独特的形状使其能够在粘稠的胃黏膜中旋转前进,穿透保护层,直达胃壁上皮细胞表面。

    来源:en.wikipedia.org

    胃酸的 pH 值通常在 1 到 2 之间,这是一种足以溶解金属、杀灭绝大多数病原体的强酸环境。然而,幽门螺杆菌却能凭借独特的结构和生化能力存活了下来。

    首先,在菌体的一端,长有 4-8 根细长的鞭毛,它们如同螺旋桨一般可以同步旋转,产生强大的推进力。这使幽门螺杆菌能像「钻头」一样,在粘稠的、凝胶状的胃黏膜层中快速游动,逃离强酸性的胃液,抵达相对安全的中性 pH 环境的胃黏膜表面。

    同时,仅靠快速移动是远远不够的。幽门螺杆菌并非直接暴露在强酸中硬扛,而是通过一种精妙的化学手段改造了周围的微环境。它的核心武器是尿素酶,这种酶在其体内的含量极高。当幽门螺杆菌进入胃部后,尿素酶能够迅速催化胃液中的尿素发生水解反应:

    这一反应会产生大量的氨(NH₃)和二氧化碳(CO₂)。氨是强碱性物质,能迅速中和细菌周围的氢离子(H⁺),从而在细菌周围形成了一个 pH 值接近中性的微小保护区,科学家们将其形象地称之为「氨云」。这种结构就像撑起一把保护伞,幽门螺杆菌能够躲在这片中性区域内,安然无恙。

    独特的破坏机制

    凭借鞭毛和「氨云」的保护,幽门螺杆菌成功在胃部定居下来。但生存只是开始,它还会通过多种途径对胃黏膜发起持续攻击。其中最重要的两件「武器」,是细胞毒素相关基因 A(CagA)和空泡细胞毒素 A(VacA)。

    幽门螺杆菌能够将 CagA 蛋白直接注入人体细胞内部。一旦进入,CagA 便会活化并模拟宿主自身的信号分子,劫持细胞的信号传导通路。它会导致细胞骨架重排、破坏细胞间的紧密连接、诱发炎症反应,并促进细胞异常增殖。携带 CagA 的菌株与胃癌的风险显著相关。不幸的是,东亚地区(包括中国)流行的幽门螺杆菌株中,绝大多数都属于 CagA 阳性的高毒力株,这也是东亚胃癌高发的原因之一。

    VacA 的攻击方式则截然不同。作为一种成孔毒素,它能插入宿主细胞膜形成孔道,导致细胞内出现巨大空泡,最终引发细胞凋亡。同时,VacA 还能抑制 T 淋巴细胞的增殖,帮助细菌逃避免疫系统的追杀。除了这两种主要毒素,幽门螺杆菌还能通过模拟宿主抗原、调节免疫反应等多种手段躲避免疫清除。

    面对入侵,人体的免疫系统当然不会坐视不理。中性粒细胞、淋巴细胞等免疫细胞大量涌向感染部位,试图消灭细菌。然而,由于幽门螺杆菌深谙逃逸之道,这场战斗往往旷日持久却难分胜负。结果是:免疫细胞释放的炎性因子反而对胃黏膜造成了「附带伤害」,引发慢性胃炎

    这种慢性炎症就像温水煮青蛙。大多数感染者在很长一段时间内可能毫无症状,胃黏膜却在悄然发生改变。最初只是浅表性胃炎,胃黏膜表层有些炎症和损伤。但随着时间推移,持续的炎症会逐渐破坏胃黏膜的深层及腺体,胃壁开始逐渐变薄,分泌胃酸和消化酶的能力下降,发展为萎缩性胃炎。如果破坏进一步持续,在反复修复受损胃黏膜的过程中,细胞的分化方向可能会出现偏差:原本应该长出胃上皮细胞的地方,却长出了类似肠道的细胞,这就是肠上皮化生,这种异常的组织改变被认为是胃癌的重要癌前病变。这是一个缓慢又难以逆转的过程。而幽门螺杆菌凭借多重免疫逃逸机制,可以实现数十年乃至终身的慢性感染,默默推动着这一进程。

    广泛的传播范围

    得益于其强大的生存能力和免疫逃逸的本领,幽门螺杆菌感染在中国非常普遍。

    2024 年一项汇总了 152 项研究的系统分析显示,中国的幽门螺杆菌总体感染率约为 42.8%。2同年《柳叶刀-微生物》发表的一项覆盖 26 省 52 城市、超过 1.2 万人的调查则显示,城市健康人群的感染率约为 27%。3简单来说,差不多每 2-4 个人里就有 1 个感染者。

    此外,幽门螺杆菌感染还有一个突出特点:家庭聚集性强。2023 年发表在《Gut.》杂志上的一项全国性调查覆盖了 29 个省份、1 万多个家庭,结果发现:超过七成的家庭存在幽门螺杆菌感染,近两成家庭是「全家中招」。夫妻一方感染时,另一方的感染率会显著增高。儿童感染则与父母密切相关,母亲是主要的传染源——共用餐具、口对口喂食等习惯都会增加传播风险。当然,由于部分研究样本量有限,母子传播的具体机制还需要更多研究来证实。4

    至此,我们可以看到:幽门螺杆菌生存力强、破坏力大、传播范围广,的确是一种非常难缠的感染。

    但问题来了:「难缠」不等于「致命」。既然它已经和人类共生了数万年,那我们不管它可不可以?有没有必要一感染就根除?

    不一定:一个暧昧但实际的答案

    事实上,幽门螺杆菌的真实威胁,或许没有想象中的那么可怕。我们的确需要重视,但也不必过度恐慌。

    感染等于胃癌?

    根据全球和中国的流行病学数据,感染者的最终结局呈现出一个陡峭的金字塔结构:5

    • 几乎 100% 的感染者的胃黏膜都会产生慢性炎症反应,导致慢性胃炎;
    • 约 70%~80% 的人虽然胃里有菌也有轻微炎症,但身体没有任何明显症状;
    • 约 10%~20% 的人会发展为消化性溃疡(胃溃疡或十二指肠溃疡);
    • 约 1%~3% 的感染者最终会发展为胃癌。

    换句话说,绝大多数的幽门螺杆菌的感染者终其一生都只是无症状的携带者,「带菌生活」,并不会有严重的后果。

    这种低转化率,恰恰是我们在决定是否治疗时必须纳入考量的。说到底,医学决策的本质是「权衡利弊」:利大于弊,就积极处理;利小于弊,则暂且观察。在这里,权衡的就是「如果为了预防这 1%~3% 的风险而让 100% 的人服用大量抗生素,其带来的抗生素耐药和菌群失调风险等副作用是否值得?」

    什么时候根除治疗最有效?

    当然,低转化率也绝不意味着能放任不管。

    胃癌的发生不是一蹴而就的,它遵循著名的 Correa 级联反应模式,即上文所述的,从正常胃黏膜一步步走到肠上皮化生、异型增生,最终演变为胃癌。整个过程往往历时数十年,甚至更久。这意味着我们就有充足的时间窗口去干预它。

    关键问题是:什么时候干预最有效?或者说,是否存在一个「不可逆点」,或是「最后期限」?

    目前的共识是,如果在萎缩性胃炎阶段之前根除幽门螺杆菌,炎症几乎可以完全逆转,预防效果最为理想。但即便已经进展到肠上皮化生阶段,根除治疗依然有意义。最新证据显示,虽然化生本身可能无法完全逆转,但根除幽门螺杆菌可以有效阻止其向异型增生进展。一项 meta 分析显示,根除治疗可将胃癌发生率降低约 46%;胃癌术后患者进行根除治疗也可使胃癌复发风险降低 51%。6

    也就是说,即便错过了最佳窗口期,根除治疗依然能带来实质性的获益。早治优于晚治,晚治优于不治,能治则治。

    哪些人应该优先根除治疗?

    既然「能治则治」,但考虑到医疗资源有限、个人情况又各不相同以及上述抗生素的副作用等,与其让所有人一刀切地服药,不如按风险高低分层处理。那么,哪些人更应该积极地寻求治疗那?

    2022 年《第六次全国幽门螺杆菌感染处理共识》给出了明确的分层建议:7

    共识中界定的根除治疗治疗指征,证据等级均为较高的 A 和 B 级(证据等级从高到低分为 A、B、C、D、E 五个等级),推荐强度均为「强」,共识水平普遍在 90%以上,显示出专家意见的高度一致。

    第一类:已经出现胃部病变的患者。

    消化性溃疡位列榜首,无论溃疡是否处于活动期、有无并发症史,都应根除幽门螺杆菌——这一点达成了 100% 的专家共识。原因很简单:幽门螺杆菌是消化性溃疡最主要的病因,根除它才能从源头上阻止溃疡的反复发作。同样需要优先处理的还有胃黏膜相关淋巴组织淋巴瘤(MALT 淋巴瘤),这是一种与幽门螺杆菌直接相关的肿瘤,早期根除甚至可能带来肿瘤的完全消退。此外,已经接受过早期胃癌内镜切除或胃部分切除的患者,根除治疗可以显著降低再发新癌的风险。胃增生性息肉患者同样建议根除,部分息肉在细菌清除后可能自行缩小甚至消失。

    第二类:存在高危因素的人群。

    有胃癌家族史者需要格外警惕。一级亲属中有胃癌患者,自身的患癌风险会显著升高,根除幽门螺杆菌是目前最有效的预防手段。计划长期服用非甾体抗炎药(如阿司匹林、布洛芬等)的人群也应提前根除,因为这类药物本身就会损伤胃黏膜,若叠加幽门螺杆菌感染,溃疡和出血的风险将成倍增加。类似地,长期服用质子泵抑制剂(如奥美拉唑)的患者也建议根除,以避免在胃酸被抑制的环境下,细菌引发更严重的胃体萎缩。

    第三类:患有幽门螺杆菌相关的胃外疾病的患者。

    这一点常常被忽视。不明原因的缺铁性贫血、原发免疫性血小板减少症、维生素 B12 缺乏,看似与胃病无关,实则都可能与幽门螺杆菌感染存在因果联系。对于这些患者,在排除其他病因后,根除治疗往往能带来意想不到的改善。

    最后,对于不属于上述三类的无症状感染者,共识还提出了一条兜底性建议: 只要确诊感染且没有治疗的抗衡因素(如高龄、严重基础疾病、药物过敏等),就可以考虑根除。这条建议的共识水平达到 100%,反映出了一种趋势:在权衡利弊后,专家们倾向于更加积极的治疗态度。

    综上所述,如果你是以上三类人群,那么积极根除治疗无疑是非常明智的选择。而对于无症状的年轻感染者,是否根除仍可结合个人意愿、经济成本和潜在的抗生素副作用等综合考量。但鉴于我国的饮食习惯、胃癌的高发生率以及幽门螺杆菌毒株的特点等,有条件就治,可能才是更适合国人情况的选择

    来源:《第六次全国幽门螺杆菌感染处理共识报告》

    检测及治疗

    检测的方法

    在讨论根除治疗方案之前,我们先来聊聊如何确诊。

    通常说起某种疾病,我们往往会先从症状入手:「咳嗽发烧了——可能是流感」「肚子痛腹泻——可能是急性肠胃炎」。但幽门螺杆菌感染截然不同——它不是「症状驱动」,而是典型的「风险驱动」。

    正如前文所述,绝大多数感染者可能毫无症状,或仅表现为慢性胃炎的轻微不适:胃胀、隐痛、嗳气等。而当你真正出现必须重视的症状时,往往意味着病情已有较严重的进展。从生物学的角度来看,幽门螺杆菌是一种进化的极为成功的细菌。如果一个病原体让宿主立刻剧烈呕吐、发烧、死亡等(如埃博拉病毒),它反而不利于传播。幽门螺杆菌的「低调」,恰恰是它得以广泛蔓延的生存策略。

    因此,多数人筛查幽门螺杆菌,并非因为当下的病痛,而是出于对未来风险的警惕——也暗合了中医「治未病」的智慧。

    对于没有明显症状的人群,体检是最合适的筛查时机。只需在常规体检中加入幽门螺杆菌检测即可,最常用的方法是C13 尿素呼气试验

    C13 尿素呼气试验是目前公认的检测「金标准」,原理其实很简单:受检者空腹服下一粒含有标记碳原子的尿素胶囊,如果胃里存在幽门螺杆菌,细菌分泌的尿素酶会分解这种尿素,释放出带有标记的二氧化碳,用一个袋子收集好你吹出的气体,送进仪器就可以进行检测。整个过程无创、快速,准确率可达 95% 以上。

    与之类似的还有C14 呼气试验,两者原理相同,区别在于 C13 完全没有放射性,更适合儿童、孕妇等特殊人群;而 C14 含微量放射性,但剂量极低,普通成人使用较为安全。在过去和部分地区,可能 C14 相对来说价格较低。不过可能是由于集采的原因,写稿的时候我查了下,我们医院现在 C13 的价格甚至要更加便宜,所以可以优先选择 C13。

    对于不方便进行呼气试验的人群,粪便抗原检测(注意要和抗体检测有区分)是一个不错的替代选择。它通过识别粪便中幽门螺杆菌的特异性抗原来判断感染状态,同样无创且准确(准确度稍逊呼气试验),尤其适合幼儿或无法配合呼气操作的患者。但其容易受到各种因素的干扰,且粪便取样、处理等都较为不便,所以没有 C13 那么常用。

    还有一种血清抗体检测,通过抽血检查体内是否存在针对幽门螺杆菌的抗体。但需要特别注意的是,抗体在细菌被根除后仍可能在体内存留数月甚至数年,因此这种方法只能说明「曾经感染过」,而无法判断「现在是否还有感染」,更不适合用来评估治疗效果。它更多被用于流行病学调查或大规模初筛(抽一次血可以用来筛查很多项目)。

    这两天在网络上又有一个东西火了,Twitter 的创始人 @jack 新的社交 iOS App  Damus 上苹果商店(第二天就因为违反中国法律在中国区下架了),这个软件是一个去中心化的 Twitter,使用到的是 nostr – Notes and Other Stuff Transmitted by Relays 的协议(协议简介协议细节),协议简介中有很大的篇幅是在批评Twitter和其相类似的中心化的产品,如:MastodonSecure Scuttlebutt 。我顺着去看了一下这个协议,发现这个协议真是非常的简单,简单到几句话就可以讲清楚了。

    目录

    通讯过程

    • 这个协议中有两个东西,一个是 client,一个是 relay,client 就是用户社交的客户端,relay 就是转发服务器。
    • 用户不需要注册,用户只需要有一个密钥对(公钥+私钥)就好了,然后把要发的信息做签名,发给一组 relays
    • 然后你的 Follower 就可以从这些 relays 上订阅到你的信息。

    技术细节摘要

    • 技术实现上,nostr 使用 websocket + JSON 的方式。其中主要是下面这么几个指令
      • Client 到 Relay主要是下面这几个指令:
        • EVENT。发出事件,可以扩展出很多很多的动作来,比如:发信息,删信息,迁移信息,建 Channel ……扩展性很好。
        • REQ。用于请求事件和订阅更新。收到REQ消息后,relay 会查询其内部数据库并返回与过滤器匹配的事件,然后存储该过滤器,并将其接收的所有未来事件再次发送到同一websocket,直到websocket关闭。
        • CLOSE。用于停止被 REQ 请求的订阅。
      • Relay 到 Client 主要是下面几个指令:
        • EVENT。用于发送客户端请求的事件。
        • NOTICE。用于向客户端发送人类可读的错误消息或其他信息
    • 关于 EVENT 下面是几个常用的基本事件:
      • 0: set_metadata:比如,用户名,用户头像,用户简介等这样的信息。
      • 1: text_note:用户要发的信息内容
      • 2recommend_server:用户想要推荐给关注者的Relay的URL(例如wss://somerelay.com

    如何对抗网络审查

    那么,这个协议是如何对抗网络审查的?

    • 识别你的身份是通过你的签名,所以,只要你的私钥还在,你是不会被删号的
    • 任何人都可以运行一个或多个relay,所以,就很难有人控制所有的relay
    • 你还可以很方便的告诉其中的 relay 把你发的信息迁到另一个 relay 上
    • 你的信息是一次发给多个relay的,所以,只要不是所有的热门realy封了你,你就可以发出信息
    • 每个relay的运营者都可以自己制定规则,会审查哪些类型内容。用户据此选择即可。基本不会有一个全局的规则。
    • 如果你被全部的relay封了,你还是可以自建你的relay,然后,你可以通过各种方式告诉你身边的人你的relay服务器是什么?这样,他们把这个relay服务器加到他们的client列表中,你又可以从社死中复活了。

    嗯,听起来很简单,整个网络是构建在一种 “社区式”的松散结构,完全可能会出现若干个 relay zone。这种架构就像是互联网的架构,没有中心化,比如 DNS服务器和Email服务器一样,只要你愿意,你完全可以发展出自己圈子里的“私服”。

    其实,电子邮件是很难被封禁和审查的。我记得2003年中国非典的时候,我当时在北京,当时的卫生部部长说已经控制住了,才12个人感染,当局也在控制舆论和删除互联网上所有的真实信息。但是,大家都在用电子邮件传播信息,当时基本没有什么社交软件,大家分享信息都是通过邮件,尤其是外企工作的圈子,当时每天都要收很多的非典的群发邮件,大家还都是用公司的邮件服务器发……这种松散的,点对点的架构,让审查是基本不可能的。其实,我觉得 nostr 就是另外一个变种或是升级版的 email 的形式

    如何对抗Spam和骗子

    但是问题来了,如果不能删号封人的话,那么如何对抗那些制造Spam,骗子或是反人类的信息呢?nostr目前的解决方案是通过比特币闪电网络。比如有些客户端实现了如果对方没有follow 你,如果给他发私信,需要支付一点点btc ,或是relay要求你给btc才给你发信息(注:我不认为这是一个好的方法,因为:1)因为少数的坏人让大多数正常人也要跟着付出成本,这是个糟糕的治理方式,2)不鼓励那些生产内容的人,那么平台就没有任何价值了)。

    不过,我觉得也有可以有下面的这些思路:

    • 用户主动拉黑,但很明显这个效率不高,而且体验不好
    • 社区或是同盟维护一个黑名单,relay定期更新(如同email中防垃圾邮件也是这样搞的),这其实也是审查。
    • 防Spam的算法过滤垃圾信息(如同email中干的),自动化审查。
    • 增加发Spam的成本,如: PoW 工作量证明(比特币的挖矿,最早也是用于Email),发信息要花钱(这个对正常用户伤害太大了)等。
    • ……

    总之,还是有相应的方法的,但是一定没有完美解,email对抗了这么多年,你还是可以收到大量的垃圾邮件和钓鱼邮件,所以,我觉得 nostr 也不可能做到……

    怎么理解审查

    最后,我们要明白的是,无论你用什么方法,审查是肯定需要的,所以,我觉得要完全干掉审查,最终的结果就是一个到处都垃圾内容的地方!

    我理解的审查不应该是为权力或是个体服务的,而是为大众和人民服务的,所以,审查必然是要有一个开放和共同决策的流程,而不是独断的

    这点可以参考开源软件基金会的运作模式。

    • 最底端的是用户(User)参与开源社区的使用并提供问题和反馈。
    • 用户在使用过程中了解项目情况后贡献代码和文档就可以晋升为贡献者(Contributors),
    • 当贡献者提交一定数量贡献之后就可以晋升为提交者(Committers),此时你将拥有你参与仓库的代码读写权限。
    • 当提交者Committers在社区得到认可后,由项目管理委员会(PMC)选举并产生PMC成员(类似于议员),PMC成员拥有社区相关事务的投票、提名和共同决策权利和义务。

    注意下面几点

    • 整个社区的决策者,是要通过自己贡献来挣到被选举权的。
    • 社区所有的工作和决定都是要公开的。
    • 社区的方向和决策都是要投票的,PMC成员有binding的票权,大众也有non-binding的投票权供参考。
    • 如果出现了价值观的不同,那么,直接分裂社区就好了,不同价值观的人加入到不同的社区就好了

    如果审查是在这个框架下运作的话,虽然不完美,但至少会在一种公允的基础下运作,是透明公开的,也是集体决策的。

    开源软件社区是一个很成功的示范,所以,我觉得只有技术而没有一个良性的可持续运作的社区,是不可能解决问题的,干净整齐的环境是一定要有人打扫和整理的

     

    欢迎关注我 npub1w6r99545cxea6z76e8nvzjxnymjt4nrsddld33almtm78z7fz95s3c94nu
    欢迎关注我 npub1w6r99545cxea6z76e8nvzjxnymjt4nrsddld33almtm78z7fz95s3c94nu

    两个月前,我试着想用 ChatGPT 帮我写篇文章《eBPF 介绍》,结果错误百出,导致我又要从头改一遍,从那天我觉得 ChatGPT 生成的内容完全不靠谱,所以,从那天开始我说我不会再用 ChatGPT 来写文章(这篇文章不是由 ChatGPT 生成),因为,在试过一段时间后,我对 ChatGTP 有基于如下的认识:

    1. ChatGPT 不是基于事实,是基于语言模型的,事实对他来说不重要,对他重要的是他能读懂你的问题,并按照一定的套路回答你的问题。
    2. 因为是基于套路的回答,所以,他并不能保证内容是对的,他的目标是找到漂亮的精彩的套路,于是,你会发现,他的内容组织能力和表述还不错,但是只要你认真玩上一段时间,你会发现,ChatGPT 那些表述的套路其实也比较平常一般。它的很多回答其实都不深,只能在表面上。就像 Github 的 Copilot 一样,写不了什么高级的代码,只能帮你写一些常规格式化的代码(当然,这也够了)
    ChatGPT 就是一个语言模型,如果不给他足够的数据和信息,它基本就是在胡编乱造

    所以,基于上面这两个点认识,以发展的眼光来看问题,我觉得 ChatGPT 这类的 AI 可以成为一个小助理,他的确可以干掉那些初级的脑力工作者,但是,还干不掉专业的人士,这个我估计未来也很难,不过,这也很帅了,因为大量普通的工作的确也很让人费时间和精力,但是有个前提条件——就是ChatGPT所产生的内容必需是真实可靠的,没有这个前提条件的话,那就什么用也没有了

    今天,我想从另外一个角度来谈谈 ChatGPT,尤其是我在Youtube上看完了微软的发布会《Introducing your copilot for the web: AI-powered Bing and Microsoft Edge 》,才真正意识到Google 的市值为什么会掉了1000亿美元,是的,谷歌的搜索引擎的霸主位置受到了前所未有的挑战……

    我们先来分析一下搜索引擎解决了什么样的用户问题,在我看来搜索引擎解决了如下的问题:

    • 知识或信息索引。查新闻,查股票,查历史,查文档,找答案……
    • 找服务提供商。找卖东西的电商,找帮你修东西的服务,找软件……
    • 信息的准确和可靠。搜索引擎的rank算法保证了最准确、最有用、最权威的信息出现在最前面……(作恶的百度不在此列)

    基本上就是上面这几个,搜索引擎在上面这几件事上作的很好,但是,还是有一些东西搜索引擎做的并不好,如:

    • 搜索引擎是基于关键词的,不是基于语义的。所以,搜索引擎并不知道你的真实需求,因此,你会不可避免地要干下面的事,
      • 你经常要不断地增加或调整不同的关键词来提高查询信息的准确度……
      • 你经常要在你查找的信息中进行二次或多次过滤和筛选……
    • 搜索引擎是只能呈现内容,无法解读内容。所以,你找到相关的链接后,你还要花大量的时间来阅读理解,经常性的你不可避免的要干下面的事:
      • 打开一个链接,读到了一大半后,发现你要的内容不在其中,只能关掉再打开一个……
      • 你想要的内容是在的,但是太晦涩,看不懂,太费解,你要找小白友好的版本……
      • 你想要的内容不完整,你需要在很多个链接和网页上做拼图游戏……
      • 内容是无法结构化的展示的,你搜到的东西全都是碎片信息
    • 搜索引擎没有上下文关联,两次搜索是没有关系的。也就是说,人知道的越多,问题也就越多,所以,我们经常会面临下面的问题:
      • 随着我了解的越多,我的信息搜索的会出现分支,这个分支只有我自己的管理,搜索引擎是不关心的,导致我每次都相当于从头开始……
      • 你做计划的时候,你需要从多个不同的搜索中获取你想要的东西,最终组合成你定制化的东西,比如做旅游计划……

    好了,我们知道,ChatGPT 这类的技术主要是用来根据用户的需求来按一定的套路来“生成内容”的,只是其中的内容并不怎么可靠,那么,如果把搜索引擎里靠谱的内容交给 ChatGPT 呢?那么,这会是一个多么强大的搜索引擎啊,完全就是下一代的搜索引擎,上面的那些问题完全都可以解决了:

    • 你可以打一段话给搜索引擎,ChatGPT 是读得懂语义的。
    • 因为知道语义,于是在众多搜过结果中,他更知道哪些是你想要的内容。
    • ChatGPT 可以帮你生成 TL;DR,把长文中的要求总结出来形成更易读的短文
    • ChatGPT 可以帮你整理内容,在多个网页中帮你整合和结构化内容
    • ChatGPT 可以有上下文对话,你可以让他帮你不断通过更多的关键词搜索信息,并在同一个主题下生成、组织和优化内容

    一旦 ChatGPT 利用上了搜索引擎内容准确和靠谱的优势,那么,ChatGPT 的能力就完全被释放出来了,所以,带 ChatGPT 的搜索引擎,就是真正的“如虎添翼”!

    因此,微软的 Bing + ChatGPT,成为了 Google 有史以来最大的挑战者,我感觉——所有跟信息或是文字处理相关的软件应用和服务,都会因为 ChatGPT 而且全部重新洗一次牌的,这应该会是新一轮的技术革命……Copilot 一定会成为下一代软件和应用的标配!

    这两天技术圈里热议的一件事就是Amazon的流媒体平台Prime Video在2023年3月22日发布了一篇技术博客《规模化Prime Video的音视频监控服务,成本降低90%》,副标题:“从分布式微服务架构到单体应用程序的转变有助于实现更高的规模、弹性和降低成本”,有人把这篇文章在五一期间转到了reddithacker news 上,在Reddit上热议。这种话题与业内推崇的微服务架构形成了鲜明的对比。从“微服务架构”转“单体架构”,还是Amazon干的,这个话题足够劲爆。然后DHH在刚喷完Typescript后继续发文《即便是亚马逊也无法理解Servless或微服务》,继续抨击微服务架构,于是,瞬间引爆技术圈,登上技术圈热搜。

    今天上午有好几个朋友在微信里转了三篇文章给我,如下所示:

    看看这些标题就知道这些文章要的是流量而不是好好写篇文章。看到第二篇,你还真当 Prime Video 就是 Amazon 的全部么?然后,再看看这些文章后面的跟风评论,我觉得有 80%的人只看标题,而且是连原文都不看的。所以,我想我得写篇文章了……

    原文解读

    要认清这个问题首先是要认认真真读一读原文,Amazon Prime Video 技术团队的这篇文章并不难读,也没有太多的技术细节,但核心意思如下:

    1)这个系统是一个监控系统,用于监控数据千条用户的点播视频流。主要是监控整个视频流运作的质量和效果(比如:视频损坏或是音频不同步等问题),这个监控主要是处理视频帧,所以,他们有一个微服务主要是用来把视频拆分成帧,并临时存在 S3 上,就是下图中的 Media Conversion 服务。

    2)为了快速搭建系统,Prime Video团队使用了Serverless 架构,也就是著名的 AWS Lambda 和 AWS Step Functions。前置 Lambda 用来做用户请求的网关,Step Function 用来做监控(探测器),有问题后,就发 SNS 上,Step Function 从 S3 获取 Media Conversion 的数据,然后把运行结果再汇总给一个后置的 Lambda ,并存在 S3 上。

    整个架构看上去非常简单 ,一点也不复杂,而且使用了 Serverless 的架构,一点服务器的影子都看不见。实话实说,这样的开发不香吗?我觉得很香啊,方便快捷,完全不理那些无聊的基础设施,直接把代码转成服务,然后用 AWS 的 Lamda + Step Function + SNS + S3 分分钟就搭出一个有模有样的监控系统了,哪里不好了?!

    但是他们遇到了一个比较大的问题,就是 AWS Step Function 的伸缩问题,从文章中我看到了两个问题(注意前方高能):

    1. 需要很多很多的并发的 AWS Step Function ,于是达到了帐户的 hard limit。
    2. AWS Step Function 按状态转换收费,所以,贵得受不了了。

    注意,这里有两个关键点:1)帐户对 Step Function 有限制,2)Step Function 太贵了用不起

    然后,Prime Video 的团队开始解决问题,下面是解决的手段:

    1) 把 Media Conversion  和 Step Function 全部写在一个程序里,Media Conversion 跟 Step Function 里的东西通过内存通信,不再走S3了。结果汇总到一个线程中,然后写到 S3.

    2)把上面这个单体架构进行分布式部署,还是用之前的 AWS Lambda 来做入门调度。

    EC2 的水平扩展没有限制,而且你想买多少 CPU/MEM 的机器由你说了算,而这些视频转码,监控分析的功能感觉就不复杂,本来就应该写在一起,这么做不更香吗?当然更香,比前面的 Serverless 的确更香,因为如下的几个原因:

    1. 不再受 Step Function 的限制了,技术在自己手里,有更大的自由度。
    2. 没有昂贵的 Step Function 云成本的确变得更低了,如果你把 Lambda 换成 Nginx 或 Spring Gateway 或是我司的 Easegress,你把 S3 换成 MinIO,你把 SNS 换成 Kafka,你的成本 还能再低。

    独立思考

    好了,原文解读完了,你有自己的独立思考了吗?下面是我的独立思考,供你参考:

    1)AWS 的 Serverless 也好, 微服务也好,单体也好,在合适的场景也都很香。这就跟汽车一样,跑车,货车,越野车各有各的场景,你用跑车拉货,还是用货车泡妞都不是一个很好的决定。

    2)这篇文章中的这个例子中的业务太过简单了,本来就是一两个服务就可以干完的事。就是一个转码加分析的事,要分开的话,就两个微服务就好了(一个转码一个分析),做成流式的。如果不想分,合在一起也没问题了,这个粒度是微服务没毛病。微服务的划分有好些原则,我这里只罗列几个比较重要的原则:

    • 边界上下文。微服务的粒度不能大于领域驱动里的 Bounded Context(具体是什么 大家自行 Google),也就是一个业务域。
    • 单一职责,高内聚,低耦合。把因为相同原因变化的合在一起(内聚),把不同原因变化的分开(解耦)
    • 事务和一致性。对于两个重度依赖的功能,需要完成一个事务和要保证强一致性的,最好不要拆开,要放在一起。
    • 跟组织架构匹配。把同一个团队的东西放在一起,不同团队的分开。

    3)Prime Video 遇到的问题不是技术问题,而是 AWS  Step Function 处理能力不足,而且收费还很贵的问题。这个是 AWS 的产品问题,不是技术问题。或者说,这个是Prime Video滥用了Step Function的问题(本来这种大量的数据分析处理就不适合Step Function)。所以,大家不要用一个产品问题来得到微服务架构有问题的结论,这个没有因果关系。试问,如果 Step Funciton 可以无限扩展,性能也很好,而且白菜价,那么 Prime Video 团队还会有动力改成单体吗?他们不会反过来吹爆 Serverless 吗?

    4)Prime Video 跟 AWS 是两个独立核算的公司,就像 Amazon 的电商和 AWS 一样,也是两个公司。Amazon 的电商和 AWS 对服务化或是微服务架构的理解和运维,我个人认为这个世界上再也找不到另外一家公司了,包括 Google 或 Microsoft。你有空可以看看本站以前的这篇文章《Steve Yegg对Amazon和Google平台的吐槽》你会了解的更多。

    5)Prime Video 这个案例本质上是“下云”,下了 AWS Serverless 的云。云上的成本就是高,一个是费用问题,另一个是被锁定的问题。Prime Video 团队应该很庆幸这个监控系统并不复杂,重写起来也很快,所以,可以很快使用一个更传统的“服务化”+“云计算”的分布式架构,不然,就得像 DHH 那样咬牙下云——《Why We’re Leaving the Cloud》(他们的 SRE 的这篇博文 Our Cloud Spend in 2022说明了下云的困难和节约了多少成本)

    后记

    最后让我做个我自己的广告。我在过去几年的创业中,帮助了很多公司解决了这些 分布式,微服务,云原生以及云计算成本的问题,如果你也有类似问题。欢迎,跟我联系:[email protected]

    另外,我们今年发布了一个平台 MegaEase Cloud,就是想让用户在不失去云计算体验的同时,通过自建高可用基础架构的方式来获得更低的成本(至少降 50%的云计算成本)。目前可以降低成本的方式:

    1. 基础软件:通过开源软件自建,
    2. 内容分发:MinIO + Cloudflare 的免费 CDN,
    3. 马上准备发布的直接与底层IDC合作的廉价GPU计算资源…

    欢迎大家试用。

    如何访问

    注:这两个区完全独立,帐号不互通。因为网络的不可抗力,千万不要跨区使用。

    产品演示

    介绍文章

     

    一、

    最近,我写了好几篇 AI 教程,就收到留言,要我谈谈我自己的 AI 编程。

    今天就来分享我的 AI 编程,也就是大家说的"氛围编程"(vibe coding)。

    声明一下,我只是 AI 初级用户,不是高手。除了不想藏私,更多是为了抛砖引玉,跟大家交流。

    二、

    平时,我很少用 AI 生成新项目。因为每次看 AI 产出的代码,我总觉得那是别人的代码,不是我的。

    如果整个项目都用 AI 生成,潜意识里,我感觉不到那是自己的项目。我的习惯是,更愿意自己写新项目的主体代码。

    我主要把 AI 用在别人的项目和历史遗留代码,这可以避免读懂他人代码的巨大时间成本。

    就拿历史遗留代码为例,(1)很多时候没有足够的文档,也没有作者的说明,(2)技术栈和工具库都过时了,读懂代码还要翻找以前的标准,(3)最极端的情况下,只有构建产物,没有源代码,根本无法着手。

    AI 简直就是这类代码的救星,再古老的代码,它都能读懂和修改,甚至还能对构建产物进行逆向工程。

    下面就是我怎么用 AI 处理历史遗留代码,平时我基本就是这样来 AI 编程。

    三、

    我的 AI 编程工具是 Claude Code。因为命令行对我更方便,也容易跟其他工具集成。

    我使用的 AI 模型,大部分时间是国产的 MiniMax M2。我测过它的功能,相当不错,能够满足需要,它的排名也很靠前。

    另外,它有包月价(29元人民币),属于最便宜的编程模型之一,可以放心大量使用,反复试错。要是改用大家都趋之若鹜的 Claude 系列模型,20美元的 Pro 套餐不够用,200美元的 Max 套餐又太贵。

    MiniMax 接入 Claude Code 的方法,参考我的这篇教程

    四、

    就在我写这篇文章的时候,MiniMax 本周进行了一次大升级,M2 模型升级到了 M2.1

    因为跟自己相关,我特别关注这次升级。

    根据官方的发布声明,这次升级特别加强了"多语言编程能力",对于常用编程语言(Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript 等)有专门强化。

    它的 WebDev 与 AppDev 开发能力因此有大幅提升,可以用来开发复杂的 Web 应用和 Android/iOS 的原生 App。

    "在软件工程相关场景的核心榜单上,MiniMax M2.1 相比于 M2 有了显著的提升,尤其是在多语言场景上,超过 Claude Sonnet 4.5 和 Gemini 3 Pro,并接近 Claude Opus 4.5。"

    根据上面这段介绍,它的编程能力,超出或接近了国外旗舰模型。

    这个模型已经上线了,现在就能用。那么,这篇文章正好测一下,官方的介绍是否准确,它的 Web 开发能力到底有没有变强。

    至于价格,跟原来一样。但是,官方表示"响应速度显著提升,Token 消耗明显下降",也算变相降价了。

    M2.1 接入 Claude Code,我的参数如下。

    五、

    我这次选择的历史遗留项目是 wechat-format,一个 Web 应用,将 Markdown 文本转为微信公众号的样式。

    上图左侧的文本框输入 Markdown 文本,右侧立刻显示自动渲染的结果,可以直接复制到微信公众号的编辑器。

    它非常好用,大家可以去试试看。我的公众号现在就用它做排版,效果不错(下图)。

    问题是,原作者六年前就放弃了,这个项目不再更新了。我看过源码,它用的是老版本的 Vue.js 和 CodeMirror 编辑器,没有任何文档和说明,还经过了编译工具的处理,注释都删掉了。

    如果不熟悉它的技术栈,想要修改这些代码是很困难的,可能要投入大量时间。

    那么废话少说,直接让 AI 上场,把这些代码交给 MiniMax M2.1 模型。

    六、

    接手老项目的第一步,是对项目进行一个总体的了解。

    我首先会让 AI 生成项目概述。大家可以跟着一起做,跟我的结果相对照。

    
    # 克隆代码库
    $ git clone [email protected]:ruanyf/wechat-format.git
    
    # 进入项目目录
    $ cd wechat-format
    
    # 启动 Claude Code
    $ claude-minimax
    

    上面的claude-minimax是我的自定义命令,用来在 Claude Code 里面调用 MiniMax 模型(参见教程)。

    输入"生成这个仓库的概述"。

    AI 很快就给出了详细说明,包括项目的总体介绍、核心功能、技术栈和文件结构(下图)。

    有了总体了解以后,我会让 AI 解释主要脚本文件的代码。

    【提示词】解释 index.html 文件的代码

    它会给出代码结构和页面布局(上图),然后是 JS 脚本加载顺序和 Vue 应用逻辑,甚至包括了流程图(下图),这可是我没想到的。

    做完这一步,代码库的大致情况应该就相当了解了,而 AI 花费的时间不到一分钟。

    七、

    既然这个模型号称有"多语言编程能力",我就让它把项目语言从 JavaScript 改成 TypeScript。

    对于很多老项目来说,这也是常见需求,难度不低。

    它先制定了迁移计划,然后生成了 tsconfig.json 和 types.d.ts,并逐个将 JS 文件转为对应的 TS 文件(下图)。

    修改完成后,它试着运行这个应用,发现有报错(下图),于是又逐个解决错误。

    最终,迁移完成,它给出了任务总结(下图)。

    我在浏览器运行这个应用,遇到了两个报错:CodeMirror 和 FuriganaMD 未定义。

    我把报错信息提交给模型,它很快修改了代码,这次就顺利在浏览器跑起来了。

    至此,这个多年前的 JavaScript 应用就成功改成了 TypeScript 应用,并且所有内部对象都有了完整的类型定义。

    你还可以接着添加单元测试,这里就省略了。

    八、

    简单的测试就到此为止,我目前的 AI 编程大概就到这个程度,用 AI 来解释和修改代码。我也建议大家,以后遇到历史遗留代码,一律先交给 AI。

    虽然这个测试比较简单,不足以考验 MiniMax M2.1 的能力上限,但如果人工来做上面这些事情,可能一个工作日还搞不定,但是它只需要十几分钟。

    总体上,我对它的表现比较满意。大家都看到了,我的提示词很简单,就是一句话,但是它正确理解了意图,如果一次没有成功,最多再修改一两次就正确了。

    而且,就像发布说明说的一样,它运行速度很快,思考过程和生成过程最多也就两三分钟,不像有的模型要等很久。

    另外,不管什么操作,它都会给出详细的讲解和代码注释。

    总之,就我测试的情况来看,这个模型的 Web 开发能力确实很不错,可以用于实际工作。

    最后,说一点题外话。著名开发者 Simon Willison 最近说,评测大模型越来越困难,"我识别不出两个模型之间的实质性差异",因为主流的新模型都已经足够强大,足以解决常见任务,只有不断升级评测的难度,才能测出它们的强弱。

    这意味着,对于普通程序员的常见编程任务,不同模型不会构成重大差异,没必要迷信国外的旗舰模型,国产模型就很好用。

    (完)

    这里记录每周值得分享的科技内容,周五发布。([通知] 下周元旦假期,周刊休息。

    本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

    封面图

    哈尔滨19米大雪人,完工之前的样子。(via cgtn@instagram

    《硅谷钢铁侠》摘录

    最近,我读了一本十年前的马斯克传记《硅谷钢铁侠》(中信出版社,2016)。

    按理说,这本书已经过时了,这十年马斯克发生太多事情了。

    我是睡觉前随手拿起来,翻了几页,看得津津有味,就读完了。

    这本是马斯克的授权传记,他本人亲自接受了采访,还挺有料的。而且,因为我已经知道后续的发展,所以读到十年前的采访,反而有更多启发。

    他的人生确实传奇,白手起家,家里给的最大帮助就是从南非移民到加拿大,后面都是自己奋斗出来的。

    他创立了 Paypal,然后把卖掉它的钱拿来又创办了三家公司:特斯拉、SpaceX 和 SolarCity。

    这太疯狂了,他一个外行同时进入了三个不同的行业----电动汽车、宇宙航天和太阳能----这些行业都刚萌芽,没有任何个人创业成功的先例。

    更疯狂的是,他居然把这三家公司都做成了,而且都做到了世界第一(SolarCity 后并入特斯拉),他也因此变成了世界首富,你说神奇不神奇。

    读完全书,我的最大感受是,还是要动手做事,没准真能做成。想他人不敢想,做他人不敢做。即使最狂野的梦想,只要全心投入,用力去做,也是有可能成功的。

    下面就是我的一点摘录。

    (1)

    特斯拉最艰难的时候,非常接近于破产倒闭。

    马斯克对外宣传,特斯拉是一家汽车公司,但实际上,他们只是一群年轻人租了一间大厂房,更像是在捣鼓汽车的大型实验室。

    (2)

    马斯克非常不理解,为什么有人设计了车灯开关。

    他说:"真是多此一举。天黑时车灯自动打开,就这么简单。"

    (3)

    特斯拉的第一版设计稿,因为设计师没想好门把手的形状,就没画上去。

    没想到马斯克很喜欢这个没有门把手的车型,就决定门把手应该在有需要的时候自动弹出。

    (4)

    马斯克认为,未来会有人口危机,主张多生孩子。

    他认真考虑了,怎么在特斯拉后排安装婴儿座椅。传统的车门设计,使得把婴儿座椅和小孩安置在后排非常不方便,所以特斯特的车门设计采用了"鹰翼门"。

    (5)

    特斯拉的第一款车型是跑车,但没有大量生产。真正大量生产的第一款车型是 Model S,最初的名字是 Model Sedan。

    Sedan 这个词的意思就是轿车,用来跟跑车相区别。但是马斯克认为这个词太平淡了。英国人习惯称轿车为 Saloon,这听上一样不伦不类。最后,就索性只保留第一个字母,称为 Model S。

    (6)

    马斯克对员工的要求是,全情投入你的工作,并把事情搞定。

    不要等待上级的指导和详细指示,也不要等待别人的反馈意见,你要主动想办法把工作完成。

    (7)

    他认为,一个人独立工作,是最佳的工作状态。

    一个人不需要开会、不需要与谁达成共识,也不需要在项目中帮助其他人。你一个人就可以持续地工作、工作、再工作。

    (8)

    特斯拉员工最害怕的事情,就是向马斯克申请额外的时间或者经费。

    你一定要事先做好详细准备,跟他解释为什么必须招更多的人,以及需要追加的时间和资金预算。如果有招聘目标,还要准备那个人的简历。

    (9)

    如果你一上来就告诉马斯克,某件事情做不了,他会马上把你轰出办公室,甚至可能当场解雇你。

    在马斯克看来,某件事办不成的唯一原因,就是违背了基本的物理原理。但是即使这样,你也必须做足了功课,深入每一个技术环节,向他解释为什么行不通。

    (10)

    马斯克要求员工,项目没完成之前,周六和周日依然要努力工作,并睡在桌子底下。

    有些人反对,表示员工也需要休息,有时间陪陪家人。

    马斯克说:"我们破产之后,你们会有大量时间陪家人。"

    (11)

    马斯克有自己计算时间价值的方法。他预期10年后,公司的日营收可以达到1000万美元,所以进度每拖延一天,就相当于多损失1000万美元。

    (12)

    马斯克的根本想法是改变这个世界,他总是喜欢谈论人类的生存问题。

    早在他开始创业的时候,就已经得出了结论,那就是生命是短暂的。如果你真的意识到这一点,你就会知道,活着的时候工作越努力越好。

    科技动态

    1、黑色圣诞卡

    爱沙尼亚交通警察向800多名危险驾驶者,寄送了黑色圣诞卡,提醒他们新的一年必须安全驾驶。

    这些人都是过去违反交通规则的司机,最常见的问题是超速和不系安全带。

    圣诞卡上是一起交通事故的现场,黑漆漆的深夜,天空中有明亮的月亮,公路上有交通事故后的车辆残骸,远处还有车灯的亮光。

    一个有趣的统计是,虽然人们常说女司机是"马路杀手",但是这800多个危险驾驶者里面,只有33名女性。

    2、2025全球互联网报告

    世界最大 CDN 服务商 Cloudflare,发布了《2025全球互联网报告》,公布了它的统计数据。

    2025年,全球互联网流量上升19%,由于网民数量基本没变,所以多出来的流量来自 AI 爬虫。

    流量最大的前10大互联网服务:谷歌、脸书、苹果......

    移动流量中,苹果设备占35%,安卓设备占65%。

    浏览器排行是,Chrome 66%,Safari 15.4%,Edge 7.4%。

    3、违停巡逻车

    上海警方启用无人驾驶的违章停车巡逻车。

    这辆小车自动在马路上巡逻,对路面进行抓拍。

    一旦发现违停车辆,它就会识别车牌,将其上传警务系统,系统后台会发送提醒短信给车主,要求在12分钟内驶离。

    12分钟后,小车就会返回点位进行检查,将相关信息回传后台,并经民警审核后开罚单。

    据报道,12月18日一天,它共发现违停车辆119辆次。

    4、室内过山车

    一家瑞典的创意工作室,在他们的办公室建造了世界唯一的室内过山车。

    这个过山车途径办公室的各个角落,总长60米,最高的地方距离地面有3米。

    坐上这个过山车,你就能游览一圈办公室,看到同事们在干什么。

    工作室负责人说,建造它的目的是"促进员工之间的互动,以及打破常规,培养创造力。"

    文章

    1、分布式架构的演化(英文)

    本文将分布式架构分成三种:P2P、联邦式(比如 Mastodon)、中继式(比如 Nostr)。作者认为,对于大型分布式应用,中继式架构才是未来方向。

    2、什么是 GitHub 自托管 Runner?(中文)

    GitHub Actions 有一个 self-hosted runner 功能,让 action 运行在你自己的服务器。本文详细介绍它的概念、原理,并结合案例进行实践。(@luhuadong 投稿)

    3、CSS Grid Lanes 布局(英文)

    浏览器开始支持 CSS 的 Grid Lanes 布局了,大大方便了瀑布流的实现。

    4、6502 指令集适用汇编语言初学者(英文)

    6502 是一块诞生于1975年的 CPU,很多早期电脑(比如 Apple II)都使用它。作者解释,为什么你应该用它,作为学习汇编语言的第一个指令集。

    5、你应该多用/tmp目录(英文)

    作者提出,Linux 系统的/tmp目录用起来很方便,完全可以把它当作自己的临时性目录。

    6、中国的清洁能源战略(英文)

    《纽约时报》驻华记者的长文,体验当代中国的生活,比如无人驾驶、无人机送餐,他说"感觉像生活在未来"。

    工具

    1、MADOLA

    一种新的数学脚本语言,像编程一样写数学公式,可以编译成 HTML 格式作为文档,也可以编译成 C++ 或 WebAssembly 直接运行。(@AI4Engr 投稿)

    2、CattoPic

    一个基于 Cloudflare Worker 的图片托管服务,将图片上传到 Cloudflare 进行推过,支持自动格式转换、标签管理。(@Yuri-NagaSaki 投稿)

    3、termdev

    直接在终端,通过连接 Chrome Devtool 调试网页。(@taotao7 投稿)

    4、tui-banner

    为 Rust 语言的命令行项目添加一个横幅图案。(@coolbeevip 投稿)

    5、Alertivity

    macOS 菜单栏的资源监控工具,监控 CPU、内存、磁盘、网络和进程活动。(@nobbbbby 投稿)

    6、cpp‑linter

    C/C++ 代码的静态检查工具,可以接入 CI/CD 流程,简化代码质量管理。(@shenxianpeng 投稿)

    7、Rote

    开源的 Web 笔记软件,需要自己架设。(@Rabithua 投稿)

    8、Infographic

    JS 的数据可视化框架,用于在网页生成各种信息图,内置200多种模板。(@Aarebecca 投稿)

    9、Clock Dashboard

    天气时钟看板,适合老旧的电子设备再利用。(@teojs 投稿)

    10、离线版问卷

    开源 Web 应用,用来设计和托管调查问卷/报名表。(@chenbz777 投稿)

    11、Xget

    基于边缘计算(如 Cloudflare Workers/Vercel/Netlify)的加速引擎,可以加速程序员网站的访问速度,比如将github.com域名替换成xget.xi-xu.me/gh。(@xixu-me 投稿)

    12、BoxLite

    一个 Python 库,可以在脚本中运行一个微型虚拟机,提供硬件隔离。(@DorianZheng 投稿)

    13、Green Wall

    生成你的 GitHub 年度报告。(@Codennnn 投稿)

    14、edge-next-starter

    面向出海项目的 Next.js + Cloudflare 全栈项目模板,集成 Edge Runtime、D1 数据库、R2 存储。(@TangSY 投稿)

    AI 相关

    1、Chaterm

    带有 AI 功能的智能终端工具,可以用自然语言完成命令行操作。(@zhouyu123666 投稿)

    2、miniCC

    网友开发的 AI 编程工具 Claude Code 替代品,主要用于学习目的。(@Disdjj 投稿)

    3、Android Trans Tool Plus

    一个开源的纯前端应用,通过 AI 翻译安卓资源文件,支持多语言同步、差异校验。(@huanfeng 投稿)

    4、octopus

    个人用户的大模型 API 聚合工具,支持接入多个模型供应商,提供负载均衡、分组名称、使用量统计等功能。(@bestruirui 投稿)

    5、Vexor

    一个 Python 工具,对当前目录的文件进行向量嵌入,用来语义搜索。(@scarletkc 投稿)

    6、Tada

    开源的任务管理应用,带有 AI 总结功能。(@Leaomato 投稿)

    资源

    1、大模型原理(英文)

    一篇相对好懂的大模型原理解释,文章不长,并且还有大量的互动图形,写得非常好,推荐阅读。

    2、编程语言速度比较

    这个网站使用不同的计算机语言,通过莱布尼茨公式计算 π 值,然后给出运行速度的排名,最快是 C++(clang++),最慢是 Python (CPython)。

    3、更好的 ZIP 炸弹

    这个网页提供三个 ZIP 炸弹文件的下载,其中最小一个只有 42KB,但是解压后的大小是 5.5GB。

    图片

    1、2025年最佳科学图片

    《自然》杂志评选的一组2025年最佳科学图片。

    两只争夺领地的青蛙。

    南非废弃天文台长出的蘑菇。

    2、帽子,乌龟和幽灵

    2022年,一个业余数学家 David Smith 发现了一个有点像帽子的奇特形状。

    这个形状的奇特之处在于,它可以无限不重复地铺满整个空间,且不形成周期性的重复图案。

    不久后,他又发现了两种稍加变化的形状,称为乌龟和幽灵,也可以不重复地平铺平面。

    下面就是这三种形状各自平铺的图案。

    言论

    1、

    我使用氛围编程会感到疲惫,AI 生成代码的速度太快了,我的大脑跟不上,无法及时完成代码验收或审查。我必须休息一段时间,才能重新开始。

    -- 《氛围编程疲劳》

    2、

    制造汽车是非常困难的一件事。一辆车大约有3万个独立零部件,公司可能只会采购3000个,因为像车头灯这样的部件,是作为一个整体采购的,但它实际上包含很多组件。

    里面的二级、三级、四级供应商提供的零部件,任何一个出现问题都可能导致整车的问题。

    -- 汽车创业公司 Rivian 的 CEO 专访

    3、

    数码世界的现状是,很多人(尤其是大多数老年人)已经放弃了抵抗,任由电子设备将他们带到任何地方。

    因为一旦你想搞清楚电子设备的运作,就会发现,在便利的幌子下,一切都充满了敌意,暗箱操作无处不在,不可能完全理清。你想从它们手中夺回个人数据和隐私会非常艰苦,而且注定失败,最终只会带来更大的挫败感。

    -- 《一切并非必然》

    4、

    现在的学生拥有前所未有的优质教育资源,但他们却陷入成千上万种选择中不知该学什么、该用什么资源的困境。拥有资源并不意味着就能找到方向。

    -- 《不要关闭你的大脑》

    5、

    危险并非来自中国的崛起,而是美国的思维模式。如果把科学视为零和博弈,那么每一项中国专利看起来都像是美国的损失。但创意是非竞争性的:中国的科研突破不会让美国人变穷,而是会让世界变得更富有。多极化的科学世界意味着更快的增长、更大的财富和加速的技术进步。

    -- 《中国的创新》

    往年回顾

    西蒙·威利森的年终总结,梁文锋的访谈(#332)

    电动皮卡 Cybertruck 的 48V 供电(#282)

    好用的平面设计软件(#232)

    新人优惠的风险(#182)

    (完)

    这里记录每周值得分享的科技内容,周五发布。

    本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

    封面图

    中法合作的一个艺术项目《挑战第841次》,让路过的行人在黄浦江边的一个玻璃亭子里,弹奏法国作曲家的一个钢琴作品。(via

    为什么人们拥抱"不对称收益"

    前两周,我跟大家说,美国现在最流行"预测市场"。我当时没有统计数字,现在有了。

    2025年11月,美国前两大预测市场---- PolymarketKalshi ---- 一共成交了超过100亿美元。

    看这个数字,大家可能没感觉。作为对比,美国全国的体育彩票,2024年的销售额是137亿美元。

    这就是说,预测市场一个月的交易量,接近了体育彩票全年的销售额。要知道,这两个网站6年前都还不存在!

    这么恐怖的增长速度,难怪美国各大公司现在都想挤入这个市场,分一杯羹。

    预测市场就是变相的网络彩票,它的火爆只能说明一件事情,美国正出现疯狂的"彩票热"。

    本周,我看到一篇文章(上图),一位风险投资家分析这个现象。我想分享他的观点,他认为,预测市场火爆的根本原因,是社会心态的焦虑和绝望

    (1)财富转移机制失效了,通过正常工作致富,越来越不可能。工资的增长速度,低于消费的增长速度,个人债务正在变多。

    虽然资产的价格(比如股票、黄金、房产)也在上涨,但只是让那些拥有资产的人受益,对于没有这些资产的穷人,只是变得更贫穷。

    (2)传统的人生模式也失效了。以前的模式是,找一家大公司,每天按时上班,努力工作,对公司忠心耿耿,坚持多年就会得到回报。你会收到公司的奖励,退休后还有养老金。

    这种模式现在行不通了。公司的经营短期化,能存活20年的公司并不多,更不要说你的岗位了。一旦失去现在的工作,再次就业非常困难,以前的工作经验很可能用处不大。

    (3)AI 的出现,加剧了前两种情况的发展速度。AI 让一切加速了,压缩了时间。以前,你有五年的时间奋斗,AI 让你感到必须在一年里拿到结果,否则就可能为时已晚。

    (4)社交媒体则使得人们永远不会对现状满意。

    以前,你的参照群体只是周围人群,现在的参照群体是全世界。你每天看到的都是收入高、赚钱容易、生活优渥的人群,永远会让你感到自己的生活不够好,而无论你已经取得了怎样的成就。

    (5)结果就是,越来越多的人失去了耐心,不再相信长期投入,不再幻想长期的劳动积累会通往圆满的人生,社会也不奖励耐心。

    为什么要苦苦奋斗20年,去争取10年后可能根本不存在的晋升机会?我要的是一条快速的道路,摆脱日常生活的困境,而且越快越好。

    (6)这种心态下,人们的风险偏好发生了变化。为了快速摆脱困境,在风险更大的选项上放手一搏,成了合理的选择

    即使只有5%的希望,也比100%的停滞不前更有吸引力。这就是彩票在贫困社区更畅销的原因。

    这在经济学上称为"不对称收益"(asymmetric returns),就是风险和收益不对称。失败的可能性很大,但只会损失一小笔钱,成功的可能性很小,但是一旦成功,就会获得巨大收益,简单说就是"小亏大赚"。

    追求不对称收益,已经成了一种普遍的心态。它推动了前几年的加密货币和 NFT 的热潮,现在又推动了预测市场。

    可以确定,凡是能够产生"不对称收益"的事情,今后都会迅速成为热点。

    新人上手 Claude Code 的简单方案

    AI 编程工具,我用的是 Claude Code。以前推荐过,非常好用,功能很强。

    我现在依然这样认为,但是必须说,Claude Code 不适合所有人,有使用门槛

    它要求用户熟悉命令行,而且 Windows 安装不方便,需要启用 Linux 子系统 WSL。另外,如果在外面,没有自己的计算机,临时想用一下,也很麻烦。

    元旦的时候,我在广东听说,有人做了"云端 Claude Code 客户端",解决了这些痛点,就很感兴趣。

    他们团队叫做 302.AI,我以前就有接触。他们做云端服务很多年了,现在专注于 AI 模型接入。大家可以去官网看一下,用他们的 API 能够接入几乎所有主流模型,数量有几百个。

    他们跟我一样,也感到 Claude Code 的诸多不便,就想能不能再开发一个它的客户端,封装所有复杂性,提供最好用的 AI 编程体验。

    (1)跨平台桌面应用。他们提供 Win/Mac/Linux 安装程序,通过桌面窗口去使用云端的 Claude Code。

    (2)零配置的云端沙盒。云端的 Claude Code 预装在一个沙盒里,集成了 Node.js、Python、Git、CMake、build-essential 等开发工具,不需要任何本地环境配置,开箱即用。

    同时,沙盒也保障了安全,跟本地电脑是隔离的,AI 就不会误删本地文件。

    (3)对话界面。对于不习惯命令行的用户,他们提供对话式交互界面(Chat UI),以聊天方式完成编程。

    (4)随意更换模型。Claude Code 更换底层模型,需要配置环境变量,他们的客户端不需要这么麻烦,只需要鼠标选中即可。

    你可以直接用他们的 API,也可以配置自己的 API Key。

    (5)一键部署。他们还提供了部署功能,AI 生成的结果可以一键发布到公网,直接访问,无需购买服务器或配置域名。

    可以说,这个方案完全针对 Claude Code 的各种痛点,目标是打造新手最容易上手的 Vibe Coding 工具。

    感兴趣的朋友可以去 studio.302.ai 下载,体验一下。(提醒:使用前需要注册/登录 302.AI 账号。)

    科技动态

    1、乔布斯写的程序

    乔布斯创立苹果公司之前,当过短时间的程序员。1975年,他20岁,从大学退学后,进入雅达利公司写电子游戏。

    人们一直不知道,他的编程水平如何,现在终于曝光了。

    本周,乔布斯的一些个人档案公开拍卖,其中就有当年他写的程序,打印纸上还有他的亲笔注释。

    有人把这个程序还原出来,放到虚拟机上跑,终于让我们看到了乔布斯的软件作品。

    这个程序叫做 AstroChart,跟星座有关。用户提供出生的时间地点,它会显示太阳系主要天体的位置。

    从代码来看,乔布斯的编程水平可以,他使用三角函数计算行星位置,并且绕过当年硬件没有双精度浮点数的限制,用整数除法代替。

    2、世界最大电动船

    澳大利亚建造了世界最大的电力轮船,长度130米,里面的电池重达250吨。

    这艘船将用作阿根廷与乌拉圭之间的轮渡,可以搭载多达2100名乘客和225辆汽车。

    这艘船不仅是史上最大的电动船,可能也是史上最大的电动装置,一次可以携带超过4万度电。

    3、最高过山车

    2025年的最后一天,沙特阿拉伯在距离首都利雅得40分钟车程的地方,开张了一个乐园。

    这个乐园有27个游乐设施,很多都是世界之最,其中就有目前世界最高的过山车。

    这个过山车高达195米,相当于60层楼,比先前的世界纪录高出了55米。

    整个过山车的长度是4.2公里,最高速度可以达到240公里/小时,全程只有3分多钟。

    网上有很多这个过山车的视频,不要说坐在车上,就是看视频都觉得惊心动魄。

    文章

    1、2025年大模型回顾(英文)

    西蒙·威利森(Simon Willison)的 AI 年度回顾,过去一年的大事件基本都提及了,总结和评点得非常好,推荐阅读。

    2、华为的 5nm 制程怎么样?(英文)

    这是一家美国技术媒体对华为麒麟9030芯片(搭载于最新的 Mate 80 手机)的分析文章。

    该文认为,该芯片比早先的 7nm 制程有提升,是大陆制造的最先进芯片,但从跑分看,还没达到台积电的 5nm 水平。文章有中文版

    3、Opus 4.5 将会改变一切(英文)

    作者不相信 AI 会取代程序员,直到遇到 Anthropic 公司的 Opus 4.5 模型。本文是他的4个项目的编程体会,他现在确信程序员会被替代。

    4、HTTP caching, a refresher(英文)

    对于 HTTP 缓存机制的一个总体介绍,梳理浏览器缓存的处理逻辑。

    5、Vitest 的浏览器模式介绍(英文)

    JS 测试框架 Vitest 4.0 引入了浏览器模式,可以进行浏览器自动化,类似于 Playwright,进行 UI 测试,本文是一个简单介绍。

    6、如何提高 JS 数组的读写速度(英文)

    一篇 JavaScript 中级教程,介绍通过为 JS 数组分配连续内存,提高数组的读写速度。

    工具

    1、ZenOps

    一个命令行工具,在本地终端里查询阿里云/腾讯云等云平台的运行数据,并提供钉钉、飞书、企微机器人,进行自然语言查询。(@eryajf 投稿)

    2、白虎面板

    轻量级的服务器定时任务管理系统,适合低配置的服务器。(@engigu 投稿)

    3、OnlinePlayer

    一个网页播放器,可以播放本地视频和云盘视频。(@13068240601 投稿)

    4、gitstats

    命令行工具,生成 Git 仓库的统计数据。(@shenxianpeng 投稿)

    5、云图

    一个极简风格的图床,可以搭建到自己的 NAS,提供灵活的 API。(@qazzxxx 投稿)

    6、KeyStats

    开源的 macOS 小工具,对按键行为进行统计。(@debugtheworldbot 投稿)

    7、py2dist

    这个工具可以将 Python 脚本编译成二进制模块,方便隐藏源码。(@xxnuo 投稿)

    8、Stream Panel

    Chrome 浏览器开发者工具的一个扩展,用来调试服务器发送事件 (SSE) 和 Fetch 的流式连接。(@bywwcnll 投稿)

    9、Zedis

    Redis 的图形客户端,跨平台的桌面应用,不使用 Electron,而是使用 Rust + GPUI,性能更好。(@vicanso 投稿)

    10、QDav

    这个网站可以为夸克网盘加入 WebDAV 协议,从而挂载到网盘播放器来播放夸克网盘的视频。(@ZhouCai-bo 投稿)

    11、XApi

    开源的 Chrome 浏览器插件,自动捕获当前网页的 Fetch 与 XHR 网络请求,支持改写 Cookie、Origin、Referer 字段,方便开发调试。(@lustan 投稿)

    12、PDFCraft

    纯浏览器的 PDF 开源工具集,目前有80多个工具。(@pccprint 投稿)

    AI 相关

    1、Open-AutoGLM

    智源公司的开源安卓应用,使用自然语言,让 AI 操作手机,进行手机自动化,可以接入各种模型,无需电脑端。(@Luokavin 投稿)

    2、Claude-Ally-Health

    一个基于 Claude Code 的个人医疗数据中心,定义了一组自己的命令和技能,用 AI 分析个人医疗数据(体检报告、影像片子、处方单、出院小结)。(@huifer 投稿)

    3、灵猫

    免费的 AI 图片去水印网站,但只是去除视觉水印,嵌入的数字水印还在。(@pangxiaobin 投稿)

    4、DeepDiagram AI

    开源的 AI 应用,用自然语言驱动内置的 mermaid、echarts、mindmap、Draw.io 等绘图工具生成图表。(@twwch 投稿)

    资源

    1、100万首页截图

    这个网站收集了100万个热门网站的首页截图,将它们做在一个页面,可以放大查看。

    2、Emulator Gamer

    各种老游戏机的经典游戏,通过模拟器免费在线游玩。(@SinanWang 投稿)

    图片

    1、如今的 Mozilla

    Mozilla 浏览器的新任 CEO 宣称,公司的发展方向是AI 浏览器

    这让 Mozilla 社区感到担忧,因为没人是为了 AI 而使用它。一位使用者就画了下面这张图。

    Mozilla 的吉祥物----一只小狐狸拿着锯子,把自己正坐着的树枝锯断,旁边还有一只鸟,为它递上更锋利的电动锯子,上面写着"AI"。

    这张图比喻 Mozilla 一直在自寻死路,全力转向 AI 只会死得更快。

    文摘

    1、外卖应用的秘密

    我是一个大型外卖应用的开发者,受一项严格的保密协议约束。但是,我已经不在乎了,我昨天向公司递交了离职报告。

    说实话,我希望公司能起诉我,这样一来,这些事情就会曝光。

    我已经消极工作大约八个月了,只是看着代码被推送到生产环境。一想到自己参与了这台机器,我夜里都睡不着。

    人们总怀疑算法对用户不利,现实比这更糟。我是一名后端工程师,每周参加产品会议,产品经理(PM)讨论如何才能挤出额外0.4%的利润,他们把用户当成有待开发的资源。

    公司有一个"优先配送"服务,你多付2.99美元,就可以更快拿到外卖。这完全是个骗局,根本没有加快派送的速度,而是人为把非优先订单延迟5到10分钟,让你感觉优先订单更快。我们仅仅通过让标准服务变差,就赚取了数百万美元的纯利润,而不是真正改善服务。

    最让我恶心的是"绝望分数",这是一个隐藏的外送员指标,根据外送员的行为判断他们多想赚钱。

    如果外送员在晚上10点登录系统,毫不犹豫地立即接下每一个3美元的垃圾订单,算法会将他们标记为"高度绝望"。一旦被标记,系统就会停止向他们显示高价订单,理由是"既然我们知道他绝望到愿意接受3美元,为什么还要让他看到15美元的订单呢?"。系统把高价订单留给"休闲"外送员,即那些不愿接低价单的外送员,吸引他们接单,而全职外送员则被碾压成尘埃。

    公司还会从用户的账单扣除一笔1.50美元的"外送员福利费",这个名字让用户感觉在帮助外送员。实际上,这笔钱流入了游说反对外送员成立工会的基金,这是公司用于"政策防御"的费用。用户实际上是在为那些高端律师付费,那些律师为削弱外送员的权益而工作。

    最后,虽然公司不再从外送员的小费里面提成,因为被起诉过,但是使用其他方法窃取小费。

    如果算法预测你是"可能支付小费的用户",而且你很可能会给10美元小费,那么公司只会给外送员可怜的2美元基本派送费。如果你给了0美元小费,公司会给外送员8美元的基本派送费。结果是用户的小费并没有奖励外送员,而是在补贴公司。用户给外送员付工资,这样我们就不用付了。

    言论

    1、

    在美国东海岸(纽约和华盛顿),人们会问:"中国是否就要失败了",而在西海岸(洛杉矶和旧金山),人们更倾向于问:"万一中国成功了会怎样?"

    这一定程度上反映了硅谷的特点:更注重收益最大化,而非风险最小化。东海岸的问题也值得认真对待,但过分关注中国是否失败,会助长一种美国无需做出任何改变就能击败对手的论调,从而削弱美国改革的紧迫性。

    -- Dan Wang《2025年度信件》

    2、

    如果美国或中国在某个方面落后太多,落后者就会奋起直追。这将是未来数年甚至数十年世界变化的动力。

    -- Dan Wang《2025年度信件》

    3、

    程序员对待 AI 有两种态度:一种以结果为导向,渴望通过 AI 更快拿到结果;另一种以过程为导向,他们从工程本身获得意义,对于被剥夺这种体验感到不满。

    -- Ben Werdmuller

    4、

    AI 数据中心的建设热潮,导致内存价格暴涨,进而产生一系列连锁反应。

    手机和电脑厂商别无选择,只能提价。我们估计,2026年全球的手机市场和电脑市场都会萎缩。手机萎缩2.9%到5.2%,电脑萎缩4.9%到8.9%。

    -- IDC 公司的预测

    5、

    eSIM 手机卡一旦更换就可能失效,相比之下,实体 SIM 卡可以随意插上插下,几乎不会出现故障。推广 eSIM 的后果就是,手机号丢失的事件会大大增多。

    -- 《我后悔使用 eSIM》

    往年回顾

    一切都要支付两次(#333)

    没有目的地,向前走(#283)

    生活就像一个鱼缸(#233)

    腾讯的员工退休福利(#183)

    (完)

    直接导航——即在浏览器中手动输入域名访问网站的行为——正面临前所未有的风险:一项新研究发现,绝大多数"停放"域名(主要是过期或闲置域名,以及热门网站的常见拼写错误)现在都被配置为重定向访问者至推送诈骗和恶意软件的网站。

    2025年10月,一个仿冒FBI网络犯罪投诉中心的域名在桌面端显示无害的停放页面(左图),而移动用户则被立即导向欺诈内容(右图)。图片来源:Infoblox。

    当互联网用户尝试访问过期域名或意外导航至仿冒的"域名抢注"网站时,他们通常会被带到域名停放公司的占位页面。这些公司通过展示付费第三方网站的链接,试图从这些误入流量中获利。

    十年前,访问这些停放域名后被重定向到恶意网站的概率相对较低:2014年研究人员发现(PDF),无论访问者是否点击停放页面上的任何链接,停放域名将用户重定向至恶意网站的概率均低于5%。

    但在过去几个月的系列实验中,安全公司Infoblox的研究人员表示,他们发现情况现已完全逆转,恶意内容目前已成为停放网站的常态。

    "在大规模实验中,我们发现超过90%的情况下,访问停放域名的用户会被导向非法内容、诈骗、恐吓软件和杀毒软件订阅服务或恶意软件。这是因为停放公司将'点击'出售给广告商,而广告商往往又将流量转售给其他方,"Infoblox研究人员在今天发布的论文中写道。

    Infoblox发现,如果访问者使用虚拟专用网络(VPN)或非住宅IP地址访问停放网站,这些网站会显示正常内容。例如,Scotiabank.com的客户若将域名误输为scotaibank[.]com,使用VPN时会看到正常的停放页面,但若使用住宅IP地址访问,则会被重定向至试图推送诈骗、恶意软件或其他不良内容的网站。需要强调的是,仅需使用住宅IP地址的移动设备或台式电脑访问拼写错误的域名,就会触发这种重定向。

    据Infoblox透露,scotaibank[.]com的所有者拥有近3000个仿冒域名组合,包括gmail[.]com。该域名已被证实配置了自己的邮件服务器用于接收邮件。这意味着,如果您在发送邮件给Gmail用户时不小心漏掉了"gmail.com"中的字母"l",这封邮件不会消失或退回,而是直接落入这些诈骗者手中。报告指出,该域名还在近期多起商业邮件入侵攻击中被利用,通过附有木马恶意软件的"付款失败"诱饵进行欺诈。

    Infoblox发现,这个特定的域名持有者(通过公共DNS服务器torresdns[.]com暴露)针对数十个顶级互联网平台设置了域名抢注网站,包括Craigslist、YouTube、Google、Wikipedia、Netflix、TripAdvisor、Yahoo、eBay和Microsoft。这些域名抢注网站的脱敏列表可在此处查看(所列域名中的点号已替换为逗号)。

    Infoblox威胁研究员David Brunsdon表示,停放页面会让访问者经历一系列重定向链,同时通过IP地理位置、设备指纹识别和Cookie来分析访问者系统,以确定最终重定向目标。

    "在威胁到达之前,通常存在一条重定向链——涉及停放公司之外的一到两个域名,"Brunsdon说。"每次交接时,设备都会被反复分析,然后被传递到恶意域名,或者如果他们认为不值得攻击,则会被导向像Amazon.com或Alibaba.com这样的诱饵页面。"

    访问scotaibank.com时的重定向路径样本。每个分支包含观察到的系列域名,包括颜色编码的着陆页。图片来源:Infoblox。

    Infoblox指出,另一个拥有domaincntrol[.]com的威胁行为者(该域名与GoDaddy的名称服务器仅相差一个字符)长期利用DNS配置中的拼写错误将用户导向恶意网站。然而最近几个月,Infoblox发现这种恶意重定向仅发生在使用Cloudflare DNS解析器(1.1.1.1)的访问者查询错误配置域名时,其他所有访问者只会收到拒绝加载的页面。

    研究人员发现,即使是知名政府域名的变体也已成为恶意广告网络的目标。

    "当我们的一位研究人员试图向FBI的互联网犯罪投诉中心(IC3)举报犯罪时,他们意外访问了ic3[.]org而非ic3[.]gov,"报告指出。"他们的手机很快被重定向到一个虚假的'Drive订阅已过期'页面。他们还算幸运只遇到了诈骗;根据我们的了解,他们同样可能轻易收到信息窃取程序或木马恶意软件。"

    Infoblox报告强调,他们追踪的恶意活动并未归因于任何已知方,并指出研究中提及的域名停放或广告平台与他们记录的恶意广告行为无关。

    然而报告总结称,尽管停放公司声称只与顶级广告商合作,但这些域名的流量经常被出售给联盟网络,后者又多次转售流量,最终导致终端广告商与停放公司之间不存在任何商业关系。

    您正在阅读的故事是一系列独家报道,它们嵌套在一个更为紧迫的全互联网安全公告之中。所讨论的漏洞已被利用数月之久,现在是时候让更多人意识到这一威胁了。简而言之,您过去对互联网路由器后方内部网络安全性的认知,如今很可能已经危险地过时了。

    安全公司Synthient目前监测到全球有超过200万台设备感染了Kimwolf,其中越南、巴西、印度、沙特阿拉伯、俄罗斯和美国是重灾区。Synthient发现,三分之二的Kimwolf感染设备是内置无安全或身份验证机制的Android电视盒子。

    过去几个月,一个名为Kimwolf的新型僵尸网络经历了爆炸性增长。专家称其已感染全球超过200万台设备。Kimwolf恶意软件迫使受感染系统转发恶意和滥用的互联网流量——例如广告欺诈、账户接管尝试和大规模内容抓取——并参与足以使几乎所有网站离线数日的毁灭性分布式拒绝服务(DDoS)攻击。

    然而,比Kimwolf的惊人规模更重要的是它用来快速传播的邪恶方法:它有效地通过多种“住宅代理”网络隧道回连,进入代理端点的本地网络,并进一步感染那些隐藏在用户防火墙和互联网路由器假定保护之下的设备。

    住宅代理网络作为一种服务出售,旨在帮助客户匿名化其网络流量并将其定位到特定区域。其中最大的服务允许客户通过全球几乎任何国家或城市的设备来路由其流量。

    将终端用户的互联网连接转变为代理节点的恶意软件,通常与可疑的移动应用和游戏捆绑在一起。这些住宅代理程序也常通过非官方Android电视盒子安装,这些盒子由第三方商家在诸如AmazonBestBuy、NeweggWalmart等热门电商网站上销售。

    这些电视盒子的价格从40美元到400美元不等,以令人眼花缭乱的无名品牌和型号进行销售,并且经常被宣传为可以免费流式传输某些类型的订阅视频内容。但这场交易存在隐藏成本:正如我们稍后将探讨的,这些电视盒子构成了目前估计200万感染Kimwolf系统中相当大的一部分。

    一些预装了住宅代理恶意软件的非官方Android电视盒子。图片来源:Synthient。

    Kimwolf也非常擅长感染一系列联网数码相框,这些相框在各大电商网站同样大量存在。2025年11月,Quokka的研究人员发布了一份报告(PDF),详细说明了运行Uhale应用的基于Android的数码相框存在的严重安全问题——包括截至2025年3月亚马逊最畅销的数码相框。

    这些数码相框和非官方Android电视盒子的第二个重大安全噩梦是,它们依赖于少数几款联网微电脑板,这些板子没有内置明显的安全或身份验证要求。换句话说,如果您与一个或多个此类设备处于同一网络,您很可能可以通过在网络中发送一条命令,同时攻陷它们。

    没有地方比得上127.0.0.1

    这两种安全现实的结合在2025年10月凸显出来,当时罗切斯特理工学院的一名计算机科学本科生开始密切追踪Kimwolf的增长,并每天与其明显的创建者直接互动。

    Benjamin Brundage是安全公司Synthient的22岁创始人,这家初创公司帮助企业检测代理网络并了解这些网络如何被滥用。Brundage在准备期末考试期间进行了大量关于Kimwolf的研究,他在2025年10月下旬告诉KrebsOnSecurity,他怀疑Kimwolf是Aisuru僵尸网络的一个新的基于Android的变种。Aisuru在去年秋天曾被错误地归咎为一系列破纪录DDoS攻击的元凶。

    Brundage表示,Kimwolf通过利用全球许多大型住宅代理服务中的一个明显漏洞而迅速增长。他解释说,这个弱点的关键在于,这些代理服务未能充分阻止其客户将请求转发到单个代理端点的内部服务器。

    大多数代理服务会采取基本措施,通过明确拒绝针对RFC-1918中指定的本地地址(包括众所周知的网络地址转换(NAT)范围10.0.0.0/8、192.168.0.0/16和172.16.0.0/12)的请求,来防止其付费客户“向上游”进入代理端点的本地网络。这些范围允许私有网络中的多个设备使用单个公共IP地址访问互联网,如果您运行任何家庭或办公室网络,您的内部地址空间就在一个或多个这些NAT范围内运行。

    然而,Brundage发现,操作Kimwolf的人已经找到了如何直接与数百万住宅代理端点的内部网络上的设备通信的方法,只需将其域名系统(DNS)设置更改为与RFC-1918地址范围相匹配即可。

    “通过使用指向192.168.0.1或0.0.0.0的DNS记录,可以绕过现有的域名限制,”Brundage在2025年12月中旬发送给近十二家住宅代理提供商的首份安全公告中写道。“这使攻击者能够向当前设备或本地网络上的设备发送精心构造的请求。这正被积极利用,攻击者利用此功能来投放恶意软件。”

    我们在2026年的首篇报道揭示了名为Kimwolf的新型破坏性僵尸网络如何通过大规模入侵大量非官方Android TV流媒体盒,感染了超过两百万台设备。今天,我们将深入挖掘黑客、网络运营商及服务方留下的数字线索,这些实体似乎从Kimwolf的传播中获益。

    2025年12月17日,中国安全公司XLab发布了一份关于Kimwolf的深度分析报告。该僵尸网络强制受感染设备参与分布式拒绝服务(DDoS)攻击,并为所谓的“住宅代理”服务转发滥用和恶意的互联网流量。

    将用户设备转变为住宅代理的软件通常被悄无声息地捆绑在移动应用和游戏中。Kimwolf专门针对出厂预装在超过一千种不同型号的非授权Android TV流媒体设备上的住宅代理软件。很快,这些住宅代理的互联网地址便开始输送与广告欺诈、账户接管尝试和大规模内容抓取相关的流量。

    XLab的报告解释称,其研究人员发现了“确凿证据”,表明相同的网络犯罪分子和基础设施被用于部署Kimwolf和Aisuru僵尸网络——后者是Kimwolf的早期版本,同样劫持设备用于DDoS攻击和代理服务。

    XLab表示,自10月起就怀疑Kimwolf和Aisuru由相同的作者和运营者操控,部分依据是两者随时间推移共享的代码变更。但该机构称,这些怀疑在12月8日得到证实,当时他们观察到两个僵尸网络变种均通过同一互联网地址93.95.112[.]59进行分发。

    图片:XLab。

    RESI RACK

    公开记录显示,XLab标记的互联网地址范围被分配给了位于犹他州李海的Resi Rack LLC公司。Resi Rack的网站自称是“高级游戏服务器托管提供商”。同时,该公司在互联网赚钱论坛BlackHatWorld上的广告则称其为“高级住宅代理托管及代理软件解决方案公司”。

    Resi Rack联合创始人Cassidy Hales告诉KrebsOnSecurity,他的公司在12月10日收到了关于Kimwolf使用其网络的通知,“其中详细说明了我们一位租用服务器的客户所进行的操作”。

    “收到这封邮件后,我们立即处理了这个问题,”Hales在回复评论请求的电子邮件中写道。“我们非常失望此事现在与我们的名字关联,这完全不是我们公司的本意。”

    XLab在12月8日引用的Resi Rack互联网地址,其实在那之前两周多就已进入KrebsOnSecurity的视野。Benjamin Brundage是追踪代理服务的初创公司Synthient的创始人。2025年10月下旬,Brundage分享道,那些销售各种从Aisuru和Kimwolf僵尸网络中获益的代理服务的人,正在一个名为resi[.]to的新Discord服务器上进行交易。

    2025年11月24日,resi-dot-to Discord频道的一名成员分享了一个负责通过感染了Kimwolf僵尸网络的Android TV流媒体盒代理流量的IP地址。

    当KrebsOnSecurity在10月下旬作为沉默观察者加入resi[.]to Discord频道时,该服务器成员不足150人,其中包括Resi Rack联合创始人Hales先生使用的昵称“Shox”,以及其未回应评论请求的商业伙伴“Linus”。

    resi[.]to Discord频道的其他成员会定期发布负责通过Kimwolf僵尸网络代理流量的新IP地址。如上方的resi[.]to截图所示,XLab标记的那个Resi Rack互联网地址早在11月24日(如果不是更早)就被Kimwolf用于引导代理流量。Synthient表示,总计在2025年10月至12月期间,他们追踪到至少七个与Kimwolf代理基础设施相关的静态Resi Rack IP地址。

    Resi Rack的两位共同所有者均未回应后续问题。两人近两年来一直活跃于通过Discord销售代理服务。根据对网络情报公司Flashpoint索引的Discord消息的审查,Shox和Linus在2024年大部分时间里,通过路由美国主要互联网服务提供商的各种互联网地址块来销售静态“ISP代理”。

    2025年2月,AT&T宣布自2025年7月31日起,将不再为非AT&T拥有和管理的网络块发起路由(其他主要ISP此后也采取了类似举措)。不到一个月后,Shox和Linus告知客户,由于这些政策变化,他们将很快停止提供静态ISP代理。

    Shox和Linux,谈论他们停止销售ISP代理的决定。

    DORT & SNOW

    resi[.]to Discord服务器的声明所有者使用缩写用户名“D”。这个首字母似乎是黑客代号“Dort”的简称,该名字在这些Discord聊天中频繁出现。

    Dort在resi dot to上的个人资料。

    这个“Dort”昵称出现在KrebsOnSecurity最近与“Forky”的对话中。Forky是一名巴西男子,他承认在2024年底Aisuru僵尸网络创立初期参与了其营销活动。但他坚决否认与2025年下半年归咎于Aisuru的一系列破纪录的大规模DDoS攻击有任何关联,称当时该僵尸网络已被竞争对手接管。

    Forky断言,Dort是加拿大居民,并且是当前控制Aisuru/Kimwolf僵尸网络的至少两人之一。Forky指名的另一位Aisuru/Kimwolf僵尸网络操控者使用的昵称是“Snow”。

    1月2日——就在我们关于Kimwolf的报道发布几小时后——resi[.]to上的历史聊天记录在毫无预警的情况下被清除,取而代之的是一条针对Synthient创始人的充满脏话的信息。几分钟后,整个服务器消失了。