2026年1月

大模型虽已具备强大的感知与推理能力,但在面对复杂的计算机图形界面操作(Computer Use)任务时,仍受限于高质量数据稀缺与环境交互反馈缺失的双重挑战。美团技术团队推出了 EvoCUA 模型并在Github、Huggingface开源,通过构建可验证数据合成引擎与十万级并发的交互沙盒,将训练范式从传统的“静态轨迹模仿”转变为高效的“经验进化学习”。该方案在权威评测基准 OSWorld 上以 56.7% 的成功率刷新了开源 SOTA(2026年1月6日榜单),验证了基于经验的进化范式在 GUI 智能体领域的有效性。

01 背景与挑战

随着大模型的发展,AI 已经具备了强大的感知与推理能力。但在真实的使用场景中,我们希望 Agent 不仅能回答问题,更能解决问题——比如自动处理 Excel 表格、在浏览器中完成复杂的资料检索或跨应用协同。这种对解决问题能力的追求,推动了基础模型从 Chat(对话者)到 Agent(行动者) 的转变。

在这一进程中,Computer Use Agent(CUA,计算机操作智能体) 是一个关键里程碑。CUA打破了 API 的限制,构建了一种原生的交互方式——像人类一样,通过高分辨率视觉感知屏幕,并利用鼠标键盘完成跨应用的长链路任务,有可能成为下一代操作系统的核心交互入口。

然而,要训练出一个通用的 CUA,我们面临着严峻的数据扩展(Data Scaling)瓶颈。当前主流的训练范式依赖于对专家轨迹的模仿学习,但在将其推向工业级可用时,这种方式面临着三大挑战:

  • 数据合成质量低: 真实的高质量轨迹数据极度稀缺且昂贵,而试图用大模型直接生成数据往往会陷入“幻觉”。模型生成的指令或计划经常看似合理,但在真实的 UI 状态下根本不可执行。
  • 缺乏交互反馈: 静态数据模仿学习只能告诉模型“什么是对的”,却无法告诉它“如果点偏了会发生什么”。缺乏在大规模环境交互中产生的反馈,模型就无法捕捉操作与环境变化之间复杂的因果动态,难以适应真实环境中渲染差异、网络延迟等随机扰动。
  • 长链路探索效率低:计算机操作往往涉及数十步甚至上百步的连续决策,无约束的探索空间巨大且低效。仅靠简单的模仿学习,模型很难学会如何从中间的错误状态中反思并纠错。需要一种更高效和可扩展的范式,让模型专注于从海量自身成功和失败的经验里学习和进化。

面对上述挑战,我们正式推出了 EvoCUA, 一种原生的计算机操作智能体模型。EvoCUA致力于构建一种进化范式,让模型在大规模沙盒环境中,像生物进化一样,通过不断的试错,反思和修正,积累海量成功和失败经验,进而不断提升自身能力

通过这一范式,EvoCUA-32B 在 Computer Use权威的在线评测基准 OSWorld 上取得了 56.7% 的成功率,刷新了开源模型的 SOTA 记录,以更少的参数量和推理步数超过此前的开源SOTA OpenCUA-72B (45.0%),以及领先的闭源模型UI-TARS-2 (53.1%)。此外,实验证实该方案的通用性,在不同基座(如 Qwen3-VL、OpenCUA)及多个尺寸(8B 至 72B)的模型上均能显著提升 Computer Use 能力 。

模型上网查询如何配置rbenv开发环境并帮用户安装的示例:

02 核心技术架构

EvoCUA 的核心在于构建“交互-反馈-修正”的闭环。我们针对数据、环境、算法三个维度构建了自维持的进化架构:可验证数据合成引擎负责生产高质量任务,高并发交互基建支持海量轨迹合成,基于经验的迭代算法提供模型进化的关键路径。

2.1 可验证数据合成引擎

EvoCUA 数据层的核心任务是构建一个自动化流水线,能够合成覆盖各个垂直领域的高质量任务指令。我们要求合成数据要满足两个指标:

  • 场景完备性:覆盖从文档办公、Web 检索到系统管理的全场景操作。
  • 执行确定性:每一条数据必须在真实环境中可执行、可验证,杜绝逻辑幻觉。

在实现这一目标时,我们发现业界通用的“大模型生成 + Reward Model (RM) 筛选”范式在 Computer Use 场景下存在本质缺陷:

  • 语义与执行的割裂:传统的 RM 基于语义匹配打分,只能判断生成的指令在文本层面是否合理,无法验证其在物理层面能否执行。
  • Reward Hacking:模型倾向于生成逻辑通顺但包含“幻觉”的指令(例如点击不存在的 UI 元素)。这些不可执行的任务会引入大量训练噪音,导致模型在真实操作中产生严重的错误累积。

为了解决数据可信度问题,我们提出了 “生成即验证” 范式,在生成自然语言指令的同时,同步生成可执行的验证代码,并以沙盒中的实际运行结果作为判断数据是否有效的唯一标准。

整体数据合成框架如下:

2.1.1 结构化任务空间构建

在构建任务空间时,我们并未盲目堆砌数据,而是基于对 GUI 操作本质的两个核心洞见:

  • 原子能力的可迁移性与泛化性:GUI 操作虽然千变万化,但其底层的“原子技能”是跨域复用的。例如,“数据筛选”这一能力,无论是在 Excel、CRM 系统还是网页后台中,其逻辑内核是同构的。
  • 复杂任务的组合本质:真实世界中的复杂任务,本质上是由有限的原子能力通过特定逻辑编排而成的序列。掌握了原子能力的组合方式,就等于掌握了生成无限复杂任务的“语法”。

基于这两点思考,我们采用分层构建策略来初始化任务环境。

  • 原子能力拆解:我们将复杂的桌面操作任务解构为标准的原子能力单元。基于分层领域分类体系,例如将“Excel 财务分析”任务拆解为“公式计算”、“多列排序”、“透视表生成”等子技能。
  • 资源文件合成:为了模拟真实环境的复杂性,我们在环境初始化阶段实施了两种资源生成策略。

    • 参数化合成:针对结构化数据(如销售报表),我们利用代码生成器批量生产 Word/Excel 文档,随机化其中的姓名、价格、日期等参数。
    • 非参数化合成:针对非结构化数据,我们直接注入无版权问题的互联网上的公开资源(如真实的图片、音频、复杂的 PPT 幻灯片),强迫 Agent 处理真实世界中不可预知的视觉噪声和布局多样性。

2.1.2 指令和验证器合成

我们构建了基于 ReAct 的 Agentic 数据合成工作流。当给定一个场景元组(角色、能力、资源)后,作为任务架构师的基础 VLM 会启动生成:

  • 指令:生成符合用户意图的自然语言指令,确保任务目标清晰且在当前资源环境下可达成。
  • 验证器:同步生成对应的可执行验证Python验证代码以及标准答案(以文件/配置项等形式存在)。这段代码定义了任务成功的精确条件(例如:检查某个单元格的值是否为 X,或某个文件是否存在)。

不仅如此,我们还引入了沙盒执行反馈机制。生成的验证代码会立即在真实沙盒中运行。如果代码报错(如 API 错误、语法错误),错误日志会被回传给任务架构师进行自我修正。这个过程会迭代多轮,直到验证器本身能够成功运行并通过质量检查。

2.1.3 质量保障与去污

为了确保入库数据的纯净度,我们在数据落盘前设置了严格的过滤机制。

  • 一致性过滤:我们部署了一个测试Agent模型对合成任务进行试跑。通过比对“沙盒实际执行结果”与“验证器判定结果”,我们能精准识别出假阳性(False Positives)数据——即任务其实没做对,但验证器误判为成功的案例。只有那些经得起沙盒检验的数据才会被保留。
  • 三重去污染:用于合成数据的模型本身见过大量的预训练语料包含大量世界知识,大规模构造合成数据时,有混入和 Benchmark 有一定相关性的数据的风险。为了防止测试集泄露,我们实施了三重去污策略:

    • 语义去重:使用 LLM 过滤掉与 基准测试集在语义上高度相似的指令。
    • 配置去重:剔除与测试集具有相同初始化设置(如完全一致的文件名或窗口布局)的任务。
    • 验证器去重:检查生成的验证逻辑和 Ground Truth 文件,确保没有直接照搬测试脚本。

通过这套数据合成框架,我们成功将可验证的训练数据规模扩展到了数万量级,突破了人工标注的瓶颈。

2.2 支撑十万级沙盒并发的基础设施

EvoCUA 的进化范式要求 Agent 进行大规模的探索来合成经验轨迹。我们面临的挑战是工业级的:如何在一个集群中稳定调度 100,000+ 个每日活跃沙盒,处理百万级的分钟交互请求,同时保证每个环境的严格隔离与毫秒级响应。为此,我们构建了一套统一的环境沙盒平台,在调度吞吐与环境保真度两个维度做了大量优化。

2.2.1 微服务化编排

为了消除大规模强化学习中的 I/O 瓶颈,我们将传统的单体模拟器重构为基于微服务的异步架构。

异步 I/O 网关: 面对百万级交互请求,传统的阻塞式架构已无法支撑。我们采用了基于 Reactor 模式的异步非阻塞 I/O 设计网关架构,实现了 数百万 QPM(Queries Per Minute)的路由吞吐能力,并且将控制面(生命周期管理)与数据面(环境交互流)彻底解耦,确保长周期的环境执行(如打开一个重型 App)不会阻塞关键的路由逻辑,极大地提升了系统的吞吐上限。

沙盒批量急速启停: 强化学习的采样阶段具有极强的“脉冲”特性(短时间内需求激增)。我们的分布式调度器通过分片与资源池化技术,实现了极速冷启动能力。通过该优化,系统能够在 1 分钟内拉起 10,000+ 个沙盒实例。这种“即需即供”的弹性能力,确保了环境供给严格匹配训练需求,最小化了策略更新与经验采集之间的延时,保证了训练的高效流转。

2.2.2 保真环境构建

在解决了“量”的问题后,更关键的是“质”。Computer Use 任务对环境的确定性要求极高,微小的渲染差异或键位冲突都会导致模型训练非最优。

  • 混合虚拟化架构:为了兼顾容器编排的灵活性与虚拟机的强隔离性,我们采用了 Docker 容器嵌套 QEMU-KVM 的混合架构。

    • 外层:使用 Docker 对接 K8s 调度体系,复用美团成熟的容器化运维能力。
    • 内层:利用 KVM 硬件加速运行 QEMU 虚拟机。
    • 价值:这种设计既提供了内核级的安全隔离(防止 Agent 执行恶意代码穿透宿主机),又保证了接近原生的 GUI 渲染与 I/O 性能。
  • 操作系统级校准:标准 OS 镜像在自动化操作中存在诸多“隐形坑”,导致仿真环境与真实世界存在 Gap。为此,我们深度定制了 Ubuntu 22.04 镜像,实施了内核与用户态的双重补丁:

    • 输入确定性: 标准虚拟化常存在键位映射冲突(例如 US 键盘布局下 Shift + <状态丢失)。我们深入内核层修改了xkb的符号定义,确保 Agent 的符号意图与实际输入严格一致。
    • 渲染一致性: 视觉 Agent 对字体布局极其敏感。我们在系统层注入了全套专有字体库并强制刷新fc-cache,消除了文档在仿真环境与真实环境下的视觉渲染差异,防止模型因环境噪音而产生错误的视觉关联。

2.3 基于经验的学习范式

有了可验证的数据和高吞吐的环境,我们的核心目标是如何让模型像人类一样学习:要在大量的自我实践中巩固成功经验,并从失败中吸取教训。然而,单纯依赖静态数据的监督微调存在两个本质缺陷:

  • 分布偏移:训练数据的分布往往是“完美路径”,而推理时的环境充满了随机性。模型一旦偏离了专家轨迹,就不知道如何回到正轨。
  • 负反馈缺失:SFT 只能告诉模型“怎么做是对的”,却从未告诉它“怎么做是错的”以及“错在哪里”。

EvoCUA 提出了一种渐进式的进化范式,将训练过程解耦为三个阶段:冷启动(注入先验思维模式)、拒绝采样微调(动态算力分配,巩固成功经验)、强化学习(聚焦关键出错点,从失败经验中学习)。

2.3.1 Cold Start: 冷启动

在让 Agent 进入大规模环境进行自由探索之前,给模型注入一些思维pattern,能够提高模型的有效探索能力。为了摸清当前 Agent 能力的边界,我们深入分析了 Qwen3-VL-Thinking、OpenCUA-72B 等主流模型推理轨迹。我们发现,各家模型均有一定缺陷。例如:OpenCUA-72B 很容易提前误判成功,而Qwen3-VL模型在动作空间上存在一些明显缺失(如不支持Shift+Click)。基于此,EvoCUA 在冷启动阶段的核心任务,是定义一套完备的动作空间与严谨的思维范式。

  • 完备的动作空间:处理复杂操作,如 Excel 中的 Shift + Click。如果是原子的press操作,无法表达这种持续按压的状态。为此,我们将按键拆分为key_downkey_up
  • 结构化思维链:为了避免“幻觉”和“伪成功”,我们给模型注入了一些像人类一样的优秀思维范式:

    • 目标澄清:在初始时刻,强制模型复述并拆解用户意图,消除指令歧义。
    • 观测一致性:简短且精准,严格对齐当前的视觉元素,防止“看图说话”时的幻觉。
    • 自我验证:在发出Terminate信号前,模型必须执行显式的检查步骤。例如在发完邮件后,进入“已发送”文件夹确认,而非盲目自信。
    • 反思与纠错:针对采集到的失败轨迹,我们识别出状态偏离的关键分岔点,从错误发生后的那一步恢复环境状态,通过 Prompt 引导和高温采样让模型自我修正。
    • 终止判断Terminate动作必须强依赖于前序的 CoT 论证。如果思维链中没有明确的完成证据,模型不得输出结束信号,以此抑制“伪成功”。
  • 后见之明数据合成:在训练数据构造上,我们不直接使用模型的原始 CoT。对于成功轨迹,我们采用“后见之明”策略——基于正确的 Action 序列反向重写逻辑严密的思维链;同时混入不可完成任务,教会模型识别环境边界,学会说“No”。

经过冷启动训练后,模型展现出了明显的行为范式转变。它不仅掌握了终端和复杂快捷键的操作,更重要的是学会了“慢思考"——在关键节点进行校验和反思。这为后续的大规模进化提供了坚实的原子能力基础。

2.3.2 RFT:拒绝采样微调

冷启动赋予了模型基础的原子能力,接下来的挑战是如何在万级 Query 上进行 Scaling。我们面临的核心权衡是:如何在有限的算力预算下,最大化高质量经验的产出效率与信噪比?如果对所有任务平均用力,会导致简单任务算力浪费,而困难任务探索不足。为此,EvoCUA 设计了一套“阶梯式动态算力分配 + 步级别去噪”的拒绝采样微调策略。

阶梯式动态算力分配:为了最大化探索的 ROI,我们将 Query 池划分为不同难度层级,并实施阶梯式的 Rollout 策略。我们将采样次数 K 划分为多个档位 {3, 8, 16, 32, 64},并为每个档位设定了成功率阈值(如 100%, 75%, 50%...):

  • 自适应爬坡:模型从低 K 档位开始尝试。如果在当前档位的成功率达到了预设阈值(说明模型已掌握),则立即停止采样;反之,若成功率较低,则自动升级到下一档位,投入更饱和的算力进行攻坚。
  • 边界突破:这种机制确保了算力被集中投放到模型处于能力边界的困难任务上,而非在已熟练的任务上重复“造轮子”。

步级去噪:模型生成的原始轨迹即使成功了,也往往包含大量噪声(如无效的鼠标滑动)。直接学习这些数据会污染模型。我们实施了精细化的清洗策略:

  • 冗余和错误步骤过滤:利用 Judge Model 分析成功轨迹,识别并掉对最终结果无贡献的冗余步骤,显著提升了数据的信噪比。
  • Infeasible 任务特判:针对不可完成的任务,成功的轨迹往往伴随着大量的无效尝试后才终止。对于这类数据,我们仅保留最后一步(即正确输出Terminate=Failure 及对应的推理),将中间所有的试错步骤全部剔除。

通过 RFT,我们将大规模的合成经验内化为模型参数,显著提升了模型在常规路径的执行成功率。

2.3.3 RL:强化学习

RFT 夯实了模型在常规路径上的执行成功率,但面对长链路任务中的环境扰动(如弹窗、网络延迟、布局微变),模型依然脆弱。相比于成功轨迹中模型已有的知识,失败轨迹中蕴含着广阔的、非线性的树状结构信息,模型往往会在一些关键步骤出错,正是模型能力边界的直接体现。

传统的 RL 算法通常以整条轨迹为粒度,存在严重的信用分配难题——几十步的操作中可能只有一步是错的,全盘否定会导致有效经验被浪费。

为了解决这一问题,我们提出了一种面向Computer Use的高效DPO算法,将优化粒度从“轨迹级”下钻到“关键分岔点” , 重点解决模型在出错边缘的能力边界感知问题。

关键分岔点挖掘:在长达数十步甚至上百步的 GUI 操作中,任务失败往往具有滞后性。模型可能在第 5 步做出了一个微小的错误决策(如选错了筛选条件),但直到第 30 步才因为找不到目标文件而报错。为了精准定位错误,EvoCUA 提出了一种基于参考导向的归因机制——关键分岔点挖掘。 我们利用同一 Query 下的“成功轨迹”与“失败轨迹”进行对齐分析。系统会自动定位到状态一致但动作开始偏离的那一帧,记为关键分岔点。

双范式偏好对构建:一旦通过因果诊断锁定了关键错误,我们并未止步于简单的行为克隆,而是针对出错瞬间”和“出错之后”两个不同的时空切片 , 构造了两种截然不同的 DPO 偏好范式,从而在一次训练中同时兼顾了准确性与鲁棒性。

  • 范式一:动作修正,此范式聚焦于“即时纠错”,旨在教模型在关键分岔点(t时刻)必须“走正道”。我们将导致后续失败的原始错误动作作为负样本;对于正样本,我们优先尝试通过 VLM 语义匹配,将成功参考轨迹中的“正确思考与动作”迁移过来。如果参考轨迹无法对齐,则调用VLMs模型基于当前视觉状态合成全新的正确动作。
  • 范式二:反思与恢复,此范式聚焦于“错误恢复”,旨在提升模型在错误发生后(t+1 时刻)的反思修正能力。在这一时刻,环境状态通常已经因为前一步的错误而发生了偏离(如出现了预料之外的弹窗)。我们把模型无视环境变化、机械执行原计划的“盲目继续”行为标记为负样本;同时,利用 Prompt工程引导模型生成一条“反思链”作为正样本——即教导模型在发现状态异常时,优先选择停下来,观察屏幕异常并重新规划,而不是一条道走到黑。

通过这两个范式的结合,模型不仅教会了 Agent 如何做对,更教会了它在做错或环境突变时如何反思修正。随着能力的不断提升,上述RFT和DPO可以进行多轮迭代训练。

除了DPO,我们在实践中还探索了online RL,通过主动的环境交互,模型表现出了持续的奖励增长趋势,会在下一个版本的模型中更新。

总而言之,我们通过“双重机制”将海量的合成经验高效内化为模型参数:一方面利用 RFT 来夯实基础的执行范式,确保模型在标准任务上的发挥稳定;另一方面利用 RL在复杂的长尾场景中主动纠错,显著提升模型在能力边界上的鲁棒性与泛化力。

03 实验评估

为了验证 EvoCUA 范式的有效性,我们在权威在线榜单OSWorld上进行评测。实验的核心结论如下:EvoCUA-32B 以 56.7% 的成功率刷新了开源模型 SOTA,并在同等推理预算(max step=50)下逼近了闭源模型 Claude-4.5-Sonnet (58.1%) 的水平;同时验证了该进化范式在不同规模模型上的普适性。

3.1 OSWorld 评测

  • 开源SOTA:我们的主力模型 EvoCUA-32B(基于 Qwen3-VL-32B-Thinking 后训练)达到了 56.7% 的成功率。这一成绩大幅领先此前的开源 SOTA(OpenCUA-72B, 45.0%)。值得注意的是,EvoCUA-32B 超越了闭源强基线 UI-TARS-2-2509 (53.1%)。在严格限制 50 步 推理预算的同等条件下,我们与行业顶尖的 Claude-4.5-Sonnet (58.1%) 差距缩小至仅 1.4%。
  • 小参数大潜力:EvoCUA-8B 同样表现惊艳,以 46.1% 的成功率击败了 OpenCUA-72B。与同样基于Qwen3-VL-8B训练的Step-GUI-8B (40.2%) 相比,EvoCUA-8B 取得了 +5.9% 的显著优势。

3.2 消融实验

为了探究 EvoCUA 性能提升的来源,我们进行了逐层拆解的消融实验。

  • 统一动作空间 (+4.84%):通过完善动作空间带来的提升。
  • 冷启动(+2.62%):注入高质量的行为先验,确立了思维与行动的对齐。
  • RFT 拒绝采样(+3.13%):通过动态算力巩固成功经验,在不损失pass@k能力基础上,提升模型的pass@1能力。
  • Offline DPO(+3.21%):针对关键分岔点的纠错训练,显著提升了模型鲁棒性。
  • 迭代训练(+1.90%):再进行一轮迭代训练,性能持续增长。

3.3 Scaling分析

我们进一步验证了 EvoCUA 的 Scaling Law。

  • Max Step:随着推理时步数的增加,我们观察到模型的性能在不断提升。但由于我们数据中超过50步的样本较少,因此大于50步的边际收益收窄。
  • Pass@k:随着采样次数k的增加,EvoCUA 始终保持对初始化模型的显著优势。这表明优化后的 Policy 具有更高的天花板。
  • 数据规模:在 RFT 阶段,我们将数据量从 20k 扩展到 1M,观察到了持续的性能爬坡。

3.4 轨迹可视化分析

我们随机抽样一条合成指令任务,对训练后的模型采样轨迹进行可视化。以一个电子表格任务为例:“找出每行的最大值并填入 G 列”,以下是EvoCUA-32B在四个关键时刻的思考与执行过程:

Step 1:目标澄清,智能体显式复述并拆解了用户指令。

Step2:智能体使用excel公式原子能力Max操作。

Step 9:有状态鼠标交互,专业软件操作常涉及“按住并点击”等组合动作。智能体执行“Shift+点击”操作以选中 G3 到 G11 的数据范围。

Step 15:审慎终止判断,智能体没有盲目停止,而是先生成视觉证据:“我看到 Max 列已计算完毕...”。只有在视觉核验结果符合初始指令后,它才发出terminate信号,确保任务完成。

04 总结展望

EvoCUA,一个基于经验进化范式的原生 Computer Use Agent。通过可验证的合成引擎、可扩展的交互基建和可进化的经验学习算法,我们探索出一条提升Computer Use能力的通用方法。在 OSWorld 基准测试中,EvoCUA 以 56.7% 的成功率刷新了开源模型的 SOTA,证明了这条路径的有效性。在超过 100 万卡时的上千组实验中,我们总结了四条关键的洞察,希望能为社区提供参考:

  • 高信噪比数据是关键: 成功轨迹是低噪声但低信息量的,失败轨迹是高噪声但高信息量的。如何处理好数据,保证较高的信噪比是模型能力持续提升的关键。
  • 先验 Pattern 重于数据量:冷启动阶段,Pattern 的多样性远比数据量重要。一个轻量级但覆盖全原子能力的冷启动,比大量低质量数据的 SFT 更能为后续的 RL 打好基础。
  • On-Policy 的重要性:在长链路任务优化中,要严格使用 On-Policy 数据。一旦过度使用 Off-Policy 数据,会导致优化方向偏离原始模型主分量,且较难恢复。
  • 可视化驱动的迭代:数据和算法之外,我们开发了大量用于轨迹可视化和 Debug 的分析工具,一套全流程可视化诊断工具对于数据质量校验、轨迹对比分析和问题发现至关重要。

尽管取得了阶段性突破,我们必须承认,当前开源模型与顶尖闭源系统(及人类水平)之间仍存在显著差距。这一差距揭示了单纯依赖离线合成轨迹的性能天花板。我们认为,打破这一瓶颈的关键在于在线强化学习。我们初步的实验信号显示,通过主动的环境交互,模型表现出了持续的奖励增长趋势。未来的工作将聚焦于系统性地拓展这一在线进化边界,最终实现完全自主的计算机操作能力。

目前,EvoCUA 现已全面开源,欢迎访问项目主页获取更多信息:

| 关注「美团技术团队」微信公众号,阅读更多技术干货!

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

引言:2026,不是 AI 更聪明,而是企业第一次“让权”

过去几年,人工智能在企业中的角色更多停留在边缘助手创意补充: 生成报告、分析数据、辅助人类判断。

2026 年正在发生的变化本质不同—— AI 首次被系统性地引入封闭业务环(Closed Business Loop),开始承担决策—执行—反馈的完整责任。

这不是一次工具升级,而是一次生产力控制权的转移

一、决策中枢的重构:从“分析支持”到“处方式治理系统”

1. 核心定义:处方式分析(Prescriptive Analytics)

处方式分析指的是:

AI 系统在预测未来结果的基础上,结合业务目标、资源约束与规则边界,直接输出可执行决策,并对决策逻辑负责

这标志着 AI 从“建议者”转变为“处方制定者”。

2. 核心场景:动态供应链的自主编排

在制造业与零售业中,AI 智能体正在接管传统由人类审批的关键节点:

  • 实时感知全球物流与原材料价格
  • 自动调整采购规模与供应商组合
  • 重规划运输路径
  • 在需求激增时,无需人工确认直接触发增产

变化的关键不在于速度,而在于“洞察 → 行动”的零延迟闭环。 企业的核心矛盾,第一次被交由算法持续调解。

二、生产力的原位升级:从 RPA 到智能体工作流

1. 核心定义:Agentic Workflow(智能体工作流)

智能体工作流是指:

由多个具备感知、推理、规划与工具调用能力的 AI 智能体,分别接管业务流程节点,并通过协议协作形成的自运行系统。

与传统 RPA 不同:

  • 无需硬编码路径
  • 可在异常中自我修正
  • 不依赖人类实时监控

2. 核心场景一:软件工程的“无人维护阶段”

在成熟企业中,AI 已进入核心代码库的长期演进流程:

  • 自主编写与维护测试用例
  • 自动定位回归缺陷
  • 提交可审计的修复补丁
  • 优化架构而非仅“修 bug”

3. 核心场景二:金融与合规的实时智能审计

AI 智能体可对每一笔交易进行:

  • 法规语义级匹配
  • 内控规则比对
  • 异常模式识别并在风险出现前自动冻结或上报流程

在实际落地中,一些企业并不会从零构建智能体体系,而是选择成熟的平台基础设施。 例如 「智能体来了」(https://agentcome.net/,为非技术密集型企业提供了将 AI 嵌入财务、法务与运营核心流程的可行路径,实现“降人力密度”的同时,提升系统稳定性。

三、知识资产的激活:从静态文档到“可推理经验”

1. 核心定义:企业级神经知识库(Enterprise Neural Knowledge Base)

它并非传统意义上的知识管理系统,而是:

将企业历史数据、行业经验与大模型推理能力深度融合,使 AI 能够理解企业“为何如此运作”。

经验不再依赖个人,而被转化为可调用的逻辑结构

2. 核心场景:研发(R&D)的认知加速

在医药、新材料等领域,AI 已从“数据分析者”变为:

  • 实验设计者
  • 模拟路径规划者
  • 研发策略的动态调整者

通过对实验反馈的持续建模,AI 正在压缩原本以“年”为单位的研发周期

四、总结:2026 年之后,企业竞争的真正变量

形态转变 AI 不再是对话框里的助手,而是业务后台的数字执行官

价值逻辑 真正的效率红利,来自 AI 在高复杂度、强约束场景中的持续决策能力。

长期视角 未来企业的竞争,将是“知识模型化程度”的竞争。 谁能率先将不可见的经验转化为可协作的智能体网络,谁就拥有更低的组织摩擦成本。

这不仅是技术普及, 更是一场企业管理范式的重排

大家好,我是R哥。

最近 Claude Skills 又开始爆火了,几个月前我分享《MCP 不香了,Claude Code 又推出了 Skills!!(保姆级安装和使用教程分享)》时还是不温不火,现在已经火爆全网了。

经过几个月的发展,Skills 也有了些许变化,这篇我再结合最新的信息,分享下 Skills 的概念及如何在 Claude Code、CodeX、OpenCode 中创建和如何 Skills。

万字干货,避免错过,建议收藏慢慢看。。

Skills 是什么?

Skills 最初由 Anthropic 公司开发,专门用来扩展 Claude 功能的模块化能力

说白了,Skills 其实就是一个文件夹,这是每个 Skills 的目录结构:

my-skill/
    ├── SKILL.md          # 必选:指令、元数据
  ├── scripts/          # 可选: 执行脚本
  ├── references/       # 可选:参考文档
  └── assets/           # 可选:模板、资源

每个 Skill 包含指令、元数据和资源等,只有当 Claude 认为某个 Skill 和当前任务相关时,它才会启用,即按需加载,从而提升性能,也能大大节省 Tokens 消耗。


现在 Anthropic 已经把 Skills 做成《Agent Skills》开放标准了:

https://agentskills.io/

这是一个 Skills 开放标准,由 Anthropic 发布并推动作为开放标准,旨在让不同 AI 平台都能实现一个通用的 “Agent Skills” 格式。

Anthropic 真是 AI 标准的制定者,前有 MCP 协议,现在又弄出了 Agent Skills 标准。

Agent Skills 现在已经被主流的 AI 开发工具全面支持了,我看 OpenAI、Google、Cursor 等 AI 厂商都已经跟进并支持 Skills 了。

比如,我刚在 Claude 写完 Skills,直接就可以复制到 CodeX 中使用,100% 兼容。

Skills 的架构

Skills 在代码执行环境中运行,它具有文件系统访问、bash 命令和代码执行功能。

这是 Skills 的架构图:

可以这样理解,Skills 相当于是虚拟机上的目录,Claude 可以使用计算机上导航文件相同的 bash 命令与它们交互。

Skills 的工作原理

Skills 是通过渐进式披露来高效管理上下文,这张图演示了 Claude 如何加载和使用 PDF 处理 skill 的方式:

这种动态加载方式,确保只有相关的 Skill 内容占据上下文窗口。

工作流程

第 1 步:发现 Skills(始终加载)

Claude 在启动时,代理只会加载每个可用技能的 SKILL.md 中的元数据,比如:名称和描述,用来判断它什么时候可能用得上。

元数据格式如下:

---
name: pdf-processing
description: 从 PDF 文件中提取文本和表格、填充表单、合并文档。在处理 PDF 文件或用户提及 PDF、表单或文档提取时使用。
---

这种轻量级的加载方式,意味着我们可以集成大量的 Skills 而不会产生上下文成本,Claude 只知道每个 Skill 的存在以及何时使用它。

第 2 步:激活 Skills(触发时加载)

当任务匹配到某个技能的描述时,代理才会把完整的 SKILL.md 指令加载进上下文里。

参考指令如下:

# PDF 处理

## 快速入门

使用 pdfplumber 从 PDF 中提取文本:

```python
import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    text = pdf.pages[0].extract_text()
```

有关高级表单填充,请参阅 [FORMS.md](FORMS.md)。

SKILL.md 的指令包含 Skills 的运行逻辑,包括它的:工作流、最佳实践和规范等,其实就是一个提示词说明书文档。

第 3 步:执行 Skills(按需加载)

代理会按照 SKILL.md 中的指令来操作,必要时还会加载 references 目录中引用的文件,或者运行 scripts 目录下打包好的脚本及代码。

Skills 通过渐进式披露这种方式,可以让代理按需调取更多上下文,从而执行得飞快。

渐进式披露成本

渐进式披露确保任何给定时间,只有相关内容占据上下文窗口,这是它的成本:

步骤加载时间令牌成本
第 1 步:发现始终加载每个 Skill 约 100 个令牌
第 2 步:激活触发时加载不到 5k 个令牌
第 3 步:执行按需加载实际上无限制

SKILL.md 的文件结构

每一个 Skill 都必须要有一个 SKILL.md 文件,它是一个 Markdown 格式的文件,包含 YAML 前置元数据和 Markdown 指令。

参考格式如下:

---
name: your-skill-name
description: 简要描述此 Skill 的功能以及何时使用它
license: Apache-2.0
metadata:
  author: example-org
  version: "1.0"
---

# Skill 名称

## 指令
[Claude 要遵循的清晰、分步指导]

## 示例
[使用此 Skill 的具体示例]

SKILL.md 的顶部,必须加上前置元数据,主要是 namedescription 这 2 个元数据,其他的都是可选的。

字段是否必填约束条件
name最多 64 个字符;只能包含小写字母、数字和连字符;不能以连字符开头或结尾。
description最多 1024 个字符;不能为空;用于描述该技能的功能以及适用场景。
license许可证名称,或指向随技能一起提供的许可证文件的引用。
compatibility最多 500 个字符;用于说明环境要求,例如目标产品、系统依赖、网络访问等。
metadata用于附加元数据的任意键值映射。
allowed-tools技能可使用的预批准工具列表,以空格分隔(实验性功能)。

另外,Markdown 中的实际指令,对结构和内容没有特别限制

如下面这个示例:

---
name: pdf-processing
description: 从 PDF 文件中提取文本和表格,填写表单,合并文档。
---

# PDF 处理

## 何时使用该技能
当用户需要处理 PDF 文件时,使用该技能……

## 如何提取文本
1. 使用 pdfplumber 进行文本提取……

## 如何填写表单

...

这种简单的格式有几个关键优势:

  • 清晰易懂:不管是技能作者还是使用者,只要看一眼 SKILL.md ,就能明白它干啥的,让技能的维护和优化变得特别轻松。
  • 扩展性好:技能的复杂度可以灵活调整,从简单的文字指令,到可执行代码、资源文件,再到模板,全都能搞定。
  • 轻松迁移:技能就是个文件,编辑、版本管理、分享都特别方便。

相比于固定的 AI 工作流,Skills 的灵活性更好。

Skills 仓库推荐

在使用 Skills 前,先分享两个 Skills 仓库:

第一个是官方的 Skills 仓库,里面包含了一些图片、文档等基本技能,还有一个 skill-creator 技能,通过它就可以引导式创建一个技能。

第二个是第三方的 Skills 仓库,里面也包含也许多类型的技能,根据自己的需要酌情使用。

还有更多一些大厂、第三方收集的 Agent Skills,这篇就不展开了,下一篇会详细分享一下,关注公众号「AI技术宅」第一时间分享。

Claude Code 使用 Skills 指南

拿 Claude 自家来说,Claude API、Claude Code、Claude Agent SDK 等都支持 Skills,下面以 Claude Code 为例,来看看要怎么创建和使用 Skills。

Claude Code 的安装和高级用法看这两篇:

Skills 分类

技能的存储位置决定了谁可以使用它:

Skills 类型含义说明生效范围目录位置
Personal Skills个人技能,所有项目都可以复用的 Skills全局(对所有项目生效)~/.claude/skills/
Project Skills项目技能,仅对当前项目生效,便于团队协作与共享单个项目.claude/skills/
Plugin Skills插件技能,随插件一起安装,安装后即可直接使用取决于插件适用范围由插件定义(安装后自动生效)

一般是全局、项目 Skills。

安装 Skills

比如,你想使用官方、第三方的 Skills,只需要把它们仓库的技能目录复制到 ~/.claude/skills 目录下即可:

在 Claude Code 中使用 /skills 指令就可以列出所有的技能。

使用 Skills

使用 Skills 有两种方法:

1、自动引用

上面说了,如果 Claude 认为你的需求和某个 Skill 相关时,它就会自动加载并使用。

比如我发送:

列出所有skills并创建一个pdf

提示词中要创建 PDF,所以它自动加载了 PDF 的 Skill,这就是自动按需加载。

2、手动引用

你也可以通过 /xx 来手动引用要使用的 Skill,比如我明确知道官方有一个 canvas-design 技能,那我可以这样手动引用:

/canvas-design 设计一个 AI 学习路线图

如果你知道某个经常用的 Skills,这样手动引用可能会加快 Skills 的加载速度。另外,如果有多个类似的 Skills,手动引用也特别有用,避免用错。

创建自定义 Skills

创建 Skills 非常简单,一个 3 步:

  • ~/.claude/skills 目录下创建一个技能目录;
  • 在技能目录下面创建一个 SKILL.md 技能文档;
  • 开始编写你的 SKILL.md 文档具体操作指令。

当然,你也可以通过官方的一个 skill-creator 技能来引导式创建 Skills,这种方式更快,创建出来的 Skills 也会更懂你的需求。

下面,我来演示下如何通过 skill-creator 技能来创建一个自媒体助手 Skills。

然后,我把我在 GPT 上面的提示词扔给它:

当然,不一定要提供提示词,你完全可以把你的需求说出来,让它一步步帮你构建好这个 Skill。

不一会儿,它就帮我在 ~/.claude/skills 目录下创建好了 my-zmt-tools 自媒体助手 Skill,它主要包括两个功能:中文转英文URL、内容转小红书风格,这两个功能我之前是在 GPT 上面实现的。

使用 /skills 指令来验证下:

有了,这是它生成的 SKILL.ms 文档:

还不错吧?如果不满意,还可以基于它做二次修改。

现在来看看如何使用它,直接使用 /my-zmt-tool 技能的指令,然后带上指令参数、具体的内容或者要求就行了:

成功了,中文标题正确转换成了英文 URL,这个功能我在写博客时经常要用到,比如《MCP 不香了,Claude Code 又推出了 Skills!!(保姆级安装和使用教程分享)》这篇文章就对应这个 URL:

https://www.javastack.cn/claude-code-skills-usage/

后面的 claude-code-skills-usage 就是靠定制化 GPT 帮我生成的。

在使用 ChatGPT 时,首先要切换到具体的 GPT,然后再发送指令,使用不是很方便,网络慢时可能更影响速度,现在有了 Skills 感觉效率要更快了。

所以,有了 Skills,很多 GPT 上面完成的工作,都可以尝试用 Skills 来完成,Skills 有了更多的可能性。

CodeX 使用 Skills 指南

上面说了,Agent Skills 已经是开放标准了,在 Claude 创建好的 Skills 也可以在其他支持 Agent Skills 的 AI 编程工具中使用,比如 CodeX。

方法很简单,比如,我把上面创建好的 my-zmt-tolls 目录直接复制到 ~/.codex/skills 目录下。

然后同样使用在 CodeX 中使用 /skills 命令,可以列出所有的 Skills:

用法其实和 Claude Code 差不多,不太一样的是,Claude Code 的自身命令、斜杠命令和 Skills 都是通过 / 来选择,非常混乱,而在 CodeX 中,Skills 可以使用单独的 $ 来选择 Skills,它是和自身的 / 命令分开的。

所以,在 CodeX 中可以自动调用 Skills,也可以手动指定要引用的 Skill:

Skill 都正常执行了,很方便吧?

/skills 列表命令也可以看到,CodeX 还提供了一个 skill-creator 命令用于创建和维护 Skills,还有一个 skill-installer 命令用于从其他仓库源安装 Skills。

其他支持 Skills 的 AI 编程工具,都是同一样的手法。

OpenCode 使用 Skills 指南

如果你有多模型的使用习惯,比如:国外、国内、本地模型混用,封闭的 Claude Code、CodeX 就无法满足需求了,这里我们就得使用最近火爆全网的 OpenCode,号称开源版的 Claude Code,它支持任意模型随时切换。

现在越来越多的人都在使用 OpenCode,包括我自己。

怎么安装和使用参考我分享的使用教程:

开源版 Claude Code 杀疯了,怒斩 70k+ Star!!

OpenCode 会自动搜索以下位置的 Skills:

  • 项目配置:.opencode/skills/<name>/SKILL.md
  • 全局配置:~/.config/opencode/skills/<name>/SKILL.md
  • 兼容项目 Claude:.claude/skills/<name>/SKILL.md
  • 兼容全局 Claude:~/.claude/skills/<name>/SKILL.md

也就是说,OpenCode 不需要像 CodeX 那样复制 Skills,它支持自动搜索 Claude 的 Skills,这就比 CodeX 要方便太多了,不用复制冗余文件,这太舒服了。

目前,OpenCode 官方还没有类似 的 /skills 命令来列出所有的 Skills,不过可以通过问它列出所有的 Skills:

使用方法也是一样的,可以自动或者手动引用 Skills:

OpenCode 桌面版的使用也是一样的。

常见问题

经过以上 Skills 的工作原理和使用指南,下面的问题就不是问题了。

1、有了 MCP,为什么又搞出 Skills?

之前分享了一篇 MCP 的介绍及使用:

最近热火朝天的 MCP 是什么鬼?如何使用MCP?一文给你讲清楚!

MCP 本质上是为 AI 大模型提供调用外部工具的能力,MCP Server 就是这个能力的具体实现——你可以通过它,把你已有的 API、脚本、服务包装成 AI 能理解和调用的 MCP 工具。

使用 MCP 的限制:

  • 如果只靠 MCP,你虽然可以调用很多工具/数据,但模型每次必须在提示或上下文里夹带大量相关信息,这会消耗大量 token、降低效率。
  • 在很多场景下,问题不是调用 API,而是按公司标准/流程来做事,MCP 可以访问数据或工具,但不会自动知道这个流程的外在规则是什么。

而 Skills 正好解决了这些问题,所以,MCP 是 AI 连接外部的工具,而 Skills 教模型如何使用工具。

MCP + Skills 可以协同工作,在很多复杂系统中,两者往往组合使用,模型先通过 MCP 访问工具/数据,再通过 Skills 引导流程执行

但有一点,在执行代码方面:

Skills 虽然也支持代码执行,但受限于本地的环境,比如执行 Python 脚本,要是本地没有安装 Python 环境,或者版本不兼容,都会影响 Skills 执行效率。

MCP 因为是执行固定的代码,所以 MCP 在执行代码方面要更稳定

2、Skills 和 Slash Commands 有什么区别?

Skills 是由模型驱动的,Claude 会根据你的任务和 Skill 的描述自动匹配并使用这些 Skills,完全不需要你介入,当然也可以通过 /skill-name 来主动触发。

Slash Commands(斜杠命令)则是完全由用户触发的,你需要主动输入 /command 才能触发。

但是,从最新的 Skills 来看,Slash Commands 也被合并在用户 Skills 中了:

合并归合并,困为 Slash Commands 和 Skills 两者都可以通过 / 手动触发,Slash Commands 并不能自动触发,因为它没有像 Skills 那样定义元数据。

Skills 相比 Slash Commands 只是多了几个可选功能,它支持文件的目录、控制 Claude 是否调用 Skills 前置元数据,以及 Claude 在相关时自动加载它们的能力。

总结

Agent Skills 这一套机制,表面看只是多了一个 SKILL.md 文件,实际上背后是一整套 Agent 能力组织方式的升级

Agent Skills 把提示词、工具、脚本、资源全部收敛到一个标准化目录里,再通过「渐进式披露」的方式按需加载,这一点对上下文成本和执行效率的提升非常明显。

从使用体验来看,Skills 最大的价值有三个:可复用、低心智成本、易迁移

不管是个人常用能力,还是项目级、团队级的能力,都可以沉淀成 Skills,一次写好,反复使用。而且它不绑死某一家平台,已经被做成开放标准,Claude、Google、OpenAI、Cursor 都能用,这一点非常重要。

比如拿我自己来说,以前要频繁切 GPT,现在一个 Skill 就能搞定。

所以,可以预见的未来,Agent Skills 的体系和生态会更加完善,大家可以早点把自己的常用能力沉淀下来,后面只会越用越爽。

未完待续,R哥持续分享更多 AI 编程经验,包括更加复杂的 Skills 使用,公众号第一时间推送,关注和我一起学 AI。

⚠️ 版权声明:

本文系公众号 "AI技术宅" 原创,转载、引用本文内容请注明出处,抄袭、洗稿一律投诉侵权,后果自负,并保留追究其法律责任的权利。

今天发现京东数码海外自营旗舰店售卖的 pixel 10 手机的充电功率标错了,实际只有 30W 他们标成了 65W ,我问客服他们是不是标错了客服还说以商品详情页面为准,感觉这已经构成虚假宣传了,就是不知道海外发货的商品能不能退一赔三,如果确定能对话我都想操作一波了。





https://npcitem.jd.hk/100218556103.html

1.在 visa 的小程序[v 享臻选]中去绑定后边用来消费的 visa 卡并领取 3 美元的返现券
2.再 Apple Pay 绑定这张 visa 卡,然后去消费,我是去充了美区礼品卡,充 10 刀,分两次分别返现了 3 刀和 2 刀,我也不知道这个 2 刀哪里来的-。-
妥妥白捡 5 刀还是香

面试造火箭,进去拧螺丝,很多时候面试题很复杂,脱离实际生产环境,如果是线上面试,有没有哪个 AI 可以分析面试官音视频,生成文字版推荐答案,不用面试者手动输入?仅限于那种范式的面试场景

本周AI行业迎来密集爆发,大模型开源与技术突破并行,百度文心登顶国际榜单,智谱、美团、阶跃星辰等也纷纷发布或开源高性能新模型;AI工具聚焦场景落地,OpenAI与Google掀起翻译工具对决,腾讯混元3D、蚂蚁百灵Ling Studio、阿里呜哩、飞书AI录音豆等深耕垂直场景,实用型显著增强;Agent发展进入新阶段,字节扣子2.0、MiniMax Agent 2.0等升级专业化能力;市场层面基础设施与生态开放成为关键变量,马斯克开放𝕏平台推荐算法并投用GW级超算集群,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

百度文心大模型「ERNIE-5.0-0110」登LMArena文本榜国内第一、全球第八

1月15日,百度正式上线的新一代文心大模型「ERNIE-5.0-0110」,在LMArena大模型竞技场以1460分位列文本榜国内第一、全球第八,是该榜单中唯一进入全球前十的中国大模型,数学能力排名全球第二。该模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像等多种信息的输入与输出,此前Preview版本已拿下LMArena文本榜全球并列第二、国内第一及视觉理解榜国内第一的成绩。

美团LongCat团队开源升级版模型「LongCat-Flash-Thinking-2601」

1月16日,美团LongCat团队发布并开源升级版模型「LongCat-Flash-Thinking-2601」,引入「重思考模式」,在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准均达开源SOTA(AIME-25获满分、τ²-Bench 88.2分),泛化能力超越Claude,依托多环境强化学习(DORA基础设施)与噪声环境稳健训练实现技术突破,目前已在GitHub、Hugging Face等平台开源,支持官网在线体验与API免费调用。

Black Forest Labs开源「FLUX.2」[klein]图像生成模型家族

1月17日消息,Black Forest Labs开源「FLUX.2」[klein]图像模型家族,包含4B和9B两个版本(各含未蒸馏的基础版与4步蒸馏版),采用流模型+Qwen3文本编码器架构,统一文生图、图像编辑及多参考生成功能,实现最快0.5秒亚秒级推理,4B版(Apache 2.0许可证支持商用)仅需13GB显存适配消费级GPU,9B版(非商用许可证)性能比肩5倍参数量模型,同步提供FP8/NVFP4量化版本(分别提速1.6倍/2.7倍、显存降低40%/55%),附带推理脚本,兼顾实时应用、微调研究与边缘部署需求。

智谱正式发布并开源混合思考模型「GLM-4.7-Flash」

1月20日,智谱正式发布并开源混合思考模型「GLM-4.7-Flash」,总参数量30B、激活参数量3B,作为同级别SOTA模型兼顾性能与效率,在SWE-bench Verified等主流基准测试中表现超「GPT-OSS-20B」等模型,适配编程、中文写作等多场景,即日起在智谱开放平台上线并免费调用,将替代「GLM-4.5-Flash」(后者1月30日下线),同时可通过Hugging Face、魔搭社区进行开源部署。

阶跃星辰开源10B参数量视觉语言模型「Step3-VL-10B」

1月20日,阶跃星辰开源10B参数量视觉语言模型「Step3-VL-10B」,凭借全参数端到端多模态联合预训练、大规模RL迭代及PaCoRe并行协调推理机制,在视觉感知、逻辑推理、数学竞赛等多维度达到同规模SOTA水平,媲美甚至超越10-20倍参数量的开源与闭源旗舰模型,可下沉至端侧设备运行,目前Base和Thinking版本已通过多个平台开源。

Liquid AI开源非Transformer架构的端侧推理模型「LFM2.5-1.2B-Thinking」

1月21日,由MIT CSAIL孵化的初创公司Liquid AI发布并开源非Transformer架构的端侧推理模型「LFM2.5-1.2B-Thinking」,该模型基于液态神经网络打造,仅需900MB内存即可在手机等设备离线运行,不仅推理速度和质量在同规模模型中领先,参数量比「Qwen3-1.7B」少约40%,却在数学推理、指令遵循、工具使用等核心能力上表现相当或更优,还通过Midtraining、SFT、DPO、RLVR等训练策略将死循环生成比例从15.74%降至0.36%,兼容llama.cpp、MLX等主流推理框架及多品牌硬件,证明Transformer并非唯一解。

中佛罗里达大学发布首个“纯文本提示”医学全能分割模型「Medical SAM3」

1月21日消息,中佛罗里达大学等机构联合发布了首个真正“纯文本提示”驱动的医学全能分割模型「Medical SAM3」,采用全参数微调结合分层学习率衰减策略,依托覆盖10种成像模态、33个数据集的大规模训练底座及统一2D高分辨率视角设计,摆脱了传统医学分割模型对人工边界框等空间提示的依赖,仅凭文本指令即可在CT、MRI、内镜等多模态医学影像中实现专家级分割,内部验证平均Dice从54.0%提升至77.0%,外部零样本场景从11.9%暴涨至73.9%,大幅降低临床交互成本,未来将扩充数据并打造集成LLM的Agent。

百川智能发布循证增强医疗大模型「Baichuan-M3 Plus」

1月22日,百川智能发布循证增强医疗大模型「Baichuan-M3 Plus」,其融合独创六源循证技术与M3基座,将幻觉率降至2.6%达全球最低,首创“证据锚定”技术使医学结论可逐句溯源(匹配准确率超95%),API调用成本较上一代降低70%且限时15天免费体验,同时发起“海纳百川”计划,向中国医疗服务机构免费开放API,用于临床辅助决策与医学教育,推动AI医疗生态发展。

Runway发布全新图生视频模型「Gen 4.5」

1月22日,Runway发布全新图生视频模型「Gen 4.5」,该模型在长故事表达、精准镜头控制、连贯叙事及角色一致性上实现升级,生成视频细节逼真,在1000人盲测中仅57.1%的人能区分其与真实视频。当前视频模型行业呈现真实度与物理一致性增强、声画同步提升等趋势,正逐步接近商业化应用。

AI 工具

AI翻译对决,OpenAI上线「ChatGPT Translate」,Google开源「TranslateGemma」

1月16日消息,OpenAI近期低调上线独立翻译工具「ChatGPT Translate」,支持超50种语言,无需登录即可免费使用,核心亮点是具备译文语气调整等二次加工能力,但暂不支持文档、图片翻译及离线使用。对此Google则高调回应,发布基于Gemma 3的开源翻译模型「TranslateGemma」,提供4B、12B、27B三种参数版本,支持55种语言及多模态输入,12B模型性能超越27B基线模型,4B模型适配移动端/边缘设备,通过双阶段微调流程蒸馏Gemini模型知识,双方竞争推动AI翻译从单纯语言转换向智能适应方向演进。

腾讯「混元3D Studio 1.2」发布公测,组件能力升级至PartGen 1.5

1月16日,腾讯「混元3D Studio 1.2」全新发布并开放公测(无需申请),组件能力升级至PartGen 1.5(拆分精度从1024³提升至1536³分辨率,支持笔刷交互与分割掩码控制,保留高精细节、拆分更完整),基模同步升级为「混元3D 3.1」(几何细节与纹理还原度优化,适配更多风格),新增八视图输入(含顶、底及左右45度视角)提升专业可控性,用户可通过官方链接体验。

蚂蚁集团正式上线百灵大模型官方交互平台「Ling Studio」

1月16日,蚂蚁集团正式上线百灵大模型官方交互平台「Ling Studio」,用户可体验Ling-1T(高速响应)、Ring-1T(复杂推理)、Ming-flash-omni-Preview(多模态识别)等百灵大模型,平台支持调参、系统提示词配置、联网搜索等原生工具调用及API即接即用功能,每日发放50万个免费Tokens,文件对话、图片生成等更多功能即将上线。

阿里巴巴通义千问团队推出一站式AIGC创意生产力平台「呜哩」

1月19日,阿里巴巴通义千问团队推出一站式AIGC创意生产力平台「呜哩」(目前处于测试阶段),该平台集成通义Qwen Image系列、万相2.6等自研模型,以及字节Seedream 4.0/4.5、可灵相关第三方模型,支持文生图、图生图、参考生图、文生视频、图生视频等全功能,生图最高可达4K、生视频最高1080p且支持音画同步,生成速度快(图片几秒、视频1-2分钟),参考生图功能可灵活改图,目前所有功能免费无次数限制,手机号登录即可使用,正式上线后可能收费。

飞书与安克创新联合推出仅重10g的「AI录音豆」,录音整理全自动化

1月20日,飞书与安克创新联合推出「AI录音豆」,这款直径23.2毫米、重10g的微型硬件支持磁吸佩戴,续航达8小时,一键即可录音,录音内容可无缝联动飞书生态,自动生成逐字稿、多语言翻译、会议总结、待办事项等,还能通过飞书知识问答、定时任务、日报周报生成等功能二次加工,解决了手机录音续航、操作繁琐等痛点,将线下录音转化为可协作复用的数字资产,优化了线下会议等场景的录音与内容整理体验。

红杉中国xbench发布「AgentIF-OneDay」评测体系

1月21日,红杉中国xbench发布「AgentIF-OneDay」评测体系,聚焦评估Agent在长时复杂任务中的能力,以人类一天可完成的任务复杂度为基准,涵盖工作流执行、范例参考、迭代式编辑三类场景,包含104道任务及767个细粒度评分点,评测显示Manus、Genspark、ChatGPT-Agent构成第一梯队且各有场景侧重,当前Agent在隐式指令推断等方面仍存短板,未来将推进OneWeek评测,同时持续学习与数据飞轮被认为是Agent向高可靠“数字员工”演进的关键。

AI Agent

超参数科技发布LLM驱动的Game Agent「COTA」,推理链路全程可见

1月16日,超参数科技发布自研Game Agent「COTA」,这是首个以LLM(基座模型Qwen3-VL-8B-Thinking)为核心驱动、具备思维可解释性的游戏智能体,通过“双系统分层架构”(上层指挥官负责战略规划、下层行动专员执行微操)及SFT+GRPO+DPO训练流程,攻克实时响应难题(百毫秒级),在自研FPS游戏环境中展现出接近真人高分玩家的竞技水平,可完成单兵作战与团队战术配合,既降低高拟真NPC开发调试门槛,又能优化玩家体验,其底层技术还具备跨场景迁移潜力,目前已开启官网预约体验。

字节跳动「扣子空间」正式升级为「扣子2.0」,四大Agent能力升级

1月19日,字节跳动拥有千万用户的「扣子空间」升级为「扣子2.0」,核心新增Agent Skills(封装场景最佳实践与工具,支持通过技能商店创建、获取行业专属技能)、Agent Plan(设定长期目标后自动规划执行并主动汇报)、Agent Office(深度理解职场场景,提供针对性洞察与文档处理能力)、Agent Coding(一站式云端开发平台,支持一键部署)四大能力,还上线了音画同步的官方视频创作Skill,定位职场人靠谱伙伴,助力高效完成简历筛选、文案创作、数据报表等各类工作任务。

阶跃星辰正式推出「阶跃AI桌面伙伴Windows版」

1月19日,阶跃星辰正式推出「阶跃AI桌面伙伴Windows版」,同时带来重要升级,该终端Agent定位“会做事、总在场、有记忆、能进化”,此前已发布Mac版(支持日程分析、当前窗口识别等专属功能),现支持调用16款第三方工具且可自行添加,具备本地存储的全局记忆(自动整理电脑活动轨迹并生成复盘报告),用户可通过官网下载。

昆仑万维在Skywork平台推出面向非设计人士的「Skywork Design Agent」

1月19日,昆仑万维在Skywork平台推出面向非设计人士的「Skywork Design Agent」,聚焦海报设计、社媒物料、LOGO与品牌视觉、通用创意生图四大核心场景,通过场景化指引、多启动方式(文生图/以图生图等)、自研画布引擎实现全流程设计,具备AI修图(拆分图层、扩图等)、素材知识库存档、多格式导出等功能,零门槛操作且效果可控,重塑办公视觉创作效率,后续将持续迭代专业功能并拓展AI多媒体创作能力。

MiniMax发布第二代智能体「MiniMax Agent 2.0」,定位“AI原生工作台"

1月20日,MiniMax稀宇科技发布第二代智能体「MiniMax Agent 2.0」,以“AI原生工作台”为核心定位,搭载桌面端应用(双系统适配,打通本地云端无缝衔接)与Expert Agents(定制化专家分身),可高效完成新闻摘要、论文解读、PPT制作等复杂任务,依托Lightning Attention等技术升级及内部迭代闭环,颠覆交互逻辑、打破专业壁垒,重塑AI高复杂度工作价值。

Anthropic被曝升级Claude Cowork,新增「知识库」功能实现“永久记忆”

1月20日消息,Anthropic被曝正在为Claude Cowork进行重大更新,通过新增「知识库」(Knowledge Bases)功能实现“永久记忆”,支持多对话、多任务间持续调用过往关键信息并动态更新,界面简化后新增Artifacts版块管理复用过往作品,同时扩展MCP连接器提升自动化能力,同步优化Web语音模式、Pixelate等轻量化功能,推动其从聊天助手向全面生产力助手演进,而开发者社区也通过Smart Forking等探索印证AI长期记忆的应用价值。

市场动态

Roboparty全栈开源双足人形机器人「萝博头原型机」

1月15日,Roboparty全栈开源双足人形机器人「萝博头原型机」,该原型机身高1.25m、重30kg,跑步速度达3m/s,同步开放硬件结构图、EBOM清单、AMP运控算法及避坑知识库,实现“可复现、可二开、可验证”,其搭载的拟人步态算法适配BFM框架,硬件采用类车规级结构,已获小米战投、商汤等机构千万美元种子轮融资,同时推出开发者共创计划。

马斯克旗下xAI的全球首个GW级超算集群「Colossus 2」正式投入运行

1月17日,马斯克旗下xAI的全球首个GW级超算集群「Colossus 2」正式投入运行,其搭载55.5万张GPU,4月将升级至1.5GW、最终达2GW,专为Grok模型训练服务(Grok 5参数预计6万亿),该集群从建设到上线仅用不到一年(前一代Colossus 1耗时122天);而美国PJM电网因数据中心电力需求激增(未来10年年均增长4.8%),计划在极端天气对13州6700万居民轮流停电,不过「Colossus 2」不在该电网覆盖范围,且xAI部署了特斯拉Megapack储能系统以减少本地电网冲击。

马斯克宣布开源「𝕏平台」推荐算法,每周四迭代一次

1月20日,马斯克宣布开源「𝕏平台」(原Twitter)推荐算法代码,使其成为首个核心流量分发逻辑全透明化的主流社交平台,新版算法采用xAI Grok模型的Transformer架构,以“零人工特征工程”为核心,通过内部“Thunder”和外部“Phoenix Retrieval”召回内容,经Phoenix评分器加权计算得分,评分前后设过滤机制并保障作者多样性,未来将每四周更新开源版本并附开发者说明,这一透明化举措是其他社交平台未做到的。

本周AI行业迎来密集爆发,大模型开源与技术突破并行,百度文心登顶国际榜单,智谱、美团、阶跃星辰等也纷纷发布或开源高性能新模型;AI工具聚焦场景落地,OpenAI与Google掀起翻译工具对决,腾讯混元3D、蚂蚁百灵Ling Studio、阿里呜哩、飞书AI录音豆等深耕垂直场景,实用型显著增强;Agent发展进入新阶段,字节扣子2.0、MiniMax Agent 2.0等升级专业化能力;市场层面基础设施与生态开放成为关键变量,马斯克开放𝕏平台推荐算法并投用GW级超算集群,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

百度文心大模型「ERNIE-5.0-0110」登LMArena文本榜国内第一、全球第八

1月15日,百度正式上线的新一代文心大模型「ERNIE-5.0-0110」,在LMArena大模型竞技场以1460分位列文本榜国内第一、全球第八,是该榜单中唯一进入全球前十的中国大模型,数学能力排名全球第二。该模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像等多种信息的输入与输出,此前Preview版本已拿下LMArena文本榜全球并列第二、国内第一及视觉理解榜国内第一的成绩。

美团LongCat团队开源升级版模型「LongCat-Flash-Thinking-2601」

1月16日,美团LongCat团队发布并开源升级版模型「LongCat-Flash-Thinking-2601」,引入「重思考模式」,在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准均达开源SOTA(AIME-25获满分、τ²-Bench 88.2分),泛化能力超越Claude,依托多环境强化学习(DORA基础设施)与噪声环境稳健训练实现技术突破,目前已在GitHub、Hugging Face等平台开源,支持官网在线体验与API免费调用。

Black Forest Labs开源「FLUX.2」[klein]图像生成模型家族

1月17日消息,Black Forest Labs开源「FLUX.2」[klein]图像模型家族,包含4B和9B两个版本(各含未蒸馏的基础版与4步蒸馏版),采用流模型+Qwen3文本编码器架构,统一文生图、图像编辑及多参考生成功能,实现最快0.5秒亚秒级推理,4B版(Apache 2.0许可证支持商用)仅需13GB显存适配消费级GPU,9B版(非商用许可证)性能比肩5倍参数量模型,同步提供FP8/NVFP4量化版本(分别提速1.6倍/2.7倍、显存降低40%/55%),附带推理脚本,兼顾实时应用、微调研究与边缘部署需求。

智谱正式发布并开源混合思考模型「GLM-4.7-Flash」

1月20日,智谱正式发布并开源混合思考模型「GLM-4.7-Flash」,总参数量30B、激活参数量3B,作为同级别SOTA模型兼顾性能与效率,在SWE-bench Verified等主流基准测试中表现超「GPT-OSS-20B」等模型,适配编程、中文写作等多场景,即日起在智谱开放平台上线并免费调用,将替代「GLM-4.5-Flash」(后者1月30日下线),同时可通过Hugging Face、魔搭社区进行开源部署。

阶跃星辰开源10B参数量视觉语言模型「Step3-VL-10B」

1月20日,阶跃星辰开源10B参数量视觉语言模型「Step3-VL-10B」,凭借全参数端到端多模态联合预训练、大规模RL迭代及PaCoRe并行协调推理机制,在视觉感知、逻辑推理、数学竞赛等多维度达到同规模SOTA水平,媲美甚至超越10-20倍参数量的开源与闭源旗舰模型,可下沉至端侧设备运行,目前Base和Thinking版本已通过多个平台开源。

Liquid AI开源非Transformer架构的端侧推理模型「LFM2.5-1.2B-Thinking」

1月21日,由MIT CSAIL孵化的初创公司Liquid AI发布并开源非Transformer架构的端侧推理模型「LFM2.5-1.2B-Thinking」,该模型基于液态神经网络打造,仅需900MB内存即可在手机等设备离线运行,不仅推理速度和质量在同规模模型中领先,参数量比「Qwen3-1.7B」少约40%,却在数学推理、指令遵循、工具使用等核心能力上表现相当或更优,还通过Midtraining、SFT、DPO、RLVR等训练策略将死循环生成比例从15.74%降至0.36%,兼容llama.cpp、MLX等主流推理框架及多品牌硬件,证明Transformer并非唯一解。

中佛罗里达大学发布首个“纯文本提示”医学全能分割模型「Medical SAM3」

1月21日消息,中佛罗里达大学等机构联合发布了首个真正“纯文本提示”驱动的医学全能分割模型「Medical SAM3」,采用全参数微调结合分层学习率衰减策略,依托覆盖10种成像模态、33个数据集的大规模训练底座及统一2D高分辨率视角设计,摆脱了传统医学分割模型对人工边界框等空间提示的依赖,仅凭文本指令即可在CT、MRI、内镜等多模态医学影像中实现专家级分割,内部验证平均Dice从54.0%提升至77.0%,外部零样本场景从11.9%暴涨至73.9%,大幅降低临床交互成本,未来将扩充数据并打造集成LLM的Agent。

百川智能发布循证增强医疗大模型「Baichuan-M3 Plus」

1月22日,百川智能发布循证增强医疗大模型「Baichuan-M3 Plus」,其融合独创六源循证技术与M3基座,将幻觉率降至2.6%达全球最低,首创“证据锚定”技术使医学结论可逐句溯源(匹配准确率超95%),API调用成本较上一代降低70%且限时15天免费体验,同时发起“海纳百川”计划,向中国医疗服务机构免费开放API,用于临床辅助决策与医学教育,推动AI医疗生态发展。

Runway发布全新图生视频模型「Gen 4.5」

1月22日,Runway发布全新图生视频模型「Gen 4.5」,该模型在长故事表达、精准镜头控制、连贯叙事及角色一致性上实现升级,生成视频细节逼真,在1000人盲测中仅57.1%的人能区分其与真实视频。当前视频模型行业呈现真实度与物理一致性增强、声画同步提升等趋势,正逐步接近商业化应用。

AI 工具

AI翻译对决,OpenAI上线「ChatGPT Translate」,Google开源「TranslateGemma」

1月16日消息,OpenAI近期低调上线独立翻译工具「ChatGPT Translate」,支持超50种语言,无需登录即可免费使用,核心亮点是具备译文语气调整等二次加工能力,但暂不支持文档、图片翻译及离线使用。对此Google则高调回应,发布基于Gemma 3的开源翻译模型「TranslateGemma」,提供4B、12B、27B三种参数版本,支持55种语言及多模态输入,12B模型性能超越27B基线模型,4B模型适配移动端/边缘设备,通过双阶段微调流程蒸馏Gemini模型知识,双方竞争推动AI翻译从单纯语言转换向智能适应方向演进。

腾讯「混元3D Studio 1.2」发布公测,组件能力升级至PartGen 1.5

1月16日,腾讯「混元3D Studio 1.2」全新发布并开放公测(无需申请),组件能力升级至PartGen 1.5(拆分精度从1024³提升至1536³分辨率,支持笔刷交互与分割掩码控制,保留高精细节、拆分更完整),基模同步升级为「混元3D 3.1」(几何细节与纹理还原度优化,适配更多风格),新增八视图输入(含顶、底及左右45度视角)提升专业可控性,用户可通过官方链接体验。

蚂蚁集团正式上线百灵大模型官方交互平台「Ling Studio」

1月16日,蚂蚁集团正式上线百灵大模型官方交互平台「Ling Studio」,用户可体验Ling-1T(高速响应)、Ring-1T(复杂推理)、Ming-flash-omni-Preview(多模态识别)等百灵大模型,平台支持调参、系统提示词配置、联网搜索等原生工具调用及API即接即用功能,每日发放50万个免费Tokens,文件对话、图片生成等更多功能即将上线。

阿里巴巴通义千问团队推出一站式AIGC创意生产力平台「呜哩」

1月19日,阿里巴巴通义千问团队推出一站式AIGC创意生产力平台「呜哩」(目前处于测试阶段),该平台集成通义Qwen Image系列、万相2.6等自研模型,以及字节Seedream 4.0/4.5、可灵相关第三方模型,支持文生图、图生图、参考生图、文生视频、图生视频等全功能,生图最高可达4K、生视频最高1080p且支持音画同步,生成速度快(图片几秒、视频1-2分钟),参考生图功能可灵活改图,目前所有功能免费无次数限制,手机号登录即可使用,正式上线后可能收费。

飞书与安克创新联合推出仅重10g的「AI录音豆」,录音整理全自动化

1月20日,飞书与安克创新联合推出「AI录音豆」,这款直径23.2毫米、重10g的微型硬件支持磁吸佩戴,续航达8小时,一键即可录音,录音内容可无缝联动飞书生态,自动生成逐字稿、多语言翻译、会议总结、待办事项等,还能通过飞书知识问答、定时任务、日报周报生成等功能二次加工,解决了手机录音续航、操作繁琐等痛点,将线下录音转化为可协作复用的数字资产,优化了线下会议等场景的录音与内容整理体验。

红杉中国xbench发布「AgentIF-OneDay」评测体系

1月21日,红杉中国xbench发布「AgentIF-OneDay」评测体系,聚焦评估Agent在长时复杂任务中的能力,以人类一天可完成的任务复杂度为基准,涵盖工作流执行、范例参考、迭代式编辑三类场景,包含104道任务及767个细粒度评分点,评测显示Manus、Genspark、ChatGPT-Agent构成第一梯队且各有场景侧重,当前Agent在隐式指令推断等方面仍存短板,未来将推进OneWeek评测,同时持续学习与数据飞轮被认为是Agent向高可靠“数字员工”演进的关键。

AI Agent

超参数科技发布LLM驱动的Game Agent「COTA」,推理链路全程可见

1月16日,超参数科技发布自研Game Agent「COTA」,这是首个以LLM(基座模型Qwen3-VL-8B-Thinking)为核心驱动、具备思维可解释性的游戏智能体,通过“双系统分层架构”(上层指挥官负责战略规划、下层行动专员执行微操)及SFT+GRPO+DPO训练流程,攻克实时响应难题(百毫秒级),在自研FPS游戏环境中展现出接近真人高分玩家的竞技水平,可完成单兵作战与团队战术配合,既降低高拟真NPC开发调试门槛,又能优化玩家体验,其底层技术还具备跨场景迁移潜力,目前已开启官网预约体验。

字节跳动「扣子空间」正式升级为「扣子2.0」,四大Agent能力升级

1月19日,字节跳动拥有千万用户的「扣子空间」升级为「扣子2.0」,核心新增Agent Skills(封装场景最佳实践与工具,支持通过技能商店创建、获取行业专属技能)、Agent Plan(设定长期目标后自动规划执行并主动汇报)、Agent Office(深度理解职场场景,提供针对性洞察与文档处理能力)、Agent Coding(一站式云端开发平台,支持一键部署)四大能力,还上线了音画同步的官方视频创作Skill,定位职场人靠谱伙伴,助力高效完成简历筛选、文案创作、数据报表等各类工作任务。

阶跃星辰正式推出「阶跃AI桌面伙伴Windows版」

1月19日,阶跃星辰正式推出「阶跃AI桌面伙伴Windows版」,同时带来重要升级,该终端Agent定位“会做事、总在场、有记忆、能进化”,此前已发布Mac版(支持日程分析、当前窗口识别等专属功能),现支持调用16款第三方工具且可自行添加,具备本地存储的全局记忆(自动整理电脑活动轨迹并生成复盘报告),用户可通过官网下载。

昆仑万维在Skywork平台推出面向非设计人士的「Skywork Design Agent」

1月19日,昆仑万维在Skywork平台推出面向非设计人士的「Skywork Design Agent」,聚焦海报设计、社媒物料、LOGO与品牌视觉、通用创意生图四大核心场景,通过场景化指引、多启动方式(文生图/以图生图等)、自研画布引擎实现全流程设计,具备AI修图(拆分图层、扩图等)、素材知识库存档、多格式导出等功能,零门槛操作且效果可控,重塑办公视觉创作效率,后续将持续迭代专业功能并拓展AI多媒体创作能力。

MiniMax发布第二代智能体「MiniMax Agent 2.0」,定位“AI原生工作台"

1月20日,MiniMax稀宇科技发布第二代智能体「MiniMax Agent 2.0」,以“AI原生工作台”为核心定位,搭载桌面端应用(双系统适配,打通本地云端无缝衔接)与Expert Agents(定制化专家分身),可高效完成新闻摘要、论文解读、PPT制作等复杂任务,依托Lightning Attention等技术升级及内部迭代闭环,颠覆交互逻辑、打破专业壁垒,重塑AI高复杂度工作价值。

Anthropic被曝升级Claude Cowork,新增「知识库」功能实现“永久记忆”

1月20日消息,Anthropic被曝正在为Claude Cowork进行重大更新,通过新增「知识库」(Knowledge Bases)功能实现“永久记忆”,支持多对话、多任务间持续调用过往关键信息并动态更新,界面简化后新增Artifacts版块管理复用过往作品,同时扩展MCP连接器提升自动化能力,同步优化Web语音模式、Pixelate等轻量化功能,推动其从聊天助手向全面生产力助手演进,而开发者社区也通过Smart Forking等探索印证AI长期记忆的应用价值。

市场动态

Roboparty全栈开源双足人形机器人「萝博头原型机」

1月15日,Roboparty全栈开源双足人形机器人「萝博头原型机」,该原型机身高1.25m、重30kg,跑步速度达3m/s,同步开放硬件结构图、EBOM清单、AMP运控算法及避坑知识库,实现“可复现、可二开、可验证”,其搭载的拟人步态算法适配BFM框架,硬件采用类车规级结构,已获小米战投、商汤等机构千万美元种子轮融资,同时推出开发者共创计划。

马斯克旗下xAI的全球首个GW级超算集群「Colossus 2」正式投入运行

1月17日,马斯克旗下xAI的全球首个GW级超算集群「Colossus 2」正式投入运行,其搭载55.5万张GPU,4月将升级至1.5GW、最终达2GW,专为Grok模型训练服务(Grok 5参数预计6万亿),该集群从建设到上线仅用不到一年(前一代Colossus 1耗时122天);而美国PJM电网因数据中心电力需求激增(未来10年年均增长4.8%),计划在极端天气对13州6700万居民轮流停电,不过「Colossus 2」不在该电网覆盖范围,且xAI部署了特斯拉Megapack储能系统以减少本地电网冲击。

马斯克宣布开源「𝕏平台」推荐算法,每周四迭代一次

1月20日,马斯克宣布开源「𝕏平台」(原Twitter)推荐算法代码,使其成为首个核心流量分发逻辑全透明化的主流社交平台,新版算法采用xAI Grok模型的Transformer架构,以“零人工特征工程”为核心,通过内部“Thunder”和外部“Phoenix Retrieval”召回内容,经Phoenix评分器加权计算得分,评分前后设过滤机制并保障作者多样性,未来将每四周更新开源版本并附开发者说明,这一透明化举措是其他社交平台未做到的。

你好,我是 Silvana,一名前端开发工程师菜鸟。

介绍:

最近琢磨出一个简单又有特色的 CSS 小效果 —— 倒边框半径的卡片,用来做个人名片类的展示特别合适,不用复杂的插件,纯 HTML+CSS 就能实现,分享给喜欢折腾前端小效果的朋友~

这个卡片的核心是用 CSS 伪元素搭配阴影模拟出 “倒圆角” 的视觉效果,整体结构不复杂,下面把完整的代码和详细注释贴出来,新手也能轻松看懂、直接套用~

完整源码(附详细注释)

1. HTML 部分(index.html)

<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="UTF-8" />
    <!-- 适配移动端视图 -->
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <title>CSS 倒边框半径卡</title>
    <!-- 引入样式文件 -->
    <link rel="stylesheet" href="style.css" />
  </head>
  <body>
    <!-- 卡片容器 -->
    <div class="card">
      <!-- 顶部卡片区域(放视频背景) -->
      <div class="box">
        <div class="imgBx">
          <!-- 自动循环播放且静音的视频背景 -->
          <video src="cover.mp4" type="video/mp4" autoplay loop muted></video>
        </div>
      </div>
      <!-- 底部卡片区域(放个人信息) -->
      <div class="box">
        <div class="content">
          <!-- 姓名和身份 -->
          <h2>Lila Simmons<br/><span>Professional Artist</span></h2>
          <!-- 数据统计 -->
          <ul>
            <li>Posts<span>62</span></li>
            <li>Followers<span>120</span></li>
            <li>Following<span>47</span></li>
          </ul>
          <!-- 关注按钮 -->
          <button>Follower</button>
        </div>
      </div>
      <!-- 左侧圆形头像区域 -->
      <div class="circle">
        <div class="imgBx">
          <img src="user.png" alt="用户头像">
        </div>
      </div>
    </div>
  </body>
</html>

2. CSS 部分(style.css)

/* 全局样式重置 */
* {
  margin: 0;
  padding: 0;
  /* 盒模型:宽高包含边框和内边距 */
  box-sizing: border-box;
}
/* 定义全局颜色变量,方便统一修改 */
:root {
  --clr: #083d41
}
/* 页面整体样式:居中展示,背景色用变量 */
body{
  display: flex;
  justify-content: center;
  align-items: center;
  min-height: 100vh;
  background: var(--clr);
}
/* 卡片容器:相对定位,设置宽高,纵向排列子元素 */
.card {
  position: relative;
  width: 320px;
  height: 430px;
  display: flex;
  flex-direction: column;
  justify-content: space-between;
}
/* 卡片内的两个box通用样式 */
.card .box {
  position: relative;
  width: 110%;
  height: 200px;
  border-radius: 15px;
}
/* 第一个box(视频区域):伪元素做左侧倒圆角 */
.card .box:nth-child(1) {
  background: #f00; /* 视频区域背景(被视频覆盖) */
}
.card .box:nth-child(1)::before {
  content: "";
  position: absolute;
  top: 106px;
  left: -1px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-bottom-left-radius: 20px;
  /* 利用阴影模拟倒圆角效果,颜色和页面背景一致 */
  box-shadow: -6px 6px var(--clr);
}
/* 第一个box:伪元素做底部倒圆角 */
.card .box:nth-child(1)::after {
  content: "";
  position: absolute;
  bottom: -1px;
  left: 105px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-bottom-left-radius: 20px;
  box-shadow: -6px 6px var(--clr);
}
/* 第二个box(信息区域):调整宽高和背景色 */
.card .box:nth-child(2) {
  background: #fff;
  height: 220px;
  width: 100%;
}
/* 第二个box:伪元素做左侧倒圆角 */
.card .box:nth-child(2)::before {
  content: "";
  position: absolute;
  bottom: 106px;
  left: -1px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-top-left-radius: 20px;
  box-shadow: -6px -6px var(--clr);
}
/* 第二个box:伪元素做顶部倒圆角 */
.card .box:nth-child(2)::after {
  content: "";
  position: absolute;
  top: -1px;
  left: 109px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-top-left-radius: 20px;
  box-shadow: -6px -6px var(--clr);
}
/* 左侧圆形头像容器:绝对定位,居中显示 */
.card .circle {
  position: absolute;
  top: 50%;
  left: -70px;
  transform: translateY(-50%);
  width: 180px;
  height: 180px;
  border-radius: 50%;
  /* 边框颜色和页面背景一致,营造镂空感 */
  border: 10px solid var(--clr);
}
/* 头像和视频容器通用样式:溢出隐藏,适配圆角 */
.card .circle .imgBx,
.card .box .imgBx {
  position: absolute;
  inset: 0;
  overflow: hidden;
  border-radius: 50%;
}
/* 视频容器单独调整圆角,适配卡片 */
.card .box .imgBx {
  border-radius: 15px;
}
/* 头像和视频内容:铺满容器,保持比例 */
.card .circle .imgBx img,
.card .box .imgBx video {
  position: absolute;
  width: 100%;
  height: 100%;
  object-fit: cover;
}
/* 信息区域布局:居中排列,内边距调整 */
.card .box .content{
  position: absolute;
  inset: 0;
  padding: 30px 10px 20px;
  display: flex;
  align-items: center;
  flex-direction: column;
  gap: 20px;
}
/* 姓名样式:排版调整,颜色区分 */
.card .box .content h2{
  width: 100%;
  padding-left: 120px;
  text-transform: uppercase;
  font-size: 1.15em;
  letter-spacing: 0.1em;
  font-weight: 600;
  line-height: 1.1em;
  color: #333;
}
/* 身份文字:字号和颜色调整 */
.card .box .content h2 span {
  font-size: 0.75em;
  font-weight: 400;
  letter-spacing: 0.05em;
  color: #e91e63;
  text-transform: initial;
}
/* 数据统计列表:网格布局,均分宽度 */
.card .box .content ul {
  position: relative;
  top: 15px;
  display: grid;
  grid-template-columns: repeat(3, 1fr);
  width: 100%;
  padding: 0 10px;
  justify-content: space-evenly;
}
/* 列表项样式:纵向排列,文字颜色区分 */
.card .box .content ul li {
  list-style: none;
  display: flex;
  flex-direction: column;
  text-align: center;
  padding: 0 10px;
  font-size: 0.85em;
  font-weight: 500;
  color: #999;
}
/* 列表项分隔线:除最后一个外,右侧加边框 */
.card .box .content ul li:not(:last-child) {
  border-right: 1px solid #ccc;
}
/* 数据数字:字号放大,颜色加深 */
.card .box .content ul li span {
  font-size: 1.65em;
  color: #333;
}
/* 关注按钮样式:圆角、阴影、边框营造层次感 */
.card .box .content button {
  position: relative;
  top: 25px;
  padding: 8px 30px;
  border: none;
  outline: none;
  background: #03a9f4;
  border-radius: 30px;
  color: #fff;
  font-size: 1em;
  letter-spacing: .2em;
  text-transform: uppercase;
  font-weight: 500;
  cursor: pointer;
  border: 5px solid var(--clr);
  box-shadow: 0 0 0 10px #fff;
  transition: 0.5s;
}
/* 按钮hover效果:文字间距变大,背景色改变 */
.card .box .content button:hover{
  letter-spacing: 0.5em;
  background: #ff3d7f;
}
/* 按钮左侧倒圆角伪元素 */
.card .box .content button::before{
  content: "";
  position: absolute;
  top: 24px;
  left: -29px;
  width: 20px;
  height: 20px;
  background: transparent;
  border-top-right-radius: 20px;
  box-shadow: 5px -7px #fff;
}
/* 按钮右侧倒圆角伪元素 */
.card .box .content button::after{
  content: "";
  position: absolute;
  top: 24px;
  right: -29px;
  width: 20px;
  height: 20px;
  background: transparent;
  border-top-left-radius: 20px;
  box-shadow: -5px -7px #fff;
}

替换里面的cover.mp4和user.png为自己的素材就能直接用,核心的倒圆角效果都在伪元素的box-shadow那里,调整数值还能改倒圆角的大小,感兴趣的可以自己试试。

写着写着就到了结尾,祝您今晚有个好梦(代码少报错一点)。

本文由mdnice多平台发布

你好,我是 Silvana,一名前端开发工程师菜鸟。

介绍:

最近琢磨出一个简单又有特色的 CSS 小效果 —— 倒边框半径的卡片,用来做个人名片类的展示特别合适,不用复杂的插件,纯 HTML+CSS 就能实现,分享给喜欢折腾前端小效果的朋友~

这个卡片的核心是用 CSS 伪元素搭配阴影模拟出 “倒圆角” 的视觉效果,整体结构不复杂,下面把完整的代码和详细注释贴出来,新手也能轻松看懂、直接套用~

完整源码(附详细注释)

1. HTML 部分(index.html)

<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="UTF-8" />
    <!-- 适配移动端视图 -->
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <title>CSS 倒边框半径卡</title>
    <!-- 引入样式文件 -->
    <link rel="stylesheet" href="style.css" />
  </head>
  <body>
    <!-- 卡片容器 -->
    <div class="card">
      <!-- 顶部卡片区域(放视频背景) -->
      <div class="box">
        <div class="imgBx">
          <!-- 自动循环播放且静音的视频背景 -->
          <video src="cover.mp4" type="video/mp4" autoplay loop muted></video>
        </div>
      </div>
      <!-- 底部卡片区域(放个人信息) -->
      <div class="box">
        <div class="content">
          <!-- 姓名和身份 -->
          <h2>Lila Simmons<br/><span>Professional Artist</span></h2>
          <!-- 数据统计 -->
          <ul>
            <li>Posts<span>62</span></li>
            <li>Followers<span>120</span></li>
            <li>Following<span>47</span></li>
          </ul>
          <!-- 关注按钮 -->
          <button>Follower</button>
        </div>
      </div>
      <!-- 左侧圆形头像区域 -->
      <div class="circle">
        <div class="imgBx">
          <img src="user.png" alt="用户头像">
        </div>
      </div>
    </div>
  </body>
</html>

2. CSS 部分(style.css)

/* 全局样式重置 */
* {
  margin: 0;
  padding: 0;
  /* 盒模型:宽高包含边框和内边距 */
  box-sizing: border-box;
}
/* 定义全局颜色变量,方便统一修改 */
:root {
  --clr: #083d41
}
/* 页面整体样式:居中展示,背景色用变量 */
body{
  display: flex;
  justify-content: center;
  align-items: center;
  min-height: 100vh;
  background: var(--clr);
}
/* 卡片容器:相对定位,设置宽高,纵向排列子元素 */
.card {
  position: relative;
  width: 320px;
  height: 430px;
  display: flex;
  flex-direction: column;
  justify-content: space-between;
}
/* 卡片内的两个box通用样式 */
.card .box {
  position: relative;
  width: 110%;
  height: 200px;
  border-radius: 15px;
}
/* 第一个box(视频区域):伪元素做左侧倒圆角 */
.card .box:nth-child(1) {
  background: #f00; /* 视频区域背景(被视频覆盖) */
}
.card .box:nth-child(1)::before {
  content: "";
  position: absolute;
  top: 106px;
  left: -1px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-bottom-left-radius: 20px;
  /* 利用阴影模拟倒圆角效果,颜色和页面背景一致 */
  box-shadow: -6px 6px var(--clr);
}
/* 第一个box:伪元素做底部倒圆角 */
.card .box:nth-child(1)::after {
  content: "";
  position: absolute;
  bottom: -1px;
  left: 105px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-bottom-left-radius: 20px;
  box-shadow: -6px 6px var(--clr);
}
/* 第二个box(信息区域):调整宽高和背景色 */
.card .box:nth-child(2) {
  background: #fff;
  height: 220px;
  width: 100%;
}
/* 第二个box:伪元素做左侧倒圆角 */
.card .box:nth-child(2)::before {
  content: "";
  position: absolute;
  bottom: 106px;
  left: -1px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-top-left-radius: 20px;
  box-shadow: -6px -6px var(--clr);
}
/* 第二个box:伪元素做顶部倒圆角 */
.card .box:nth-child(2)::after {
  content: "";
  position: absolute;
  top: -1px;
  left: 109px;
  width: 20px;
  height: 20px;
  background: transparent;
  z-index: 10;
  border-top-left-radius: 20px;
  box-shadow: -6px -6px var(--clr);
}
/* 左侧圆形头像容器:绝对定位,居中显示 */
.card .circle {
  position: absolute;
  top: 50%;
  left: -70px;
  transform: translateY(-50%);
  width: 180px;
  height: 180px;
  border-radius: 50%;
  /* 边框颜色和页面背景一致,营造镂空感 */
  border: 10px solid var(--clr);
}
/* 头像和视频容器通用样式:溢出隐藏,适配圆角 */
.card .circle .imgBx,
.card .box .imgBx {
  position: absolute;
  inset: 0;
  overflow: hidden;
  border-radius: 50%;
}
/* 视频容器单独调整圆角,适配卡片 */
.card .box .imgBx {
  border-radius: 15px;
}
/* 头像和视频内容:铺满容器,保持比例 */
.card .circle .imgBx img,
.card .box .imgBx video {
  position: absolute;
  width: 100%;
  height: 100%;
  object-fit: cover;
}
/* 信息区域布局:居中排列,内边距调整 */
.card .box .content{
  position: absolute;
  inset: 0;
  padding: 30px 10px 20px;
  display: flex;
  align-items: center;
  flex-direction: column;
  gap: 20px;
}
/* 姓名样式:排版调整,颜色区分 */
.card .box .content h2{
  width: 100%;
  padding-left: 120px;
  text-transform: uppercase;
  font-size: 1.15em;
  letter-spacing: 0.1em;
  font-weight: 600;
  line-height: 1.1em;
  color: #333;
}
/* 身份文字:字号和颜色调整 */
.card .box .content h2 span {
  font-size: 0.75em;
  font-weight: 400;
  letter-spacing: 0.05em;
  color: #e91e63;
  text-transform: initial;
}
/* 数据统计列表:网格布局,均分宽度 */
.card .box .content ul {
  position: relative;
  top: 15px;
  display: grid;
  grid-template-columns: repeat(3, 1fr);
  width: 100%;
  padding: 0 10px;
  justify-content: space-evenly;
}
/* 列表项样式:纵向排列,文字颜色区分 */
.card .box .content ul li {
  list-style: none;
  display: flex;
  flex-direction: column;
  text-align: center;
  padding: 0 10px;
  font-size: 0.85em;
  font-weight: 500;
  color: #999;
}
/* 列表项分隔线:除最后一个外,右侧加边框 */
.card .box .content ul li:not(:last-child) {
  border-right: 1px solid #ccc;
}
/* 数据数字:字号放大,颜色加深 */
.card .box .content ul li span {
  font-size: 1.65em;
  color: #333;
}
/* 关注按钮样式:圆角、阴影、边框营造层次感 */
.card .box .content button {
  position: relative;
  top: 25px;
  padding: 8px 30px;
  border: none;
  outline: none;
  background: #03a9f4;
  border-radius: 30px;
  color: #fff;
  font-size: 1em;
  letter-spacing: .2em;
  text-transform: uppercase;
  font-weight: 500;
  cursor: pointer;
  border: 5px solid var(--clr);
  box-shadow: 0 0 0 10px #fff;
  transition: 0.5s;
}
/* 按钮hover效果:文字间距变大,背景色改变 */
.card .box .content button:hover{
  letter-spacing: 0.5em;
  background: #ff3d7f;
}
/* 按钮左侧倒圆角伪元素 */
.card .box .content button::before{
  content: "";
  position: absolute;
  top: 24px;
  left: -29px;
  width: 20px;
  height: 20px;
  background: transparent;
  border-top-right-radius: 20px;
  box-shadow: 5px -7px #fff;
}
/* 按钮右侧倒圆角伪元素 */
.card .box .content button::after{
  content: "";
  position: absolute;
  top: 24px;
  right: -29px;
  width: 20px;
  height: 20px;
  background: transparent;
  border-top-left-radius: 20px;
  box-shadow: -5px -7px #fff;
}

替换里面的cover.mp4和user.png为自己的素材就能直接用,核心的倒圆角效果都在伪元素的box-shadow那里,调整数值还能改倒圆角的大小,感兴趣的可以自己试试。

写着写着就到了结尾,祝您今晚有个好梦(代码少报错一点)。

本文由mdnice多平台发布

分析 Linux/Unix 系统及其他网络设备生成的系统日志(Syslog),是IT管理员的核心工作内容之一。为提升日志分析的效率,管理员通常会采用日志集中采集的方式。本文详细介绍将 CentOS 系统配置为 rsyslog 集中采集服务器的具体步骤。

Rsyslog 服务在 CentOS 8 系统中为默认预装状态。你可在终端执行以下命令,检查服务运行状态:

$ systemctl status rsyslog

若命令返回的服务状态不为 Active: active (running)(运行中),请在终端执行以下命令安装 rsyslog:

$ sudo yum install rsyslog

如需通过 UDP 和 TCP 协议接收来自其他设备的系统日志,需编辑配置文件 /etc/rsyslog.conf,取消对应配置项的注释,以启用 TCP 和 UDP 监听功能。

•启用 UDP 协议:取消以下配置行的注释
module(load="imudp") #needs to be done just once
input(type="imudp" port="514")

•启用 TCP 协议:取消以下配置行的注释
module(load="imtcp") #needs to be done just once
input(type="imtcp" port="514")

注意

514 是 UDP 和 TCP 协议的默认监听端口,你可根据实际需求修改端口号。

保存配置并退出编辑界面。

确保客户端主机能够识别并与已配置的 rsyslog 服务器通信。为开放通信端口,需在防火墙中放行 514 端口,执行以下命令:

$ sudo firewall-cmd --add-port=514/tcp --zone=public --permanent
重新加载防火墙配置,使规则生效:

$ sudo firewall-cmd --reload
重启 rsyslog 服务,并执行以下命令,检查服务器是否已在 514 端口监听:

$ sudo netstat -pnltu
若配置成功,你会看到 514 端口的状态显示为 LISTEN(监听中)。

至此,基于 CentOS 系统的集中式 Syslog 采集服务器已配置完成。如需实时查看已采集的日志,可在服务器端执行以下命令:

$ tail -f /var/log/messages

如何监控 rsyslog 日志文件

监控系统日志文件至关重要,这些日志可直观反映网络活动的详细情况,包括事件涉及的 IP 地址、时间戳、具体操作行为,以及对系统执行的关键配置变更等信息。

但手动监控 rsyslog 日志文件耗时费力,且难以实现高效的日志分析。通过专业的日志管理解决方案监控 rsyslog 日志,能够对日志数据进行深度解析。

EventLog Analyzer 是一款功能完善的日志管理工具,它可实现海量 rsyslog 数据的采集、解析、索引与分析,并生成可视化的统计报告。

工具会自动将检测到的恶意行为标记为安全威胁,并通过短信或邮件触发实时告警,及时通知 IT 安全管理员防范潜在的网络攻击。

分析 Linux/Unix 系统及其他网络设备生成的系统日志(Syslog),是IT管理员的核心工作内容之一。为提升日志分析的效率,管理员通常会采用日志集中采集的方式。本文详细介绍将 CentOS 系统配置为 rsyslog 集中采集服务器的具体步骤。

Rsyslog 服务在 CentOS 8 系统中为默认预装状态。你可在终端执行以下命令,检查服务运行状态:

$ systemctl status rsyslog

若命令返回的服务状态不为 Active: active (running)(运行中),请在终端执行以下命令安装 rsyslog:

$ sudo yum install rsyslog

如需通过 UDP 和 TCP 协议接收来自其他设备的系统日志,需编辑配置文件 /etc/rsyslog.conf,取消对应配置项的注释,以启用 TCP 和 UDP 监听功能。

•启用 UDP 协议:取消以下配置行的注释
module(load="imudp") #needs to be done just once
input(type="imudp" port="514")

•启用 TCP 协议:取消以下配置行的注释
module(load="imtcp") #needs to be done just once
input(type="imtcp" port="514")

注意

514 是 UDP 和 TCP 协议的默认监听端口,你可根据实际需求修改端口号。

保存配置并退出编辑界面。

确保客户端主机能够识别并与已配置的 rsyslog 服务器通信。为开放通信端口,需在防火墙中放行 514 端口,执行以下命令:

$ sudo firewall-cmd --add-port=514/tcp --zone=public --permanent
重新加载防火墙配置,使规则生效:

$ sudo firewall-cmd --reload
重启 rsyslog 服务,并执行以下命令,检查服务器是否已在 514 端口监听:

$ sudo netstat -pnltu
若配置成功,你会看到 514 端口的状态显示为 LISTEN(监听中)。

至此,基于 CentOS 系统的集中式 Syslog 采集服务器已配置完成。如需实时查看已采集的日志,可在服务器端执行以下命令:

$ tail -f /var/log/messages

如何监控 rsyslog 日志文件

监控系统日志文件至关重要,这些日志可直观反映网络活动的详细情况,包括事件涉及的 IP 地址、时间戳、具体操作行为,以及对系统执行的关键配置变更等信息。

但手动监控 rsyslog 日志文件耗时费力,且难以实现高效的日志分析。通过专业的日志管理解决方案监控 rsyslog 日志,能够对日志数据进行深度解析。

EventLog Analyzer 是一款功能完善的日志管理工具,它可实现海量 rsyslog 数据的采集、解析、索引与分析,并生成可视化的统计报告。

工具会自动将检测到的恶意行为标记为安全威胁,并通过短信或邮件触发实时告警,及时通知 IT 安全管理员防范潜在的网络攻击。

高铁客服和专家回应「高铁二氧化碳超标」

据新京报等报道,近日,一条在高铁二等座车厢内测二氧化碳浓度的视频引发网友热议,视频画面显示:乘客入座前,车厢内二氧化碳浓度在 880ppm(百万分之一,浓度单位)左右浮动;乘客入座过程中,二氧化碳浓度已经开始上涨;行驶一段距离后,车厢内二氧化碳浓度已超过 2000ppm,此时画面中的多数乘客也已进入睡眠状态。该报道指出,据国内现行的《室内空气质量标准》规定,室内二氧化碳(CO₂)浓度的标准限值为 ≤ 1000ppm(即 ≤ 0.1%),视频中车厢内的二氧化碳浓度已经远远超过这一限值。

对此,不同 12306 客服给出了各种说法。一名客服表示,如果在旅行途中感到不适可以「自行吸氧」。另一位客服则称「目前没有这个标准」。还有客服表示,行驶过程中会实时更换空气,出发以及到站后都会做系统检查,空气方面肯定是没有问题的,二氧化碳浓度变高可能是因为乘客密度变高。

随后,新华社采访了来自动车组制造厂商、中车青岛四方机车车辆股份有限公司的动车组专家陶桂东。陶桂东介绍,我国旅客列车室内二氧化碳浓度控制标准执行 TB/T 3493-2017《铁道车辆空调 空调压力保护装置》,正常运行工况下标准限值为不超过 2500ppm,欧洲标准则规定不超过 5000ppm。网友对照的民用建筑标准不适用于旅客列车。

陶桂东还说,动车组车内换气完全由空调通风系统实现,在非隧道区段运行时,可实现连续换气,二氧化碳浓度一般不超过 1500ppm;当通过连续隧道群时,会采取压力保护动作关闭与车外空气的通道,车厢内二氧化碳浓度短时间内会有所升高。


因不堪 AI 骚扰,cURL 将终止漏洞赏金计划

1 月 22 日,全球知名的开源网络传输工具 cURL 宣布,将于本月底正式终止其漏洞赏金计划。cURL 官网更新后的 security.txt(业内惯常用于说明提交安全报告渠道的文件)现在写道,「我们对于报告的问题不提供任何奖励或其他形式的补偿,但会在确认问题的文档中明确表达感谢与认可。如果你用垃圾报告浪费我们的时间,我们会将你封禁并公示嘲讽(ridicule you in public)。」

对此,项目创始人兼首席开发者 Daniel Stenberg 表示,近期收到大量由人工智能生成的低质量漏洞报告,导致项目维护团队不堪重负。为了确保团队成员的「心理健康」以及项目的正常维系,官方不得不做出这一决定。

长期以来,cURL 团队像许多软件开发商一样,通过现金奖励激励外部研究人员提交高严重性的安全漏洞。然而,自去年五月以来,Stenberg 便警告称 AI 生成的垃圾信息(slop)正在激增。大量投机者盲目使用大语言模型生成报告,其中充斥着幻觉,包括虚构的 CVE 编号、不存在的函数签名,甚至根本无法编译的代码片段。这些无效信息迫使维护者花费大量精力进行甄别和排查。

尽管拥有庞大的用户基础,cURL 实际上仍是由少量核心维护者运作的小型开源项目。Stenberg 表示,团队无力改变人们滥用 AI 工具的现状,只能通过切断激励源头来应对这一冲击。值得注意的是,项目方并非完全排斥 AI 辅助的安全研究。Stenberg 曾在去年九月公开赞扬过一位研究人员利用 AI 代码分析工具(ZeroPath)发现并协助修复了 22 个真实漏洞。他强调,问题的核心不在于工具本身,而在于那些不仅不懂代码、还对 AI 输出结果缺乏基本核查便直接提交的投机行为。


联通推出「果粉」卡套餐

1 月 23 日,联通宣布推出「果粉·王卡」套餐。该产品是「天王卡 3.0」套餐的衍生版本,核心卖点在于将 AppleCare Services 权益整合进通信资费中。套餐首年优惠月费为 49 元,用户在激活号卡并首充 50 元后,可获得最长 24 个月的权益服务,其中包括无限次的前屏意外保修、电池免费更换(当容量低于 80% 时)以及 Apple 官方认证的技术支持。

在基础通信资费方面,该套餐每月包含 30GB 专属流量、20GB 通用流量以及活动赠送的 30GB 通用流量。联通还重点宣传了支持 eSIM、手表与手机「一号双终端」,以及 9.9 元/天的国际漫游包等特性。

根据权益细则,用户须在号卡激活后的 90 天内领取 AppleCare Services,绑定的 iPhone 必须为激活时间在 30 天以内的国行新机,并需校验 IMEI 码。系统每月会校验用户资格,若套餐月费实付低于 59 元或处于非正常在网状态,当月的 AppleCare 权益将自动失效。如果用户不选择领取 AppleCare Services,也可以选择腾讯视频、爱奇艺、QQ 音乐等互联网会员权益。

值得指出,不同于苹果官方渠道销售的 AppleCare+,AppleCare Services 是苹果通过供应商提供的一种保护计划,具体涵盖的服务范围取决于供应商。例如,通过「果粉·王卡」提供的 AppleCare Services 就不包括碎屏和电池之外的其他损坏维修。苹果之前还通过授权专营店渠道,销售过只包含碎屏维修服务的 AppleCare Services。


微软证实向 FBI 移交 BitLocker 加密密钥

据《福布斯》报道,微软近日证实,已依据法律指令向美国联邦调查局(FBI)移交了 BitLocker 恢复密钥,协助解锁三台涉嫌欺诈案的笔记本电脑。这是已知首例微软直接向执法部门提供此类加密密钥的案件。BitLocker 是 Windows 系统内置的磁盘加密工具,旨在保护硬盘数据不被非法读取。

对此,微软发言人表示,每年收到约 20 起此类密钥索取请求,并强调只要收到有效的法律搜查令且拥有密钥访问权限,微软就会予以配合。在该案件中,由于用户选择了将密钥备份至微软服务器,技术上使得微软具备了协助执法的能力。发言人同时指出,虽然云端恢复功能提供了便利,但也确实存在被外部获取的风险,若用户选择将密钥保存在本地硬件(如 USB 驱动器)而非云端,微软则无法提供协助。

此次事件凸显了微软在隐私架构设计上与其他科技巨头的差异。苹果和 Meta 等公司采用了更为严格的「端到端」加密策略,即便是服务商本身也无法访问用户的解密密钥。例如,苹果曾在 2016 年拒绝协助 FBI 解锁圣贝纳迪诺枪击案嫌疑人的 iPhone,并在其 FileVault 和云端服务中采用了让执法部门无法索取密钥的技术架构。相比之下,微软目前的默认设置使得云端备份的密钥处于可被其读取的状态。


Meta 裁员引发「VR 寒冬」担忧

据 CNBC 报道,Meta 近日对旗下负责元宇宙业务的 Reality Labs 部门展开大规模裁员,约 10% 的员工受到影响,涉及人数达 1000 人。此次裁员主要集中在 Quest VR 头显及虚拟社交平台 Horizon Worlds 等 VR 团队,同时也关闭了部分内部工作室。外界普遍认为,此举标志着 Meta 的战略重心正从虚拟现实(VR)向 AI 及雷朋(Ray-Ban)联名智能眼镜等可穿戴设备转移,引发了行业对于「VR 寒冬」将至的担忧。

市场数据印证了这一转型趋势。根据 IDC 的最新报告,虽然扩展现实(XR)设备整体出货量预计在 2025 年增长 41.6%,但增长动力主要来自 AI 智能眼镜,而非传统的 VR 头显。IDC 预测,2025 年 VR 及混合现实头显的出货量将暴跌 42.8%,降至 390 万台;相反,AI 眼镜类产品出货量预计将激增两倍以上。分析师指出,市场反馈表明 VR 头显仍局限于小众游戏玩家群体,普通消费者对长期佩戴笨重的头显设备缺乏兴趣。

针对外界质疑,Meta 首席技术官回应称,并非放弃 VR,而是修正投资规模。他承认 VR 市场的增长速度低于预期,因此必须调整投入比例。Oculus 联合创始人帕尔默·拉奇(Palmer Luckey)也表示,尽管裁员令人遗憾,但这有利于行业的长期健康发展。自 2020 年底以来,Meta 的现实实验室部门累计亏损已超过 700 亿美元。

此次战略调整对依赖 Meta 生态的第三方开发者造成了冲击。谷歌旗下的 VR 工作室 Owlchemy Labs 负责人将当前的 VR 市场比作 1983 年美国游戏业大萧条前的雅达利时代,认为 VR 正在经历必要的市场修正。据 IDC 透露,苹果的中国制造合作伙伴立讯精密已停止生产 Vision Pro 头显,显示出高端 VR 设备同样面临需求不足的困境。


初代宝可梦成为流行 AI 测试方法

据《华尔街日报》报道,硅谷 AI 实验室正在普遍采用一种非传统的 AI 基准测试方法:利用任天堂 90 年代的经典游戏《宝可梦》(Pokémon)来评估模型的推理与决策能力。包括 Anthropic、OpenAI 和 Google 在内的厂商,都通过让其 AI 模型游玩《宝可梦红/蓝》,来直观展示模型在长期规划和复杂任务处理上的进展。

这一趋势由 Anthropic 的应用 AI 负责人 David Hershey 发起,他于去年二月推出了「Claude 玩宝可梦」的 Twitch 直播,随后引发了 OpenAI 和 Google 的效仿。目前,开发者构建的「GPT 玩宝可梦」和「Gemini 玩宝可梦」在特定辅助框架的帮助下已成功通关初代游戏,正着手挑战续作;而 Anthropic 最新的 Claude Opus 4.5 模型目前正在直播挑战通关的过程中。

研究人员指出,与传统的一问一答式基准测试不同,《宝可梦》要求玩家在长时间内连续推理和决策。模型需要穿越迷宫、组建队伍并根据对手属性制定战斗策略。这种非线性的复杂环境比传统的棋类游戏限制更少,能更精准地模拟 AI 在现实世界中处理长流程、多步骤任务时面临的挑战,因此被视为测试 AI 智能体能力的理想试验场。

除了评估模型本身,这一项目也成为开发 AI 辅助软件(业内称为 harness)的实战演练。为了让 AI 顺利游戏,开发者需要构建记忆系统等外部工具来辅助模型记录关键信息。David Hershey 表示,他已将在构建 Claude 游戏记忆模块过程中积累的经验,直接应用于指导企业客户部署复杂的商业 AI 系统。


看看就行的小道消息

  • 近日,京东与天猫宣布,于 1 月 25 日 20:00 开启针对 iPhone Air 的特惠活动。在叠加 2000 元平台券以及部分地区适用的 500 元国家补贴后,256GB 型号在两个渠道的售价都降至 5499 元;京东还针对以旧换新提供 400 元补贴。该优惠受限于活动库存。此前,据供应链消息及媒体报道,iPhone Air 市场表现不及预期。例如,博主 @数码闲聊站 近日声称,iPhone Air 目前累计激活量不足 20 万台。作为对比,同期 iPhone 17 系列各机型激活量均已突破 400 万,其中 iPhone 17 Pro Max 更是超过 826 万台。此外,苹果官方也于 1 月 24 日上线了新春限时优惠活动,主要覆盖了上一代 iPhone 16 系列、iPad 及 Mac 产品线盖。其中,搭载 M4/M5 芯片的 MacBook Pro 系列最高立减 1000 元,iPhone 16 系列最高优惠 300 元。
  • 据彭博社援引知情人士消息,德国相机制造商徕卡(Leica Camera AG)的所有者正考虑出售公司控股权,这笔潜在交易对该公司的估值可能达到约 10 亿欧元。目前的竞购者名单中,包括原红杉中国更名后的弘沙集团(HSG)以及私募股权投资公司 Altor Equity Partners。徕卡目前的主要股东为奥地利亿万富翁 Andreas Kaufmann 家族及黑石集团(Blackstone Inc.)。知情人士透露,Kaufmann 家族可能会在交易达成后选择重新投资,从而继续保留对公司的部分持股。目前相关讨论尚处于早期阶段,不保证最终会达成交易。对于这一消息,黑石、HSG 及徕卡方面均拒绝发表评论。尽管徕卡曾在 2005 年面临严重的财务危机,但在 Kaufmann 家族于 2012 年将其私有化后,近年业绩表现稳健。在截至 2025 年 3 月的财年中,徕卡营收增长 7.6% 至约 5.96 亿欧元,主要得益于其核心摄影器材及移动影像业务的增长。
  • Mark Gurman 声称,新版 Siri 首批功能预计随 3 月或 4 月发布的 iOS 26.4 正式上线。尽管内部代号为 Apple Foundation Models v10,但其核心算力实则由 Gemini 提供,初期运行于苹果的私有云服务器上。随后在夏季的 WWDC 开发者大会上,苹果将发布代号为 Campos 的全新 Siri 架构,随 iOS 27 亮相。该版本将具备类似 ChatGPT 的深度多轮对话与语境理解能力,并计划直接调用谷歌云端 TPU 基础设施以提升响应速度。
  • Gurman 还声称,苹果计划在上半年密集更新 MacBook Pro、MacBook Air 及 Mac Studio 产品线,并有望推出多年未更新的 Studio Display 显示器。一款搭载 A 系列芯片的低成本 MacBook 正在开发中,意在抢占教育及入门市场。此外,下一代 M6 芯片的研发进度快于预期,可能不久问世。
  • Android Authority 指出,在最新版本的 Google Play 代码中,已经出现了「未验证直接安装」「无法验证应用开发者」以及「需联网验证」等文本字符串。这意味着用户在尝试安装 APK 文件时,虽然仍可安装,但必须经历繁琐确认流程,且系统会强制弹窗提示风险。Google Play 开发者体验及产品管理总监 Matthew Forsyth 证实,将在 Android 系统中引入一个「高阻力」的侧载应用安装流程,目的是「责任分层」。此前,谷歌在去年夏季发布了一项争议性政策,最初计划自 2026 年起,要求所有 Android 开发者(无论是否通过 Play 商店分发)都必须向谷歌注册并验证身份。引发强烈反对后,谷歌妥协,承诺为「高级用户」保留手动安装选项。从此次确认的情况看,该功能已进入准备阶段,普通用户获取第三方应用的门槛将实质性提高。前述验证计划预计将于今年 9 月率先在巴西、印尼、新加坡和泰国等地启动试行,随后逐步推向全球市场。
  • Sherwood 报道,截至 2026 年 1 月初,全球注册的 .ai 域名数量已正式突破 100 万大关,为位于加勒比海的英国海外领地安圭拉带来了巨大的财政红利。据估算,该地区在过去一年仅凭域名相关业务就创收约 7000 万美元。安圭拉是一个人口仅约 1.5 万的岛屿。上世纪 90 年代中期,互联网名称与数字地址分配机构(ICANN)将 .ai 作为国家及地区代码顶级域名(ccTLD)分配给该地。目前,注册一个 .ai 域名的标准费用通常为两年 140 美元,且续费率高达 90%,为当地政府提供了稳定的现金流。此外,通过域名注册商 Namecheap 举行的过期域名拍卖更是获利颇丰。数据显示,域名 you.ai 在去年 9 月以 70 万美元成交;仅在过去一周内,就有 31 个过期域名拍出了总计约 120 万美元的高价。
  • 1 月 24 日,腾讯 QQ 通过官方微博宣布将带回 QQ 秀功能。新版 QQ 秀可以通过上传图片由 AI 生成,在个人主页、聊天界面等位置可以代替头像展示,可以在群聊中与其他人的形象共同生成动画。官方还预告将上线更多经典功能。QQ 秀最早出现在 QQ2000C 中,是一个虚拟形象设计系统。QQ 秀商城的虚拟服饰、场景和人物形象可以用来装扮用户在 PC 端 QQ 中显示的虚拟形象。腾讯曾围绕 QQ 秀推出月费 10 元的「红钻」服务,付费用户可免费使用全场 QQ 秀。2020 年,红钻服务停止续费充值。2021 年 11 月,PC 端 QQ 移除了大部分 QQ 秀展示位。「QQ 秀下线」当时成为微博热搜。
     


少数派的近期动态

  • 我们正在优化并改进新的首页版式,如果你在使用过程中发现了任何问题或者有改进建议,请通过反馈表单告知我们。首页反馈收集
  • 将设计装进耳朵:少数派×飞傲联名 CD 机盖板设计大赛已经开始啦。了解详情
  • 比第三方 Apps 更好使:盘点 Apple 生态经典好用的原生应用。看看都有啥


你可能错过的好文章


    高铁客服和专家回应「高铁二氧化碳超标」

    据新京报等报道,近日,一条在高铁二等座车厢内测二氧化碳浓度的视频引发网友热议,视频画面显示:乘客入座前,车厢内二氧化碳浓度在 880ppm(百万分之一,浓度单位)左右浮动;乘客入座过程中,二氧化碳浓度已经开始上涨;行驶一段距离后,车厢内二氧化碳浓度已超过 2000ppm,此时画面中的多数乘客也已进入睡眠状态。该报道指出,据国内现行的《室内空气质量标准》规定,室内二氧化碳(CO₂)浓度的标准限值为 ≤ 1000ppm(即 ≤ 0.1%),视频中车厢内的二氧化碳浓度已经远远超过这一限值。

    对此,不同 12306 客服给出了各种说法。一名客服表示,如果在旅行途中感到不适可以「自行吸氧」。另一位客服则称「目前没有这个标准」。还有客服表示,行驶过程中会实时更换空气,出发以及到站后都会做系统检查,空气方面肯定是没有问题的,二氧化碳浓度变高可能是因为乘客密度变高。

    随后,新华社采访了来自动车组制造厂商、中车青岛四方机车车辆股份有限公司的动车组专家陶桂东。陶桂东介绍,我国旅客列车室内二氧化碳浓度控制标准执行 TB/T 3493-2017《铁道车辆空调 空调压力保护装置》,正常运行工况下标准限值为不超过 2500ppm,欧洲标准则规定不超过 5000ppm。网友对照的民用建筑标准不适用于旅客列车。

    陶桂东还说,动车组车内换气完全由空调通风系统实现,在非隧道区段运行时,可实现连续换气,二氧化碳浓度一般不超过 1500ppm;当通过连续隧道群时,会采取压力保护动作关闭与车外空气的通道,车厢内二氧化碳浓度短时间内会有所升高。


    因不堪 AI 骚扰,cURL 将终止漏洞赏金计划

    1 月 22 日,全球知名的开源网络传输工具 cURL 宣布,将于本月底正式终止其漏洞赏金计划。cURL 官网更新后的 security.txt(业内惯常用于说明提交安全报告渠道的文件)现在写道,「我们对于报告的问题不提供任何奖励或其他形式的补偿,但会在确认问题的文档中明确表达感谢与认可。如果你用垃圾报告浪费我们的时间,我们会将你封禁并公示嘲讽(ridicule you in public)。」

    对此,项目创始人兼首席开发者 Daniel Stenberg 表示,近期收到大量由人工智能生成的低质量漏洞报告,导致项目维护团队不堪重负。为了确保团队成员的「心理健康」以及项目的正常维系,官方不得不做出这一决定。

    长期以来,cURL 团队像许多软件开发商一样,通过现金奖励激励外部研究人员提交高严重性的安全漏洞。然而,自去年五月以来,Stenberg 便警告称 AI 生成的垃圾信息(slop)正在激增。大量投机者盲目使用大语言模型生成报告,其中充斥着幻觉,包括虚构的 CVE 编号、不存在的函数签名,甚至根本无法编译的代码片段。这些无效信息迫使维护者花费大量精力进行甄别和排查。

    尽管拥有庞大的用户基础,cURL 实际上仍是由少量核心维护者运作的小型开源项目。Stenberg 表示,团队无力改变人们滥用 AI 工具的现状,只能通过切断激励源头来应对这一冲击。值得注意的是,项目方并非完全排斥 AI 辅助的安全研究。Stenberg 曾在去年九月公开赞扬过一位研究人员利用 AI 代码分析工具(ZeroPath)发现并协助修复了 22 个真实漏洞。他强调,问题的核心不在于工具本身,而在于那些不仅不懂代码、还对 AI 输出结果缺乏基本核查便直接提交的投机行为。


    联通推出「果粉」卡套餐

    1 月 23 日,联通宣布推出「果粉·王卡」套餐。该产品是「天王卡 3.0」套餐的衍生版本,核心卖点在于将 AppleCare Services 权益整合进通信资费中。套餐首年优惠月费为 49 元,用户在激活号卡并首充 50 元后,可获得最长 24 个月的权益服务,其中包括无限次的前屏意外保修、电池免费更换(当容量低于 80% 时)以及 Apple 官方认证的技术支持。

    在基础通信资费方面,该套餐每月包含 30GB 专属流量、20GB 通用流量以及活动赠送的 30GB 通用流量。联通还重点宣传了支持 eSIM、手表与手机「一号双终端」,以及 9.9 元/天的国际漫游包等特性。

    根据权益细则,用户须在号卡激活后的 90 天内领取 AppleCare Services,绑定的 iPhone 必须为激活时间在 30 天以内的国行新机,并需校验 IMEI 码。系统每月会校验用户资格,若套餐月费实付低于 59 元或处于非正常在网状态,当月的 AppleCare 权益将自动失效。如果用户不选择领取 AppleCare Services,也可以选择腾讯视频、爱奇艺、QQ 音乐等互联网会员权益。

    值得指出,不同于苹果官方渠道销售的 AppleCare+,AppleCare Services 是苹果通过供应商提供的一种保护计划,具体涵盖的服务范围取决于供应商。例如,通过「果粉·王卡」提供的 AppleCare Services 就不包括碎屏和电池之外的其他损坏维修。苹果之前还通过授权专营店渠道,销售过只包含碎屏维修服务的 AppleCare Services。


    微软证实向 FBI 移交 BitLocker 加密密钥

    据《福布斯》报道,微软近日证实,已依据法律指令向美国联邦调查局(FBI)移交了 BitLocker 恢复密钥,协助解锁三台涉嫌欺诈案的笔记本电脑。这是已知首例微软直接向执法部门提供此类加密密钥的案件。BitLocker 是 Windows 系统内置的磁盘加密工具,旨在保护硬盘数据不被非法读取。

    对此,微软发言人表示,每年收到约 20 起此类密钥索取请求,并强调只要收到有效的法律搜查令且拥有密钥访问权限,微软就会予以配合。在该案件中,由于用户选择了将密钥备份至微软服务器,技术上使得微软具备了协助执法的能力。发言人同时指出,虽然云端恢复功能提供了便利,但也确实存在被外部获取的风险,若用户选择将密钥保存在本地硬件(如 USB 驱动器)而非云端,微软则无法提供协助。

    此次事件凸显了微软在隐私架构设计上与其他科技巨头的差异。苹果和 Meta 等公司采用了更为严格的「端到端」加密策略,即便是服务商本身也无法访问用户的解密密钥。例如,苹果曾在 2016 年拒绝协助 FBI 解锁圣贝纳迪诺枪击案嫌疑人的 iPhone,并在其 FileVault 和云端服务中采用了让执法部门无法索取密钥的技术架构。相比之下,微软目前的默认设置使得云端备份的密钥处于可被其读取的状态。


    Meta 裁员引发「VR 寒冬」担忧

    据 CNBC 报道,Meta 近日对旗下负责元宇宙业务的 Reality Labs 部门展开大规模裁员,约 10% 的员工受到影响,涉及人数达 1000 人。此次裁员主要集中在 Quest VR 头显及虚拟社交平台 Horizon Worlds 等 VR 团队,同时也关闭了部分内部工作室。外界普遍认为,此举标志着 Meta 的战略重心正从虚拟现实(VR)向 AI 及雷朋(Ray-Ban)联名智能眼镜等可穿戴设备转移,引发了行业对于「VR 寒冬」将至的担忧。

    市场数据印证了这一转型趋势。根据 IDC 的最新报告,虽然扩展现实(XR)设备整体出货量预计在 2025 年增长 41.6%,但增长动力主要来自 AI 智能眼镜,而非传统的 VR 头显。IDC 预测,2025 年 VR 及混合现实头显的出货量将暴跌 42.8%,降至 390 万台;相反,AI 眼镜类产品出货量预计将激增两倍以上。分析师指出,市场反馈表明 VR 头显仍局限于小众游戏玩家群体,普通消费者对长期佩戴笨重的头显设备缺乏兴趣。

    针对外界质疑,Meta 首席技术官回应称,并非放弃 VR,而是修正投资规模。他承认 VR 市场的增长速度低于预期,因此必须调整投入比例。Oculus 联合创始人帕尔默·拉奇(Palmer Luckey)也表示,尽管裁员令人遗憾,但这有利于行业的长期健康发展。自 2020 年底以来,Meta 的现实实验室部门累计亏损已超过 700 亿美元。

    此次战略调整对依赖 Meta 生态的第三方开发者造成了冲击。谷歌旗下的 VR 工作室 Owlchemy Labs 负责人将当前的 VR 市场比作 1983 年美国游戏业大萧条前的雅达利时代,认为 VR 正在经历必要的市场修正。据 IDC 透露,苹果的中国制造合作伙伴立讯精密已停止生产 Vision Pro 头显,显示出高端 VR 设备同样面临需求不足的困境。


    初代宝可梦成为流行 AI 测试方法

    据《华尔街日报》报道,硅谷 AI 实验室正在普遍采用一种非传统的 AI 基准测试方法:利用任天堂 90 年代的经典游戏《宝可梦》(Pokémon)来评估模型的推理与决策能力。包括 Anthropic、OpenAI 和 Google 在内的厂商,都通过让其 AI 模型游玩《宝可梦红/蓝》,来直观展示模型在长期规划和复杂任务处理上的进展。

    这一趋势由 Anthropic 的应用 AI 负责人 David Hershey 发起,他于去年二月推出了「Claude 玩宝可梦」的 Twitch 直播,随后引发了 OpenAI 和 Google 的效仿。目前,开发者构建的「GPT 玩宝可梦」和「Gemini 玩宝可梦」在特定辅助框架的帮助下已成功通关初代游戏,正着手挑战续作;而 Anthropic 最新的 Claude Opus 4.5 模型目前正在直播挑战通关的过程中。

    研究人员指出,与传统的一问一答式基准测试不同,《宝可梦》要求玩家在长时间内连续推理和决策。模型需要穿越迷宫、组建队伍并根据对手属性制定战斗策略。这种非线性的复杂环境比传统的棋类游戏限制更少,能更精准地模拟 AI 在现实世界中处理长流程、多步骤任务时面临的挑战,因此被视为测试 AI 智能体能力的理想试验场。

    除了评估模型本身,这一项目也成为开发 AI 辅助软件(业内称为 harness)的实战演练。为了让 AI 顺利游戏,开发者需要构建记忆系统等外部工具来辅助模型记录关键信息。David Hershey 表示,他已将在构建 Claude 游戏记忆模块过程中积累的经验,直接应用于指导企业客户部署复杂的商业 AI 系统。


    看看就行的小道消息

    • 近日,京东与天猫宣布,于 1 月 25 日 20:00 开启针对 iPhone Air 的特惠活动。在叠加 2000 元平台券以及部分地区适用的 500 元国家补贴后,256GB 型号在两个渠道的售价都降至 5499 元;京东还针对以旧换新提供 400 元补贴。该优惠受限于活动库存。此前,据供应链消息及媒体报道,iPhone Air 市场表现不及预期。例如,博主 @数码闲聊站 近日声称,iPhone Air 目前累计激活量不足 20 万台。作为对比,同期 iPhone 17 系列各机型激活量均已突破 400 万,其中 iPhone 17 Pro Max 更是超过 826 万台。此外,苹果官方也于 1 月 24 日上线了新春限时优惠活动,主要覆盖了上一代 iPhone 16 系列、iPad 及 Mac 产品线盖。其中,搭载 M4/M5 芯片的 MacBook Pro 系列最高立减 1000 元,iPhone 16 系列最高优惠 300 元。
    • 据彭博社援引知情人士消息,德国相机制造商徕卡(Leica Camera AG)的所有者正考虑出售公司控股权,这笔潜在交易对该公司的估值可能达到约 10 亿欧元。目前的竞购者名单中,包括原红杉中国更名后的弘沙集团(HSG)以及私募股权投资公司 Altor Equity Partners。徕卡目前的主要股东为奥地利亿万富翁 Andreas Kaufmann 家族及黑石集团(Blackstone Inc.)。知情人士透露,Kaufmann 家族可能会在交易达成后选择重新投资,从而继续保留对公司的部分持股。目前相关讨论尚处于早期阶段,不保证最终会达成交易。对于这一消息,黑石、HSG 及徕卡方面均拒绝发表评论。尽管徕卡曾在 2005 年面临严重的财务危机,但在 Kaufmann 家族于 2012 年将其私有化后,近年业绩表现稳健。在截至 2025 年 3 月的财年中,徕卡营收增长 7.6% 至约 5.96 亿欧元,主要得益于其核心摄影器材及移动影像业务的增长。
    • Mark Gurman 声称,新版 Siri 首批功能预计随 3 月或 4 月发布的 iOS 26.4 正式上线。尽管内部代号为 Apple Foundation Models v10,但其核心算力实则由 Gemini 提供,初期运行于苹果的私有云服务器上。随后在夏季的 WWDC 开发者大会上,苹果将发布代号为 Campos 的全新 Siri 架构,随 iOS 27 亮相。该版本将具备类似 ChatGPT 的深度多轮对话与语境理解能力,并计划直接调用谷歌云端 TPU 基础设施以提升响应速度。
    • Gurman 还声称,苹果计划在上半年密集更新 MacBook Pro、MacBook Air 及 Mac Studio 产品线,并有望推出多年未更新的 Studio Display 显示器。一款搭载 A 系列芯片的低成本 MacBook 正在开发中,意在抢占教育及入门市场。此外,下一代 M6 芯片的研发进度快于预期,可能不久问世。
    • Android Authority 指出,在最新版本的 Google Play 代码中,已经出现了「未验证直接安装」「无法验证应用开发者」以及「需联网验证」等文本字符串。这意味着用户在尝试安装 APK 文件时,虽然仍可安装,但必须经历繁琐确认流程,且系统会强制弹窗提示风险。Google Play 开发者体验及产品管理总监 Matthew Forsyth 证实,将在 Android 系统中引入一个「高阻力」的侧载应用安装流程,目的是「责任分层」。此前,谷歌在去年夏季发布了一项争议性政策,最初计划自 2026 年起,要求所有 Android 开发者(无论是否通过 Play 商店分发)都必须向谷歌注册并验证身份。引发强烈反对后,谷歌妥协,承诺为「高级用户」保留手动安装选项。从此次确认的情况看,该功能已进入准备阶段,普通用户获取第三方应用的门槛将实质性提高。前述验证计划预计将于今年 9 月率先在巴西、印尼、新加坡和泰国等地启动试行,随后逐步推向全球市场。
    • Sherwood 报道,截至 2026 年 1 月初,全球注册的 .ai 域名数量已正式突破 100 万大关,为位于加勒比海的英国海外领地安圭拉带来了巨大的财政红利。据估算,该地区在过去一年仅凭域名相关业务就创收约 7000 万美元。安圭拉是一个人口仅约 1.5 万的岛屿。上世纪 90 年代中期,互联网名称与数字地址分配机构(ICANN)将 .ai 作为国家及地区代码顶级域名(ccTLD)分配给该地。目前,注册一个 .ai 域名的标准费用通常为两年 140 美元,且续费率高达 90%,为当地政府提供了稳定的现金流。此外,通过域名注册商 Namecheap 举行的过期域名拍卖更是获利颇丰。数据显示,域名 you.ai 在去年 9 月以 70 万美元成交;仅在过去一周内,就有 31 个过期域名拍出了总计约 120 万美元的高价。
    • 1 月 24 日,腾讯 QQ 通过官方微博宣布将带回 QQ 秀功能。新版 QQ 秀可以通过上传图片由 AI 生成,在个人主页、聊天界面等位置可以代替头像展示,可以在群聊中与其他人的形象共同生成动画。官方还预告将上线更多经典功能。QQ 秀最早出现在 QQ2000C 中,是一个虚拟形象设计系统。QQ 秀商城的虚拟服饰、场景和人物形象可以用来装扮用户在 PC 端 QQ 中显示的虚拟形象。腾讯曾围绕 QQ 秀推出月费 10 元的「红钻」服务,付费用户可免费使用全场 QQ 秀。2020 年,红钻服务停止续费充值。2021 年 11 月,PC 端 QQ 移除了大部分 QQ 秀展示位。「QQ 秀下线」当时成为微博热搜。
       


    少数派的近期动态

    • 我们正在优化并改进新的首页版式,如果你在使用过程中发现了任何问题或者有改进建议,请通过反馈表单告知我们。首页反馈收集
    • 将设计装进耳朵:少数派×飞傲联名 CD 机盖板设计大赛已经开始啦。了解详情
    • 比第三方 Apps 更好使:盘点 Apple 生态经典好用的原生应用。看看都有啥


    你可能错过的好文章


      老婆是全职宝妈,还完房贷家里还剩几万钱,老婆全买了基金,每天看涨跌,抖音看攻略,还搞了个第三方程序 ”养基宝“。
      我是觉得我家那点钱,就算是利滚利也发不了财,不必折腾(大概率韭菜)。我劝不住,她说我没有理财观念,只会拿死工资。她最近买了 2 本书,看着书名就感觉有点邪乎。

      1. 《穷爸爸,富爸爸》
      2. 《向上社交》

      真是不知道种了那个博主的毒。