2026年1月

在大语言模型(LLM)快速发展的今天,庞大的参数规模带来高昂的推理存储成本和回复时延,已成为实际应用中的关键挑战。特别是在面向人机对话的应用场景,模型推理效率直接影响到对话体验。在推理优化方法中,参数剪枝作为一项经典的模型压缩技术,旨在通过剔除模型中“不重要”的权重来实现参数量的显著降低与计算效率的提升。然而,传统的“剪枝-微调”范式或直接的后训练剪枝方法,往往带来明显的模型性能损失,特别是在硬件友好的半结构化稀疏(如 2:4 稀疏)场景下,该问题尤为突出。这使得应用中的模型效果和推理效率,呈现一个“鱼和熊掌”的两难局面。

面对这项挑战,美团 LongCat Interaction 团队联合上海交通大学听觉认知与计算声学实验室,以及香港科技大学的研究者,共同完成了大模型剪枝方法的创新研究,提出了名为 DenoiseRotator 的新技术。通过首先对参数矩阵进行变换,“浓缩”对结果有影响力的参数,再对重要性最低的参数进行剪枝,实现了大模型剪枝的新范式。DenoiseRotator 能够与现有的剪枝算法快速集成,有效缓解模型压缩带来的性能损失。这一研究成果已在 2025 年的 NeurIPS 会议上发表。

01 动机:传统剪枝的局限性——密集训练与稀疏推理的隐式冲突

传统后训练剪枝的一般流程可概括为:对一个已训练好的 稠密模型,基于某种启发式准则(如权重幅值或 Wanda、SparseGPT 等算法)为每个参数赋予“重要性分数”,随后根据预设的稀疏度阈值,移除分数较低的一部分权重。 尽管流程清晰,该方法存在一个本质局限:其整个剪枝过程建立在 固定不变的参数空间 上,本质上是一种 被动的筛选机制。这进一步凸显了以下深层冲突:

  • 密集训练 的本质是隐式地激励模型 充分利用每一个参数。每个参数都承载了一定的知识或推理能力,并通过参数间的协同工作共同支撑模型的整体表达能力。

  • 稀疏推理 则要求模型仅基于 被保留的部分参数 完成推理任务,并保持高性能。

这种训练目标与推理机制之间的内在不一致,意味着 直接裁剪必然会导致部分知识或推理能力的丢失,从而破坏原有参数间协同工作的平衡,引发性能下降。

02 技术方案:DenoiseRotator——从“被动筛选”到“主动优化”的范式转变

针对上述挑战,我们重新思考剪枝范式:能否在剪枝前先对模型进行 稀疏性引导的优化,使其 自身结构更易于被剪枝?基于此,我们提出了“重要性浓缩”的全新思路,并开发了 DenoiseRotator 框架予以实现。

2.1 核心思想:重要性浓缩

我们的核心目标是在执行剪枝 之前,将原本分散在众多参数上的重要性,尽可能地 集中到一个较小的参数子集中。这样,在后续剪枝过程中,被移除权重所包含的关键信息将大幅减少,从而显著增强剪枝的鲁棒性。
为量化并优化“浓缩”效果,我们引入了 信息熵 作为衡量指标。通过将参数重要性分数归一化为概率分布,其熵值直接反映了重要性的集中程度:熵越低,表明重要性越集中于少数参数。因此,我们的优化目标明确为 最小化归一化重要性分布的熵

2.2 实现机制:可学习的正交变换

DenoiseRotator 通过向 Transformer 层中引入 可学习的正交矩阵,实现重要性分布的熵减与浓缩。

如上图所示,我们在 Transformer 层的特定位置(例如 Attention 模块的 Value 和 Output 投影层前后)插入正交矩阵。这些矩阵对原始权重进行“旋转”变换,在 保持模型输出完全不变(得益于正交变换的计算不变性)的前提下,重新分配参数的重要性。

2.3 关键优势

训练与剪枝解耦:DenoiseRotator 采用 模块化设计,正交矩阵的优化与具体剪枝方法完全独立。我们首先利用校准数据,以最小化重要性熵为目标训练这些正交矩阵;训练完成后,将其合并回原始权重。此时,我们获得了一个“易于剪枝”的优化版稠密模型,可 无缝对接 任何现有剪枝工具(如 SparseGPT、Wanda)进行后续操作。

优化过程稳定:正交变换具有保范数特性,确保在重新分布重要性时,既不会人为引入也不会丢失总重要性量,从而保证了优化过程的稳定性,不影响原始模型性能。

下图直观展示了 DenoiseRotator 的有效性。以 LLaMA-3-8B 模型首层输出投影层为例,经我们的方法变换后,参数重要性分布从分散趋于高度集中,为后续剪枝奠定了坚实基础。

03 实验验证

在前文中,我们介绍了 DenoiseRotator 的核心思想——通过重要性浓缩提升剪枝鲁棒性。那么,这一方法在实际效果上表现如何?我们针对多个主流开源大模型进行了全面评测,涵盖语言建模和零样本推理任务,并与现有剪枝方法进行了对比。

3.1 实验设置:覆盖多模型、多任务、多剪枝方法

为全面评估 DenoiseRotator 的有效性,我们在多样化的实验设置下进行了系统性验证。实验覆盖了从 Mistral-7B、LLaMA3(8B/70B)到 Qwen2.5(7B/14B/32B/72B)等多个主流开源大模型,评测任务包括语言建模(使用 WikiText-2 验证集的困惑度 PPL 作为指标)和零样本推理(在 PIQA、WinoGrande、HellaSwag、ARC-e 和 ARC-c 五个基准任务上评估平均准确率)。在基线方法方面,我们将 DenoiseRotator 与三类剪枝方法结合:经典方法 Magnitude,以及先进方法 Wanda 和 SparseGPT,并在非结构化(50%稀疏)和半结构化(2:4 稀疏)两种稀疏模式下进行对比评测。

3.2 主要结果:语言建模与零样本推理全面提升

下表展示了不同模型在剪枝前后的困惑度(衡量语言建模能力)与零样本任务表现。DenoiseRotator 在所有模型和稀疏模式下均显著降低剪枝造成的性能下降,尤其在 2:4 稀疏下提升更为明显。

3.3 深入分析:熵减如何驱动剪枝鲁棒性?

我们通过消融实验验证了 重要性熵与剪枝效果的直接关联。以 LLaMA3-8B 为例,记录不同训练步数下的熵值变化与模型性能:

熵减少 13%(步数 100)即可带来零样本任务准确率提升 3.66%(66.88%➡70.54%),困惑度降低 19.5%(9.567➡7.701)。进一步优化可继续降低困惑度,验证了 重要性集中度与剪枝鲁棒性的正相关

3.4 部署效率:轻量开销,显著收益

  • 参数增量:每层新增一个(hidden_size, hidden_size)正交矩阵。以 LLaMA3-8B 为例,总参数量增加约 0.5B(占原模型 6.7%)。通过分块对角矩阵(见论文附录)可进一步降低开销,适合资源受限场景。

  • 推理耗时:单层 Transformer 的 2:4 稀疏计算耗时 4.37ms,加入正交矩阵后仅增加 0.32ms(1.24× 加速比 vs 稠密层)。

04 总结

DenoiseRotator 提出了一种创新的剪枝视角:将模型准备(重要性浓缩)与模型压缩(剪枝)两个阶段解耦。通过可学习的正交变换,主动实现参数重要性的浓缩,从而显著提升后续剪枝的鲁棒性。该方法具备 即插即用 的特性,为大规模语言模型的高效、高性能压缩提供了新的技术路径。

项目地址https://github.com/Axel-gu/DenoiseRotator

希望跟大家一起学习交流。如果大家对这项工作感兴趣,欢迎在 GitHub 上 Star、Fork 并参与讨论!

今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数万名开发者的使用。10月底,LongCat 团队开源了 LongCat-Video 视频生成模型,尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上,LongCat 团队针对实际场景中的核心痛点持续优化,正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。

点击查看产品介绍视频

开源地址:

一、技术亮点

1.1 开源 SOTA 拟真度:让虚拟人“活”起来

告别“僵硬”,迎接“鲜活”。还记得以前那些虚拟人吗?只有嘴巴在动,头和身体却像没通电,看起来既尴尬又不自然。全新的 LongCat-Video-Avatar 彻底改变了这一点。它像一位全能导演,不仅指挥嘴型,还同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达,让虚拟人真正“演”了起来。

点击查看效果对比

连“不说话”的时候,都很像人: 真人说话是有停顿和呼吸的。我们通过一种独特的训练方法 Disentangled Unconditional Guidance(解耦无条件引导),让模型明白了“静音”不等于“死机”。现在,哪怕是在说话的间歇,虚拟人也会像你我一样,自然地眨眼、调整坐姿、放松肩膀。

这种技术让 LongCat-Video-Avatar 成为首个同时支持文字、图片、视频三种生成模式的全能选手。从口型精准到全身生动,虚拟人从此有了真正的生命力。

各类训练策略的对比分析

1.2 长时序高质量生成:让视频“稳”下来

上一代 InfiniteTalk 在长视频生成中会出现视觉质量退化的现象,而VAE 的反复编解码是正是视觉质量退化的主要原因。现有方法通常将上一段生成结果解码为像素,再将末尾帧重新编码为潜变量,作为下一段的条件——这一“解码→再编码”循环会持续引入累积误差,导致色彩偏移与细节模糊。

点击查看效果对比

LongCat-Video-Avatar提出了Cross-Chunk Latent Stitching(跨片段隐空间拼接) 训练策略以根本性解决此问题。在训练阶段,我们从同一视频中采样两个连续且部分重叠的片段,在隐空间内直接进行特征替换,让模型学会在潜空间中无缝衔接上下文。在推理时,系统直接将前一段生成的 latent 序列末尾部分作为下一段的 context latent,全程无需解码到像素域。该设计不仅消除 VAE 循环带来的画质损失,还显著提升推理效率,并有效弥合训练与推理之间的流程差异(train-test gap)。实验显示,LongCat-Video-Avatar 在生成5分钟约 5000 帧视频时仍保持稳定色彩与清晰细节

LongCat-Video-Avatar 的整体架构

1.3 商用级一致性:精准锚定角色,让演绎生动自如

点击查看效果对比

为维持长视频中的身份(ID)一致性, InfiniteTalk 采用注入参考帧的方式,但有时会导致色彩偏移(color shift)或动作僵化(“复制-粘贴”效应)。LongCat-Video-Avatar 从以下两方面进行系统升级:

  • 基座升级:视频基础模型迁移到 LongCat-Video,后者在大规模长视频预训练中具备了更强的身份保持与色彩一致性先验。
  • 参考机制创新:我们引入了带位置编码的参考帧注入模式。推理时,用户可通过指定RoPE中的索引位置,灵活控制参考帧在生成块中的插入位置。更重要的是,我们设计了Reference Skip Attention机制,在参考帧相邻的时间步,屏蔽参考帧对注意力计算的直接影响,仅允许其提供身份语义先验,而不主导具体动作生成。这套机制在确保ID一致性的同时,有效抑制了动作的重复与僵化,使长视频既稳定又富有变化。

Reference Skip Attention 机制的示意图

二、模型性能

2.1 客观基准评测

在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等权威公开数据集上的定量评测表明,LongCat-Video-Avatar 在多项核心指标上达到SOTA领先水平。

在 HDTF、CelebV-HQ 与 EMTD 数据集上的定量对比

在衡量唇音同步精度的 Sync-c/Sync-D指标上,LongCat-Video-Avatar 在各个数据集上均取得 SOTA 成绩;在一致性指标方面(FID、FVD、CSIM)也表现优异。

2.2 综合主观评测

为贴近真实用户体验,我们基于 EvalTalker 基准组织了大规模人工评测,从“自然度与真实感”维度对生成视频进行盲测打分(5分制)。

在涵盖商业推广、影视娱乐、新闻时事、日常生活和知识教育五大场景的单人对话测试中,LongCat-Video-Avatar 的综合评分领先于包括 InfiniteTalk、HeyGen、Kling Avatar 2.0 在内的众多主流开源与商业模型。

通过基于EvalTalker基准的严谨人工评测(共492名参与者),LongCat-Video-Avatar在多个细分维度获得显著正向反馈:

  • 静音段表现:绝大多数评审者指出,LongCat-Video-Avatar 在静音段能保持如呼吸、眨眼等自然微动作;
  • 长视频稳定性:在长序列生成中,相较 InfiniteTalk,该模型展现出更优的身份一致性与视觉连续性,有效缓解了长期存在的漂移问题;
  • 动作多样性:得益于创新的参考帧机制,其生成的动作被普遍认为更为丰富、自然,避免了明显的重复或“复制-粘贴”效应;
  • 语言表现:LongCat-Video-Avatar 在中文和英文语言中均优于所有对比方法,体现出稳健的跨语言性能和精准的音画同步效果;
  • 应用场景表现:LongCat-Video-Avatar 在影视娱乐、日常生活和知识教育场景中表现最优,展现出在多样应用场景下的强泛化能力。

三、One More Thing,开源是为了更好的共创

LongCat-Video-Avatar 是我们继 InfiniteTalk 之后,在数字人生成方向上的持续迭代。我们关注开发者在长视频生成中遇到的实际问题——身份漂移、画面卡顿、静音段僵硬,并尝试从模型层面给出改进。

这次开源的不是一个“终极方案”,而是一个进化的、可用的技术基座。它们都基于真实反馈与长期实验,代码和模型均已开放。我们坚持开源,是因为相信工具的价值在迭代中产生,而迭代需要更多人的使用、验证与共建。如果你正在探索数字人相关应用,或对生成技术有想法,欢迎关注我们的项目,更欢迎留下你的反馈。

开源地址:

现在,轮到你来创造“千人千面”的数字世界了。

时光奔流,我们即将与 2025 年挥手作别。感谢这一路上,每一位伙伴的并肩前行与坚定支持。

今年,美团技术团队在持续深耕中涌现出不少值得分享的实践与开源产品&服务。我们从中精选了18篇具有代表性的技术文章,内容涵盖大模型开源、研发技能、产品服务三大方向。值得一提的是,美团 LongCat 团队今年在大模型开源领域成果显著,陆续发布了涵盖基座模型、图像、视频、语音等多个方向的开源产品与工具,期望能够持续推动AI技术分享与生态共建。

希望这些开源的大模型产品、服务及凝结一线技术实战经验的内容,能为大家带来启发和帮助,陪伴同学们在技术前行的道路上扎实成长。愿我们在新年里,继续向下扎根、向上生长,迎着光,奔赴更高、更远的山海。2026,期待继续同行!

大模型开源

01 | 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

9月初,美团正式发布并开源 LongCat-Flash-Chat。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

根据多项基准测试综合评估,作为一款非思考型基础模型,LongCat-Flash-Chat 在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。并且,因为面向推理效率的设计和创新,LongCat-Flash-Chat 具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。

目前,已在 Github、Hugging Face 平台同步开源,同时你也可以访问官网 https://longcat.ai/,与 LongCat-Flash-Chat 开启对话。(阅读全文

开源地址Hugging Face | Github

02 | LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

9月,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平。

同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上, LongCat-Flash-Thinking 具备更显著的优势。目前, 该模型已在HuggingFace、Github全面开源。(阅读全文

开源地址Hugging Face | Github

03 | LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

要让人工智能真正理解、预测甚至重构真实世界,“世界模型”(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

基于这一关键目标,10月,美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。

作为一款视频生成模型,LongCat-Video 凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。(阅读全文

开源地址GitHub | Hugging Face | Project Page

04 | LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代

11月,LongCat-Flash-Omni 正式发布并开源。LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源先进水平,同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。模型已同步开源,欢迎体验。(阅读全文

开源地址Hugging Face | Github

05 | 美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 “听不懂” 语音,车载助手 “说” 得像机器人,实时翻译延迟卡半秒。深究根源,全在 “语音 Token 化”:作为拆分语音为 Speech LLM “离散单元” 的关键步骤,传统方案始终没平衡好 —— 要么缺语义、要么丢声学、要么延迟高,刚好卡了 Speech LLM 落地的 “死结”。

针对 Speech LLM 落地中的音频处理难题,11月,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实现突破。(阅读全文

开源地址Github | Hugging Face

06 | 美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA

12月初,美团发布 LongCat-Image 图像生成模型。当前 AI 图像生成技术需求旺盛,但行业陷入 “两难困境”:闭源大模型性能强劲但无法自行部署或二次定制开发,开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点,制约商业创作与技术普惠。

为此,美团 LongCat 团队正式发布并开源 LongCat-Image 模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以 6B 参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了 “高性能、低门槛、全开放” 的全新选择。(阅读全文

开源地址Hugging Face | GitHub

07 | 美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现

今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使用。10月底,LongCat 团队开源了 LongCat-Video 视频生成模型,尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上,LongCat 团队针对实际场景中的核心痛点持续优化,12月正式发布并开源 SOTA 级虚拟人视频生成模型 —— LongCat-Video-Avatar。

该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。(阅读全文

开源地址GitHub | Hugging Face | Project

研发技能

08 | MTGR:美团外卖生成式推荐Scaling Law落地实践

美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近2年迭代最大收益,且于2025年4月底在外卖推荐场景全量。本文系相关工作的实践与经验总结,希望能给从事相关方向研究的同学带来一些帮助。(阅读全文

09 | JDK高版本特性总结与ZGC实践

美团信息安全技术团队核心服务升级JDK 17后,性能与稳定性大幅提升,机器成本降低了10%。高版本JDK与ZGC技术令人惊艳,且Java AI SDK最低支持JDK 17。本文总结了JDK 17的主要特性,然后重点分享了JDK 17+ZGC在安全领域的一些实践,希望能对大家有所帮助或启发。(阅读全文

10 | 鸿蒙应用签名实操及机制探究

华为鸿蒙单框架操作系统HarmonyOS NEXT已于2024年10月23日正式发布Release版。HarmonyOSNEXT仅支持鸿蒙原生应用,不再兼容安卓。本文对鸿蒙公开资料进行了深入分析和解读,梳理了鸿蒙单框架应用的签名机制,拆解每一步的实操过程和背后的实现原理,并对源码分析整理签名的校验机制。从中管中窥豹,探究鸿蒙系统的安全设计思路,给从事鸿蒙研发的同学提供一些借鉴。(阅读全文

11 | 预测技术在美团弹性伸缩场景的探索与应用

管理企业大规模服务的弹性伸缩场景中,往往会面临着两个挑战:第一个挑战是精准的负载预测,由于应用实例的启动需要一定预热时间,被动响应式伸缩会在一段时间内影响服务质量;第二个挑战是高效的资源分配,即在保障服务质量的同时控制资源成本。为了解决这些挑战,美团与中国人民大学信息学院柴云鹏教授团队展开了“预测技术在弹性伸缩场景的应用”科研合作,相关论文《PASS: Predictive Auto-Scaling System for Large-scale Enterprise Web Applications》在具有国际影响力的会议The Web Conference 2024(CCF-A类会议)上作为Research Full Paper发表。(阅读全文

12 | 从0到1建设美团数据库容量评估系统

美团数据库团队推出了数据库容量评估系统,旨在解决数据库容量评估与变更风险防控等领域难题。本文介绍了系统架构和主要功能:系统使用线上流量在沙盒环境回放验证变更安全,结合倍速回放技术探测集群性能瓶颈,构建容量运营体系实现集群容量观测与治理闭环。系统具备数据操作安全、结果真实可靠、灵活高效赋能等特点,有效提升数据库稳定性与资源利用率。(阅读全文

13 | AI Coding与单元测试的协同进化:从验证到驱动

AI生成代码质量难以把控!本文分享来自美团的技术实践,三大策略破解AI编程痛点。单测快速验证逻辑正确性,安全网保护存量代码演进,TDD模式精准传递需求。告别「看起来没问题」的错觉,构建AI时代的代码质量保障体系。(阅读全文

14 | LongCat-Flash:如何使用SGLang部署美团Agentic模型

SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化,并产出了一篇技术博客《LongCat-Flash: Deploying Meituan’s Agentic Model with SGLang》,文章发表后,得到了很多技术同学的认可,因此我们将原文翻译出来,并添加了一些背景知识,希望更多同学能够从LongCat-Flash的系统优化中获益。(阅读全文

15 | 可信实验白皮书系列:从0到1的方法论与实践指南

增长与优化是企业永恒的主题。面对未知的策略价值,数据驱动的AB实验已经成为互联网企业在策略验证、产品迭代、算法优化、风险控制等方向必备的工具。越来越多的岗位,如数据科学家、算法工程师、产品经理以及运营人员等,要求候选人了解AB实验相关知识。然而,许多从业者由于缺乏有效的学习渠道,对AB实验的理解仍停留在初级阶段,甚至存在一些误解。我们希望通过系统性地分享和交流AB实验的理论基础、基本流程、核心要素及其应用优势,能够帮助更多相关人员深入了解实验,提升实验文化的普及度,最终辅助企业在更多领域做出精确数据驱动决策。

除了广泛传播实验文化外,该白皮书在深度上也可给实验研究人员,提供复杂业务制约下进行可信实验设计与科学分析评估的参考经验和启发。从美团履约技术团队、美团外卖业务的实践来看,实验者常常面临多种复杂的实验制约和难题,例如,在美团履约业务中,实验往往需要应对小样本、溢出效应(即实验单元间互相干扰)以及避免引发公平性风险等多重约束,需设计科学复杂的实验方案以克服相应挑战。通过撰写白皮书,我们系统性地总结和分享应对复杂实验约束的研究经验,进而能够促进实验技术的传播与升级,推动实验科学持续进步。

本白皮书以AB实验为中心,涵盖AB实验概述与价值、实验方法基础原理与案例剖析以及配套SDK代码分析等,内容丰富且易于理解和应用。适合从事AB实验研究的数据科学家、系统开发人员,以及需要实验驱动策略决策的业务和产研团队,同时也适合对数据驱动增长和数据科学等领域感兴趣的读者。(阅读全文

产品服务

16 | 无需代码!美团 NoCode 像聊天一样轻松搭建你的专属网站

这是一款由美团技术团队打造的 AI 编程类产品——NoCode,可以像聊天一样轻松搭建你的专属网站、游戏、各种小工具等等,当然还有更多的隐藏功能等你发现,文末我们还准备了2项互动奖励,期待跟大家一起,开启全新的 AI 编程之旅。(阅读全文

17 | 美团首款 AI IDE 产品 CatPaw 开启公测

Meituan CatPaw (以下统一使用“CatPaw”)是美团推出的 AI IDE,以 Agent & 人协作为核心,通过 Agent 智能驱动编程,辅以代码补全、项目预览调试等功能,结合美团自研的基于编程场景特训的 LongCat 模型,并支持多种模型混合调用,让编码过程更专注,项目交付更高效!

CatPaw 早在 2023 年就在美团内部以编辑器插件形态正式上线,此次完成全新升级后进行公开测试。目前在美团内部研发渗透率超 95%,增量代码 AI 生成率超 50%。(阅读全文

18 | 美团 LongCat 上线 AI 生图!精准高效,AI 创作不设限

美团 LongCat 全新上线 AI 生图功能,该功能基于LongCat系列模型「LongCat-Image」打造而成。不仅在文生图任务中实现了“快、真、准” :出图快速响应、达到摄影棚拍摄质感、中文渲染精准度高;更在图像编辑任务上做到了精准便捷,无需复杂指令,可以用自然语言对图像进行二次编辑。

无论是追求高效出图的普通用户,还是需要精准落地创意的专业创作者,LongCat 都以 “轻量化模型 + 流畅体验” ,让 AI 生图真正成为人人可用的创作工具。目前,AI 生图功能已在LongCat APP和 https://longcat.ai/ 同步上线,轻松解锁高效创作新方式。(阅读全文

AAAI 是人工智能领域顶级的国际学术会议,本文精选了美团技术团队被收录的 8 篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,希望这些论文能对大家有所帮助或启发。

01 Promoting Efficient Reasoning with Verifiable Stepwise Reward

论文类型:Poster

论文下载PDF

论文简介:大推理模型通过强化学习提升了链式推理能力,但输出冗长,导致推理开销增大和用户体验下降,即「过度思考」问题。针对这一现象,本文提出了可验证的过程奖励机制(VSRM),通过奖励有效步骤、惩戒无效步骤,优化模型推理过程。VSRM 首先通过特殊 token 划分推理步骤,并结合三条规则保证每个步骤的内容可读性。各步骤通过插入 token 生成子轨迹,模型根据每步前后正确率变化分配步骤级奖励。为避免奖励信号稀疏,引入前瞻窗口机制,通过折扣因子传播未来正确率变化,使奖励更密集。

实验表明,VSRM 能大幅缩减输出长度,且在多种数学 benchmark 和不同模型、算法下保持甚至提升性能。消融实验证明前瞻窗口机制有效,显式长度惩罚对 VSRM 无益。VSRM 机制可与各类强化学习算法无缝结合,有效抑制无效步骤,鼓励有效推理,是解决过度思考问题、提升模型推理效率的有效方法。

02 Scaling and Transferability of Annealing Strategies in Large Language Model Training

论文类型:Long Paper

论文下载PDF

论文简介:本文深入研究了大型语言模型训练过程中退火策略(Annealing Strategies)对模型性能的影响,提出了一个新的缩放法则公式来预测不同训练配置下的损失曲线。研究发现,即使在相同的训练 token 数量和模型规模下,不同的批次大小(batch size)和学习率调度器也会导致显著不同的训练曲线。为此,作者提出了一个改进的缩放法则公式:

其中 S 表示学习率对训练步数的积分(前向效应),M 表示动量对训练步数的积分(退火动量项),N 代表模型规模。

论文的核心贡献包括:(1) 证明在特定情况下,训练步数比训练 token 数更适合作为追踪损失曲线的指标;(2) 发现最优退火比率(Ropt)随总训练步数增加而减小,遵循幂律关系;(3) 验证了最优退火比率在训练集和验证集上保持一致;(4) 通过在 Dense 模型和 MoE(Mixture-of-Experts)模型上的大量实验,证明小模型可以作为优化大模型训练动态的可靠代理。该研究为大规模语言模型的训练提供了更精确的理论指导,有助于优化训练效率和模型性能。

03 From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling

论文类型:Long Paper (Oral)

论文下载PDF

论文简介:本文系统研究了过程奖励模型(Process Reward Models, PRMs)在提升大型语言模型推理能力方面的作用,特别关注其从数学推理到代码生成任务的跨域泛化能力。研究从训练方法、可扩展性和泛化能力等多个维度对 PRMs 进行了深入分析。

论文的核心发现包括:
- 训练计算资源的影响:研究发现随着 PRM 模型规模的增大,性能提升呈现边际递减效应,强调了在模型规模和计算成本之间寻找平衡的重要性。同时,训练数据集的多样性显著影响 PRM 性能,作者提出的 ASLAF(自动步骤级标注与过滤)方法在多个基准测试中表现优异。
- 测试时扩展策略:论文评估了 Best-of-N 采样、束搜索、蒙特卡洛树搜索(MCTS)和多数投票等多种搜索策略。结果表明,在计算资源充足时 MCTS 效果最佳,而在资源受限情况下 Best-of-N 采样是实用的替代方案。
- 跨域泛化能力:令人惊讶的是,在数学数据集上训练的 PRMs 在代码生成任务上的表现与专门针对代码训练的模型相当,展现出强大的跨域适应能力。通过梯度分析,研究还发现 PRMs 倾向于选择具有相似底层推理模式的响应,这为理解其优化机制提供了新视角。该研究为优化大规模语言模型的训练和部署提供了重要的理论指导和实践参考。

04 Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

论文类型:Poster

论文下载PDF

论文简介:本文对强化学习(RL)中的问题采样策略进行了系统性研究,当前主流采样策略大多直接依赖单步通过率(Pass Rate) 作为问题难度指标,存在 1)对问题难度的估计不够稳定;2)无法有效捕捉模型能力与问题难度的对齐关系的问题。

针对这些问题,本文提出了 CDAS(Competence-Difficulty Alignment Sampling):一种将模型能力与问题难度显式建模并对齐的动态采样方法。CDAS 不依赖单步通过率,而是通过累积历史表现差异来构建更稳定的难度估计;同时定义模型能力,并以不动点系统确保两者在训练过程中共同收敛。基于能力—难度差值构建对齐指标,再通过对称采样策略,选取最匹配模型当前能力的问题,从而提升有效梯度比例与训练效率。CDAS 在数学推理和代码生成场景中均通过 RL 训练 验证,结果显示 CDAS 显著提升了采样效率与模型性能,击败了多种主流采样策略。

05 ViType: High-Fidelity Visual Text Rendering via Glyph-Aware Multimodal Diffusion

论文类型:Oral

论文下载PDF

论文简介:随着文生图模型在电商营销等领域的广泛应用,视觉文本渲染的准确性已成为制约生成质量的核心瓶颈。现有模型因缺乏字形级理解能力,难以精确刻画多语言字符结构,导致海报、商品图等商业场景中文字乱码、字形失真等问题频发,严重阻碍了 AIGC 在智能设计中的实际落地。

针对这一关键挑战,我们提出 ViType 三阶段对齐增强框架:首先通过视觉问答机制实现文本-字形显式对齐,将字符视觉结构注入大语言模型语义空间;其次创新性地将预对齐字形嵌入与文本 token 同步输入多模态扩散 Transformer,通过联合训练建立跨模态特征协同;最后基于高质量图文对进行美学精调,确保生成图像的版式和谐与视觉美感。该框架使字符准确率提升 15%以上,为电商海报、营销物料等高精度视觉内容创作提供了可靠的技术支撑。

06 DSCF: Dual-Source Counterfactual Fusion for High-Dimensional Combinatorial Interventions

论文类型:Poster

论文下载PDF

论文简介:在个性化推荐、数字营销和医疗健康等领域,基于观测数据预测反事实结果对科学决策至关重要。在这些应用场景中,决策过程往往涉及高维组合干预策略,例如多渠道资源捆绑投放或产品组合推荐。面向这类场景,无论是历史策略的效果评估还是新策略的优化,都需要模型能够对历史数据中很少出现甚至从未出现过的策略组合效果进行准确预测。此外,观测数据中源于历史分配策略和倾向性投放的选择偏差会进一步加剧数据稀疏问题,从而影响反事实推断的准确性。

为此,本文提出双源反事实融合模型(Dual-Source Counterfactual Fusion,DSCF),该可扩展框架通过双专家混合架构联合建模观测数据和代理反事实样本,并采用领域引导融合机制,在有效平衡偏差消除与信息多样性的同时,还能自适应地泛化到反事实输入场景。在合成和半合成数据集上的大量实验表明,DSCF 框架能够显著提升高维组合干预场景下的预测准确性,并在不同情境下展现出优异的鲁棒性表现。

07 Compress-then-Rank: Faster and Better Listwise Reranking with Large Language Models via Ranking-Aware Passage Compression

论文类型:Poster

论文下载PDF

论文简介:基于大型语言模型(LLMs)的列表重排序(listwise reranking)已经成为最先进的方法,在段落重排序任务中不断创下新的性能基准。然而,其实际应用面临两个关键挑战:处理长序列时高昂的计算开销和高延迟,以及由于“迷失在中间”等现象导致的长上下文性能下降。

为了解决这些问题,我们提出了一种高效的框架压缩后排序(Compress-then-Rank, C2R),该框架不是直接对原始段落进行列表重排序,而是对其紧凑的多向量代理进行操作。这些代理可以预先计算并缓存,适用于语料库中的所有段落。C2R 的有效性依赖于三项关键创新。首先,压缩模型通过结合文本恢复和文本延续目标进行预训练,生成高保真的压缩向量序列,从而减轻了单向量方法中常见的语义损失问题。其次,一种新颖的输入方案将每个序数索引的嵌入添加到其对应的压缩向量序列前,这不仅划定了段落边界,还引导重排序 LLM 生成排序列表。最后,压缩模型和重排序模型通过联合优化,使压缩过程对排序目标具有排序感知能力。在主要重排序基准上的广泛实验表明,C2R 在提供显著加速的同时,能够实现与全文重排序方法相当甚至更优的排序性能。

08 Multi-Aspect Cross-modal Quantization for Generative Recommendation

论文类型:Oral

论文下载PDF

论文简介:本文提出一种基于多模态融合的生成式推荐框架(MACRec),旨在解决现有生成式推荐方法因模态信息利用不足和跨模态交互缺失导致的性能瓶颈。

针对文本与视觉模态的量化难题,MACRec 引入跨模态量化与多角度对齐机制,通过两阶段技术路线实现优化:1)跨模态残差量化:将对比学习融入分层量化过程,生成兼具语义层次性与模态兼容性的物品标识符,显著降低多模态表征冲突;2)跨模态协同对齐:通过显式-隐式协同对齐策略,分别建模文本与视觉模态的共享特征和互补特征,增强生成式推荐的多模态理解能力。在亚马逊电商推荐数据集上的实验结果表明,MACRec 相较基准模型在推荐性能上有显著提升;各模态的码本分布更均衡、利用率更低,充分验证了跨模态量化与对齐机制在提升生成式推荐有效性方面的优势。

1 背景

近来,随着 App 的功能愈发复杂,UI(用户界面)的交互逻辑也随之多样化。为了保障用户体验,针对 UI 的功能测试一直是质量保障中的重要环节。传统的 UI 功能测试往往依赖于人工编写的测试脚本或规则体系:通过手动编写校验逻辑来验证交互是否正确。这种方式虽然精确,但成本高昂,维护困难。

对美团而言, 一个 App 就有可能包含上千种 UI 界面、数万个交互操作。随着业务快速迭代、界面频繁调整、底层平台(如 Android、iOS、HarmonyOS NEXT)的更新,基于规则的测试脚本常常失效。每当脚本失效,测试工程师都需要花费大量时间重新绑定元素、修复规则脚本,极大地提升了测试自动化的开销。此外,当下的 UI 功能缺陷通常并不表现为崩溃,而是更复杂的响应逻辑异常:例如图 1 中点击“全部已读”却清空了消息列表等。这类问题严重影响用户体验,但难以通过简单规则概括,限制了传统 UI 测试自动化的覆盖率与效率。

图 1 - UI 功能响应异常示例

考虑到 UI 功能缺陷虽表现各异,但共性是 App 的响应偏离用户预期。因此,若能实现对用户预期的模拟,就能以此作为测试准则(Oracle)、自动化的检测 UI 功能性异常。即无需人工逐页面编写规则,从而大幅提升自动化的程度与测试覆盖率。由于大语言模型(LLM)经过海量通用知识训练,具备一定的模拟人类常识与预期的能力,恰好契合模拟用户预期的需求,且无需针对特定应用 / 功能单独适配,天然具备泛化性。因此,通过分析 UI 功能缺陷的共性,我们提出了一个全新的思路:能否基于大模型理解“人类对 UI 交互的常识预期”,并以此自动判断交互是否正确?

基于这一理念,我们与复旦大学计算与智能创新学院 周扬帆教授团队 展开联合研究,设计并实现了 KuiTest —— 一套基于 大众通识无规则(Rule-free)UI 功能测试系统。KuiTest 能够像人一样,理解按钮、图标等交互组件的含义,预测点击后的合理结果,并据此自动校验实际界面反馈是否符合预期,从而在无需手工脚本的情况下完成功能测试。该工作已在美团 App 的多个业务中落地应用,并产出论文《KuiTest: Leveraging Knowledge in the Wild as GUI Testing Oracle for Mobile Apps》,已被国际顶级软件工程会议 ICSE 2025(CCF-A 类会议)的 Software In Practice Track(软件工程应用实践)收录。

2. 设计思路与实现过程

2.1 总体流程

KuiTest 的核心是检查 UI 交互后的响应是否符合一般用户的 常识性预期,其中:识别交互组件的功能和常识性预期生成是需要两项关键能力。考虑到通用大模型具备图文理解能力且从海量的训练数据中习得了常识性推理能力,因此天然地适合模拟大众的认知和交互预期。至此,KuiTest 的核心挑战是提升大模型在执行 UI 功能测试的 性能和可靠性。考虑到通用大模型通常并未接受过 UI 测试领域数据的训练,因此缺少 UI 认知与测试的经验,直接让它识别 UI 功能和缺陷是十分困难的。所以我们借鉴人工测试的操作流程,将测试流程拆分以降低 LLM 的任务难度:

  • 可交互组件功能识别:理解每个可交互组件(如按钮、图标)的功能含义、预测交互后的响应。
  • 交互响应验证:在执行交互后,验证界面响应是否符合预期。

图 2 - KuiTest 工作原理

具体来说,如上图 2 所示,在测试开始时,首先选择需要交互的组件,KuiTest 会基于 GUI 截图分析和组件库匹配获取该组件的功能,并预测与之交互后的 UI 响应;随后执行交互,根据组件的预期功能以及交互后的页面信息判断实际响应是否符合预期。

2.2 UI 组件功能识别

图 3 - 可交互组件功能识别与 UI 响应预测

为了提升大模型预测 UI 组件功能的可靠性,KuiTest 整合了多种 UI 页面相关信息输入:首先,我们获取结构化组件树并结合 Vision-UI 模型[1]从截图中识别所有可交互组件,再用 SoM(Set-of-Mark)策略[2]为每个组件添加 bounding box 标记并分配唯一 ID,形成带标记的 UI 截图,让大模型能快速分辨图中存在的 UI 组件。接着,针对有文本的组件,通过 OCR 提取文字内容并按“组件 ID - 文本”结构化整理;针对无文本的图标类组件,则利用 CLIP(Contrastive Language–Image Pre-training)模型[3]从积累的图标库(含历史识别失败图标及人工标注的功能描述)中检索相似图标,如果存在相似图标,则将库中图标的功能信息补充至输入来辅助大模型理解组件。最后,将上述所有信息整合进 Prompt,让大模型识别指定组件的功能,并预测交互后 UI 界面的响应。这一过程有效缓解了通用多模态大模型 UI 视觉信息理解薄弱的瓶颈,并为后续交互验证提供 Oracle。

2.3 交互响应验证

图 4 - 交互响应结果验证过程与 Prompt

交互后响应验证是 KuiTest 判断 UI 功能是否存在 Bug 的核心环节,流程分为状态比对和 LLM 决策两步:KuiTest 在模拟用户交互后,先通过像素对比判断交互前后 UI 是否有视觉变化,若无变化则直接标记为 “UI 交互无响应”;若有变化,则让多模态模型判断实际 UI 响应是否符合前述预测。至此,KuiTest 完成了从 UI 功能语义测试到通用推理能力任务的转换,既规避了传统基于规则测试繁杂的开发和维护成本,也提升了大模型在 UI 测试领域的决策的可靠性,降低误报率。

3. 实验测试

KuiTest 的实验设计以验证其对解决工业级 UI 功能的测试能力为核心,在美团实际场景中筛选真实数据构造数据集,并且设计针对性基线对比方案。在验证技术有效性的同时为业务落地提供数据支撑,下文将继续介绍实验设计、设置以及结果分析。

3.1 实验设计

实验围绕三个关键问题(RQ)进行,目标是验证 KuiTest 设计的有效性与合理性,以及是否满足工业落地要求。针对 LLM 在 UI 理解领域能力不足的问题,设置 RQ1 从误报率和成本的角度验证任务分解(拆分为 “组件功能识别 + 交互后响应验证”)的综合性能。此外,设置 RQ2 评估多模态输入 + 图标库的方案是否能提高 LLM 的组件识别能力。最后,针对工业场景对 “高召回、低误报” 的刚需,设置 RQ3 验证 KuiTest 在美团 App 中的落地能力,重点评估决定缺陷覆盖度的召回率以及直接影响人工排查成本的误报率。

3.2 实验数据与对照方法

实验使用的基准数据集自美团的核心业务线(外卖、酒店、旅行等),这些业务线的 UI 风格、交互规则均有差异,因此具备对真实的工业测试场景的代表性。具体而言,RQ1 数据集含 150 个 UI 交互操作(25 个历史 Bug+125 个正常用例),bug 比例 16.7%,对应新功能测试场景;RQ2 数据集涵盖 250 个可交互 UI 组件(含文本与无文本类型),确保组件多样性;RQ3 数据集含 100 个真实 UI 页面(4664 个组件、150 个注入 Bug),Bug 占比仅 3.2%,与工业场景 Bug 稀疏的实际情况一致。

图 5 - 任务分解的示意与基线方法

我们为各实验设置了基线方法作为对照:RQ1 设无分解(直接让大模型判断)与三步分解(单独提取交互后页面语义)对照,前者验证是否需要分解,后者验证分解步数合理性;RQ2 设纯 LLM(仅截图)、图片 + 文本(无图标库)、SoM + 文本(无图标库)对照,分别验证文本信息、组件标记以及图标库的价值,排除单一变量干扰;RQ3 虽无外部工具对照,但通过覆盖美团内 10 种业务线,以验证 KuiTest 的现实泛化性。

3.3 实验结果

RQ1:任务分解的合理性

任务分解对比结果显示,有分解的方案比无分解的方案在准确率和召回率上都有明显提高,并且 KuiTest 的两步分解方案(组件识别 + 响应验证)表现最优:平均准确率 86%、召回率 85%。

这一结果印证了任务分解合理性。对于三步分解的方案效果会略差于两步分解的结果,我们分析发现三步分解额外语义提取步骤,虽能提升页面类型理解,但会让 LLM 忽略图标颜色变化等细节,导致非跳转类 UI 功能 Bug 漏检(如点击收藏按钮后按钮应该从空心变为实心),且增加计算成本。这说明分解并非步骤越多越好,需贴合大模型能力边界,找到可靠性和效率平衡点,而两步分解恰好成为实现这一目标的最优解。

RQ2:组件功能识别的有效性

组件功能识别结果显示,KuiTest 方案的平均识别准确率达 95.5%,其中文本组件准确率 96%,无文本图标准确率 95%;而对照方案中,纯 LLM 的无文本图标准确率仅 13%,图片 + 文本和 SoM + 文本的方案准确率也未突破 20%。

这一数据表明对 UI 图像进行标记以及对 UI 组件语义信息的额外补充,能够显著提高 LLM 的 UI 组件功能识别能力。LLM 视觉理解能力薄弱,纯截图输入无法识别无文本图标,而 OCR 文本 + 组件标记能补充组件的文本语义,提升文本组件识别准确率。借助图标库为无文本组件补充功能描述,直接将其识别准确率从 13% 提升至 95%。并且这一图标库并不是全量的,说明仅通过业务线常用图标即可覆盖大部分场景,兼顾准确性与成本。

RQ3:对于真实 UI 功能异常识别的有效性

在美团 10 大业务线的真实场景测试中,KuiTest 整体召回率 86%、精确率 71%、误报率 1.2%,且各业务线表现稳定。这些实验结果表明 KuiTest 具备实际落地能力。86% 的召回率意味着能覆盖绝大多数真实 UI 功能 bug,避免漏检关键缺陷。1.2% 的误报率有效避免导致测试工程师进行无效排查,大幅降低人工成本。71% 的精确率虽看似不高,但因实验中 Bug 占比仅 3.2%(与真实场景一致),在 Bug 稀疏环境下已属优秀。实验结果证明了 KuiTest 在真实测试场景中能平衡覆盖度与准确性。

4. 应用效果

目前,KuiTest 已在美团的多类业务场景中落地应用,过去 6 个月有 20 个业务方向使用,总执行 21 万+Cases、8000 多个 Jobs,近期周均触发 5000 多个 Cases;在多个实测项目如鸿蒙适配、神会员地理传参巡检、酒店商家多语言适配等,KuiTest 发现了百余例有效的 UI 功能缺陷。

4.1 HarmonyOS NEXT 平台遍历

传统的 GUI 测试脚本的设计依赖于 App 的 UI 逻辑,但是不同操作系统上同一 App 的有所差异,这种差异会导致在一个系统上设计的脚本在另一个系统上失效,因此使得跨平台的测试十分困难,需要测试人员手动调整甚至重新设计测试脚本,适配成本较大。

美团 App 在 Android/iOS 平台的测试脚本较为完善,但是在 HarmonyOS NEXT 平台的测试脚本仍在完善之中,大量页面仍处于未测试状态。因此,KuiTest 被率先部署于该平台的稳定性巡检中,根据指定业务起始页面,自动地进行跨页面遍历,识别并验证崩溃、报错、功能不符合预期的情况,以减少重新设计测试脚本的成本。

项目中覆盖首批适配的 3 项业务,项目交付周期总体累计运行 1230 小时、共 4 万+个自动化测试用例,发现 34 个有效异常

图 6 - 发现的缺陷举例

4.2 大前端回归巡检

由于美团 App 的更新速度十分快速,因此每周都需要进行回归巡检。传统的测试脚本的方法由于人力消耗过大,往往只能覆盖 App 中的核心业务区域,但是其他区域的 Bug 实际也会影响用户体验。而 KuiTest 能够测试一张页面的所有可交互组件,以一种低成本的方式提高测试覆盖率。因此,我们将 KuiTest 运用在美团的大前端回归巡检当中:截至目前,KuiTest 已经超一年稳定运行,累计检测出了 140+有效异常。

5. 认知与展望

KuiTest 作为无规则的移动应用 GUI 功能测试工具,标志着软件测试领域向智能化、自动化方向迈出的探索一步。该工具通过合理的任务拆解与多模态 UI 组件功能识别将大模型通识作为测试预言,利用其广泛的知识模拟用户期望,成功突破了传统基于规则测试方法的局限性,切实提升了 LLM 在 GUI 测试场景中的可靠性和实用性。

当前 KuiTest 主要聚焦于单步交互的功能验证,这是出于对测试可靠性和效率的权衡考虑。然而,向多步交互场景扩展是一个自然且必要的发展趋势,真实用户场景中存在大量需要多步操作才能触发的复杂功能 bug,例如,在执行操作序列“查看订单列表 → 点击 “待付款” 订单 → 选择退款 → 确认退款原因”时发现点击“待付款”后,页面却显示“退款订单”。

未来研究应当探索如何将测试能力扩展到长链路交互场景。针对长链路 Bug 分析,需要建立状态追踪机制来记录每一步交互后的 UI 状态变化,通过对比预期状态与实际状态的差异来识别异常节点,同时利用 LLM 的推理能力建立操作步骤之间的因果关系链,当检测到功能异常时能够回溯定位是哪一步操作导致了错误,这种因果推断能力对于复杂交互序列中的 Bug 定位至关重要。同时,可以引入基于历史 Bug 数据的学习机制, 分析过往发现的长链路 Bug 模式,自动生成类似的高风险测试路径,优先探索容易出现问题的操作序列组合。这种智能化的路径生成不仅能提高测试效率,还能显著提升对复杂功能 Bug 的检测能力。

6. 合作方简介

复旦大学周扬帆教授团队致力于新型软件系统的性能优化与故障排查研究,近年团队在软件系统领域的重要会议如 OSDI、SOSP、ICSE、FSE 等发表了多篇高影响力论文。最近,该团队以解决 UI 自动化测试中的复杂问题为核心,将大模型应用于 UI 功能认知与 UI 交互规划,以一系列创新方法显著提高了解决方案的适应性和稳定性。团队注重科研成果的实际应用,积极与企业及相关机构合作,共建实用工具和系统,推动研究成果的落地,助力合作伙伴提升技术能力并实现业务价值。

注释

  • [1] vision-ui 模型:美团视觉 UI 分析工具
  • [2] SoM(Set-of-Mark)策略:Yang J, Zhang H, Li F, et al. Set-of-mark prompting unleashes extraordinary visual grounding in gpt-4v [J]. arXiv preprint arXiv: 2310.11441, 2023.
  • [3] CLIP(Contrastive Language–Image Pre-training)模型:Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision [C]//International conference on machine learning. PMLR, 2021: 8748-8763.

2026 年,AI 真正“下地干活”的第一战,被阿里打响了。

1 月 15 日,在杭州阿里园区举行的千问 App 发布会上,阿里巴巴集团总裁吴嘉做了一次并不复杂、却很直观的演示:他用千问给现场嘉宾点了 40 杯“伯牙绝弦”奶茶。整个过程没有人工介入。千问自行匹配附近奶茶店,下单,并调用支付宝完成支付。没一会儿,淘宝闪购的骑手把奶茶送进会场。发布会的气氛,也在这一刻被彻底点燃。

事后,有杭州的网友恍然大悟“怪不得刚刚西溪附近叫不动外卖!”

image

相比 PPT 上的参数和模型指标,这个场景更容易被理解:AI 第一次在公开场合,完整地替人把一件现实中的事情办成了。

在这次更新中,阿里将千问定位成 “每个人的生活助手”。路径也很明确:不从新场景做起,而是直接接入阿里现有的业务体系,让 AI 先把眼前的事干好。

在 日常生活 层面,千问首批接入了 淘宝闪购、支付宝、淘宝、飞猪和高德 五大业务,可以一句话 点外卖、买东西、订机票、订酒店、查路线,这些原本需要在多个 App 之间来回切换的操作,现在可以交给一句话来完成。

image

在 “办事” 这一层,千问的能力被进一步拉长。它开始尝试处理更复杂的任务,比如打电话订餐厅、整理调研资料、处理财务文件、辅助搭建网站等。这类功能目前仍处于定向邀测阶段,

吴嘉在发布会上表示:“AI 在拥有超强大脑之后,正在长出能够触达真实世界的手和脚,在生活中实实在在地替用户‘干活’。 千问的优势在于‘最强的 Qwen 模型’与‘阿里最完整的商业生态’的结合。AI 办事的时代才刚刚开始,我们会持续探索,把千问打造成真正有用的个人 AI 助手。”

自千问上线两个月以来,月度活跃用户已突破 1 亿。 吴嘉认为,随着 AI coding、全模态理解以及超长上下文等关键能力逐步成熟,AI 正在走出手机屏幕,进入更复杂、也更真实的生产与生活场景。

把阿里折叠进千问中, 通过统一的 AI 入口,让千问拥有 400 余项办事能力,在 生活、办公、教育 等方面全场景覆盖,让千问成为 AI 时代的超级应用入口,这正是阿里的野心。

办事之上如何理解需求,才能判断是不是一个合格的助手

伴随着模型能力的跃迁,思考让 Agent 做事,已经是近几年行业的集体共识。但 干的活好不好,这才是能否放心 AI 当助手的关键。

阿里此次的更新方向,既在意料之中,又有些意料之外的惊喜,这个惊喜的落脚点就在于 对需求的理解

在对千问用户数据观察中,用户主动询问商品推荐的月环比高达 300%,这引起了阿里的注意,利用好千问与淘宝的链接,让千问拥有更可用的商品推荐能力,这确实踩中了不少人的真实需求,也成为千问区别其他通用 Agent 的功能独特切入点。

image

这不仅发挥了阿里在电商上的传统优势,也让庞大的商品供给和相对成熟的推荐体系真正被用起来。用户只需一句话,就能完成从商品推荐到下单的完整流程。其背后,是 阿里各业务接口的打通和协同调用,用起来足够顺,也足够省事。

但更令人惊喜的是 对决策层面的关注,这也是 模型深入理解真实需求的表现,如何调用工具做更好的决策,体现了阿里强大的整合能力。

比如,现场展示了要给老人购买一款家庭扫地机,并且家里还养了一只猫,预算在 2000-4000 左右。千问在综合产品的价格与能力之上,还进一步老人的便捷需求与对猫毛的清洁效果,在综合这些复杂的条件后,给出推荐产品与相关理由,这正是大模型方便人类决策的一个虚拟需求感知。

image

在另一个徒步推荐的方案中,千问不仅推荐出行路线,结合天气情况给出建议,还将徒步需要的产品直接发送到了千问界面上,确实让人看到 AI 未来融入世界的真实摸样。

image

不是只做简单的一件事,而是将好多事做好,形成闭环,阿里已经迈出第一步。

笔者能想到的弊端,可能就是如何避免大模型被商家刷的假好评和广告垃圾数据污染,根据错误数据给出错误推荐。

在一个全家人考虑去三亚出行的案例中,千问综合了路线、预算、老人与孩子的需求等,给出了路线选择,并给出三套酒店方案。

image

不过,酒店的均价都在两三千左右,不少人吐槽这恐怕没人住得起,方案不适用,不接地气,这或许是笔者认为的阿里迈出的是“半步”,还需要进一步的地方。

现场还有一个小惊喜是,千问演示现场定饭店的时候,有一段与老板确定需求的打电话环节,从包间大小,价格,有小朋友等需求进行多方拉扯沟通,直到最后,电话结尾说,“我是千问 AI 助手在与你沟通”,大家才恍然大悟,原来是千问的语音功能在完成订酒店的“最后一公里”。

这正是各种多模态打通后,AI 能做到的程度,留给人更多想象空间。

这种好用,同时体现在在对办公需求上,在更专业的场景上,需要更好的交付结果,要求也更难。

千问可以集成各种复杂工具,完成做表格、整理数据、处理报表、汇报 PPT 等各种具体业务。从如何处理资料到最后成品展现,从效果来看,确实还不错。

image

此次,阿里找来了专业人士来验收干活效果,千万财经博主小 Lin 说,亲自下场演示了用千问生成一份《2026 毕业生就业报告》,从信息汇总,消化资料,角度分析,文章演示到 PPT 的生成,千问干了一个完整的活。

不过,如果把千问当做个工作三年内的大学生,来干这些活,效果还是不错的,如果要求更高,可能就是把控 PPT 的内容重点质量,PPT 的设计是否美观。

image

而在教育领域,千问也做出一些精心设计,令人印象深刻的是在各种题目中,除了思路的讲解,还会生成一段动态视频进行图示演说,能随时对话沟通,给出思路和解法,并且多模态展示,这让千问更像一个人一样解决问题。

image

笔者也亲自进行了一个上手测评,一个是用千问点奶茶,还有一个是用千问询问如何落户问题,千问都给出了较为实用的操作结果。

image

总体来看,千问并没有试图一下子把所有事都做好,而是在尝试把复杂的事做得更完整、更贴近人的真实需求。它距离“完全可靠的 AI 助手”还有距离,但已经明显走出了聊天框,开始进入决策和执行的真实环节。而对干活质量的进一步打磨,恐怕正是阿里下一步要发力的方向。

在几家最受关注的 AI 巨头中,字节跳动 选择从系统层切入,通过豆包手机助手借助操作系统能力,去调度第三方应用,与现实世界建立连接;阿里 的路线则更为直接,依托自身已高度成熟的电商、支付、物流、出行等业务体系,将这些能力整体接入千问,形成一个以自有生态为核心的闭环。腾讯 目前尚未对外展示完整方案,但从近期在 Agent 和多模态方向上的密集招聘来看,其下一步布局大概率仍将围绕微信这一超级入口展开。

image

表面上看,Agent 之争比拼的是模型能力,但更深层的竞争,实际上取决于谁能更稳定、更规模化地承接真实世界的复杂需求。

Anthropic 发布 Claude Cowork 研究预览版没多久,就被曝出了删用户文件、窃取文件等问题。

 

近日,博主 James McAulay 在测试 Cowork 功能中,选择“整理文件夹”这一基础且高频的场景,同时还与 Claude Code 进行对比。当 James 正在对比两款工具的整理进度时,Claude Cowork 突然触发了致命错误:在整理过程中擅自删除了约 11GB 文件。

 

更令人崩溃的是,这些文件并未进入回收站,而是被执行了“rm -rf”不可逆删除命令。James 紧急让 Claude Cowork 导出操作日志,确认该命令的执行记录后,咨询 Claude Code 能否恢复,得到的却是“无法恢复,属于致命操作”的回复。

 

事后复盘发现,James 在 Claude Cowork 询问文件操作权限时,点击了“全部允许”或“始终允许”,但没有预料到它会无视明确的“保留文件”指令,更没想到会执行不可逆删除操作。万幸的是,此次被删除的均为过往上传记录,并非核心重要文件,未造成严重损失,但这一安全隐患足以让用户对其望而却步。

 

James 还指出,Cowork 与 Claude Code 相比,存在两点不足:

 

首先是交互的繁琐性。发出“整理文件夹”的指令后,Claude Cowork 并未直接行动,而是要求先启动新任务并手动选择目标文件夹;Claude Code 则直接定位文件夹并开始分析,仅需授予一次权限即可推进。Claude Cowork 通过反复交互确认整理细节,比如询问“文件按什么维度分类”“用户数据文件夹如何处理”,即便明确回复“用户数据文件夹暂不删除、保留”,它仍在待办清单中标记“删除用户数据文件夹:已完成”,虽后续未实际执行该删除操作,但也暴露了指令响应的漏洞。

 

其次是效率的滞后性。整理过程中,Claude Cowork 运行命令多次停顿,节奏拖沓;而同期用 Claude Code 整理“音乐文件夹”,智能体快速给出“专辑和迷你专辑、单曲、Demo、翻唱”的分类建议,确认后即刻推进整理,全程仅需数十秒。即便两者均搭载 Opus 4.5 模型,Claude Cowork 的响应速度和执行效率仍明显落后,甚至让简单的文件夹整理变成了“持久战”。

 

除此之外,AI 安全公司 PromptArmor 还发现,由于 Claude 代码执行环境中存在已知但未解决的隔离缺陷,Claude Cowork 易受通过间接提示注入实施的文件窃取攻击。

 

据悉,这是一个最早由 Johann Rehberger 在 Cowork 尚未出现之前、于 Claude.ai 聊天环境中发现的漏洞,已经扩展到 Cowork 中。Anthropic 对该漏洞进行了确认,但并未进行修复。

 

Anthropic 提醒用户:“Cowork 是一个研究预览版,由于其 agentic 的特性以及可访问互联网,存在独特风险。”官方建议用户警惕“可能表明存在提示注入的可疑行为”。然而,由于该功能面向的是普通大众而非仅限技术用户,PromptArmor 表示认同 Simon Willison 的观点:“要求普通、非程序员用户去警惕‘可能表明提示注入的可疑行为’,这是不公平的!”

此前,Every 团队提前获得权限,Dan Shipper、Kieran Klaassen 直播测试了该产品并分享了使用体验。期间,Anthropic Claude Cowork 项目核心成员 Felix Rieseberg 参与解读了产品设计思路。Felix 介绍,Cowork 是一个快速上线、先交给大家看怎么应用的产品,只用了 1.5 周就完成了开发,Felix 表示未来将以用户反馈为核心快速迭代。此外,工程师 Boris Cherny 还在 X 上透露,该产品的全部代码都是由 Claude Code 编写的。

 

在直播中,Felix 表示,产品工作流可拆分为 “非确定性(依赖模型智能)” 和 “稳定可重复(编写工具)” 两类,按需取舍。Skills 是平衡 “模型灵活性” 与 “工作流稳定性” 的关键,能沉淀可复用知识,还能催生涌现能力。

 

他认为,未来 Agent 类应用界面会趋简,用统一的 “泛化入口” 覆盖更多场景,而非专用化输入框堆砌。下面是三人对话部分内容,我们进行了翻译,并且在不改变原意基础上进行了删减,以飨读者。

 

一周半冲刺、先上线再说

 

Felix:这是我们团队做的产品。我们在最近大概一周半的时间里全力冲刺,把它做出来了。

 

Dan:一周半?

 

Felix:对,不过我想澄清一下:其实很多人早就有一个共识:如果能有一个“给非程序员用的 Claude Code”,那一定会非常有帮助、也很有价值。我们真正想做的,是帮助人把事情做完,不管是生活里还是公司工作中。

 

在这之前,我们其实已经做过好几个原型,尤其是在圣诞节前。但假期期间我们观察到一件事,我相信很多人也注意到了:越来越多的人开始用 Claude Code 做几乎所有事情,某种程度上,大家是在用它“自动化自己的人生”。

 

于是我们就在想:有没有一个足够小、足够早期的形态,可以先做出来给大家用,然后和用户一起快速迭代,真正搞清楚什么样的用户体验才是对的、我们到底应该构建什么。

 

现在你们看到的这个就是答案。它是一个 research preview,非常早期的 alpha 版本,有很多不完善的地方、很多毛糙的边角,你们已经看到不少了,这些我们都会很快改进。但这就是我们的尝试:在开放状态下构建产品,和外部的人一起打磨。

 

Dan:我太喜欢这种方式了,能不能讲讲你们做的一些设计决策?

 

Felix:这是个很好的问题。我个人有一个判断:不只是 Anthropic,而是整个 Agent 类应用的用户界面,在接下来一两年里都会发生非常大的变化。

 

现在我们看到的,是为不同任务设计的高度专用化输入框,以及围绕特定任务搭出来的一整套脚手架。但随着模型能力不断提升、整个行业对“泛化问题”的理解逐渐加深,我认为未来我们会用更少的界面,覆盖更广的使用场景。

 

但在当下,我们之所以把 Cowork 单独拆出来,是因为我们想非常透明地告诉用户:这是一个“施工中的区域”。某种意义上,我们是在邀请你走进我们的厨房。我们希望能和用户一起工作,几乎每天都上线新功能、修 bug、尝试新想法。所以这个独立的 Tab 本身就是实验性的,可以说是在前沿、甚至是“流血边缘”。它节奏更快、打磨得没那么精致,这也是我们把它单独拎出来的主要原因之一。

 

当然,也有一些技术层面的原因。比如现在这个 Cowork 是运行在你本地电脑上的,所以里面的对话是本地的,不会在多设备之间同步。同时,我们给了 Claude 更激进的一些 Agent 能力。综合这些因素,才决定做成现在这个形态。

 

Dan:同一个应用里,一边是云端的聊天,一边却是在自己电脑上跑的 Agent。怎么让用户真正理解“这两者不一样”?

 

Felix:是的,我心里有一个梦想,我相信很多人也有同样的想法:最终这些其实都不重要,代码到底跑在什么地方,应该只是一个技术实现细节。对用户来说,它应该就跟你访问纽约时报网站时会不会用 WebSocket 一样,谁会在乎呢?

 

对我们来说,现阶段这样做的好处是,可以跑得更快、发布得更快,也能和真正使用这个产品的人更近距离地一起共创。我一直很坚定地认为,一个人关起门来是很难做出好产品的。那种“躲进山洞里干一年,最后拿出来”的方式,其实很难成功。

 

我也经常提醒大家:就连第一代 iPhone,都缺了很多我们现在觉得是“理所当然”的功能。所以,这确实是一个不小的门槛,但我们暂时可以接受,因为我们希望现在选择用这个产品的人,本身就是带着明确意图来的。

 

Dan:我觉得这是一个非常有意思的模式,先极快地把东西做出来,以一个“新入口”的形式放在应用里,让相对更少的人点进来。这样就能在真实世界里快速迭代,而不是一开始就追求完美。尤其是在你刚才说一周半就能做出一个版本,简直疯狂。

 

“现在的状态是,先看看大家怎么用”

 

Kieran:但在你们脑海里,这个产品“真正的形态”是什么样的?你们接下来想往哪里走?

 

Felix:我太喜欢这个问题了,因为说实话,我也想反过来问你们两个同样的问题:你们希望它变成什么?你们想用它做什么?我已经听你们提到过,比如想让它能访问整台电脑,还有多选交互是不是可以更灵活一些之类的。

 

但我现在更多的状态是,先看看大家怎么用,然后疯狂尝试各种可能性。里面肯定有很多是错的,也会有一些是对的。对我来说,真正有意思的不是我个人的愿景,而是用户真正想拿它干什么。

 

我过去做过的产品几乎都是这样:你心里以为用户会这么用,结果他们找到了完全不同的用法,然后你顺着那个方向继续做下去。所以我特别希望我们能搞清楚:人们现在到底想要什么、喜欢什么、不喜欢什么。肯定也会有人明确说不喜欢某些地方,那我们就根据这些反馈不断调整、迭代。

 

Kieran:这又回到一个老问题了。比如 Boris 就非常擅长把 Claude Code 做成一种让用户在使用过程中逐渐发现“自己到底想要什么”的工具。那你们在 Cowork 里有没有类似的策略?比如给我们一些“积木式”的东西?能不能加自己的插件或 Skills?Claude Code 很酷的一个地方在于它特别好 hack、特别可塑,你们面向非程序员的 Cowork 是不是也有类似理念?

 

Felix:对,非常强调可组合性。你刚才提到 Boris 推动 Claude Code 早发布、快迭代、看用户怎么用,其实特别巧,我们之所以能这么快上线,很大程度上也是 Boris 在推动我说,“你应该早点给大家看看,看他们会怎么用”。(注:Boris Cherny 是 Claude Code 核心创作者)

 

至于可组合这一点,过去几周、甚至最近两个月里,我自己感受最深的,是我越来越依赖 Skills。以前我可能会去写 MCP 工具,或者为 Claude 专门做一套很定制化的东西,现在我更多是直接写 Skills。

 

有时候我还是会写一个二进制程序,但我随后就会在一个 Skill 文件里用 Markdown 描述:Claude,如果你要做这件事,请遵循这些规则。

 

举个例子,我最近在给自己做一个马拉松训练计划。我写了一个小程序,从不同平台抓取我的运动数据;然后在一个 Skill 里写清楚:如果你要帮我做训练计划,请按这些原则来。现在,只要你在 Claude AI 里装过的 Skill,都会自动加载到 Cowork 里。而且我觉得这只会越来越重要,尤其是模型越来越聪明,比如 Opus 4.5 版本,对 Skills 的遵循能力真的非常强。

 

所以目前来说,Skills 大概是我们最主要、也最“可 hack”的入口。

 

统一的“泛化入口”趋势

 

Dan:太棒了。你刚才提到未来会有更少的 UI 形态。这是不是也意味着,围绕“聊天是不是 AI 的最终形态”这个争论,你其实是在押注自然语言会长期存在?也就是说,我们最终不会有越来越多复杂的 UI,而是更少的界面,人只需要和一个 Agent,或者一个能调度其他 Agent 的 Agent 对话?你们现在推动的方向,某种程度上是不是就类似今天 Claude Code 所展现出来的那种形态?

 

Felix:是的,这个问题现在仍然存在很大的争论空间,而且肯定不存在什么“Anthropic 官方立场”。老实说,就算是在我这个并不算大的团队里,大家也未必能在整体上达成一致。每个人对于未来人类将如何与 AI、与模型交互,都有非常不同的想象。

 

如果只从我个人的角度来说,我大概坚信两件事。第一是:聊天式输入及其各种变体——不仅仅是模型意义上的聊天,而是更广义的那种“我想要点什么”的输入框——会比我们想象中存在得更久。

 

如果你把它抽象开来看,不管是 Google 首页,还是 Chrome 的地址栏,本质上都是一个“我想要某样东西”的输入框,我认为这种形态会长期存在,我们会继续拥有某种看起来很像搜索框的入口。

 

问题是,我们到底需要多少个这样的输入框?你会有一个专门写代码的框吗?一个用于个人娱乐的、一个处理医疗相关问题的?我并不确定未来会存在这么多彼此割裂的输入框。

 

我再拿 Google 做类比。过去你可能记得,Google 会为不同需求提供不同的搜索入口和子产品。但现在,越来越多时候,你只是直接在 Chrome 的地址栏里输入你想要的东西。你不会真的先想清楚“我现在是在购物模式”,然后再专门去打开 Google Shopping。

 

所以,如果我们未来看不到一种更聪明的、能理解你想做什么的“泛化入口”,我会很意外。当然,后端可能仍然会分流,比如它理解你想要做的是 X,于是给你呈现一个适合 X 的界面,但入口本身很可能是统一的。

 

产品设计中的取舍

 

Dan:我觉得一个很有意思的反例是 Microsoft Excel。某种程度上,它和 AI 的工作方式其实也很像:这是一个通用型产品,上手极其简单,但你可以在里面把事情做到无限复杂。而且,Excel 甚至某种程度上催生了后来的 B2B SaaS 浪潮,很多 SaaS 本质上就是把 Excel 里的复杂工作流“产品化”了。所以也有另一种可能:你先有一个极其通用的工具,然后人们在里面发现了高价值、高强度的工作流,最后这些工作流再被拆分成独立产品。

 

Felix:我觉得 Excel 真的是一个极其漂亮的例子。对很多开发者来说,Excel 其实处在一个有点“边缘化”的位置,但如果你比较一下 Excel 的日活用户数量和全球开发者的数量,那是一个非常惊人的对比。

 

我在 Excel 身上看到的一个很有意思的点是:它的重度用户,其实并不太在意那种“边际效率提升”,或者 UI 上一点点的小优化。他们更在意的是对这个产品的深度熟悉和肌肉记忆。

 

这里面是有教训的。我在很多产品表面上都见过这种情况:作为开发者,你会觉得“如果我单独给你做一个更贴合这个场景的小工具,你的工作流会更好”。但结果往往是,用户并不会去用那个新工具,而是继续在他们已经非常熟悉的产品里,把事情做完。

 

举个例子,这是我在 Slack 工作多年反复学到的一课:你可以做很多你自认为更适合某个使用场景的独立服务,但用户最后往往还是选择就在聊天里完成这件事。

 

Dan:说到这里,虽然今天的主题更偏向非开发者,但我感觉现在有不少开发者在看。你正好是那种“真的把这个东西做出来了”的人,对 Agent native 应用的构建理解非常深。

 

我们一直在思考 Agent-native 应用的核心原则。比如其中一个原则是“对等性(parity)”:用户通过 UI 能做的事情,agent 也应该能做。我在 Cowork 里已经能看到这一点。另一个是“粒度(granularity)”:工具应该尽量处在比功能更底层的层级,而“功能”更多存在于 prompt 或 Skill 中,这样你就能以开发者没预料到的方式去组合工具。这会自然带来第三个原则“可组合性(composability)”,而可组合性最终会产生第四个:涌现能力(emergent capability)。也就是用户开始用它做你完全没想到的事情,你看到了潜在需求,然后再围绕它构建产品。

 

这在我看来,几乎就是 Claude Code 的工作方式。我很好奇,这一套在你听来是否成立?或者从你们在 Anthropic 大规模落地的经验来看,有没有什么能让大家把 Agent native 应用做得更好的建议?

 

Felix:这套说法对我来说非常有共鸣。而且我觉得,“涌现能力”里隐藏着一个非常重要的事实:无论是个人还是在孤立的小团队里,我们几乎不可能提前预测一个 Agent 最终会在哪些地方变得极其有用,尤其是当你只给了它一些相对原始的工具时。

 

把工具尽可能下沉、做成通用形态,是一件非常强大的事情。工具越可组合、越通用,你就越能从模型智能的持续提升中获益。我和很多开发者聊过一个感受:模型智能提升、以及模型“正确调用工具”的能力,增长速度往往远快于你新增工具、或者教育用户理解这些工具的速度。

 

所以如果你退一步思考:“我能不能先做一个高度通用的工具?”那你构建出一个可以适应未来新场景的产品的概率,其实会大得多。这一点,我非常认同。

 

Dan:那在这些原则之下,你怎么看其中的取舍?比如工具设计本身的权衡问题。

 

Kieran:对,我觉得把东西放进 prompt 里、再配合工具,本身是很棒的。但问题在于,我们现在突然需要去创建一些“能读取 Skills 的工具”,或者类似的东西。于是就出现了一个新的“元层”。Skills 本质上就像是一种即时的 prompt 注入,但你得先把这个体系搭出来。现在所有在做这些东西的人,如果不是直接用 Claude Code 或 Cloud SDK,那基本都得自己从头构建一整套。

 

于是就出现了一种拉扯:你到底是把行为直接描述在一个 tool 里?还是再包一层 tool,让它去调用别的东西?这中间是有摩擦成本的。当然,可组合性是很好的。比如一开始你可能会有五个 tool:搜索邮件、读取邮件、做这个、做那个。但你也可以说:不,我只提供一个 execute tool,然后用 Skills、MCP,或者某种抽象层来完成这些事情。现在正处在这样一个转变期,而 Claude Code 和 Claude SDK 显然是在推动这个方向。

 

但我确实能感受到这种摩擦。我猜你也一定感受到了。所以我很好奇:你有没有什么最佳实践,能给那些还停留在“传统 AI 应用思维”的人一些建议?

 

Felix:我不确定我能给出什么“来自山顶的智慧”,会比你已经拥有的经验更有价值。但你说的那点,确实非常戳中我。我觉得你必须做一个取舍:哪些输出你愿意让它是非确定性的、哪些地方你愿意依赖模型的智能。而且一旦你依赖模型智能,每当你换一个更便宜、或者“更笨”的模型,那些地方的质量就会下降。

 

所以我会把整个工作流拆成两类:一类是非确定性的;一类是可重复、稳定的。如果某个部分非常可重复,而且你可以非常确信它“永远不会变”,而且就算模型变聪明了,你也得不到任何额外收益,那我会觉得,这正是写一个工具的好地方。

 

其实我们已经在这么做了。你完全可以给 Claude 一个极其通用的“汇编级”工具,比如:“直接调用 GCC,你想怎么编就怎么编。”但我们并没有这么做,因为那样就太疯狂了。

 

Skills 与可组合性实践

 

Dan:那已经是粒度的极限了。

 

Kieran:不过我也想说一句:当我和很多开发者聊的时候,我发现即便这个“是否要给模型工具”的基本假设,也正在被挑战。我不会把太多赌注压在这个假设上。比如,我们到底是不是还需要给 Claude 工具?还是说,某一天它只需要靠记忆和权重,直接把 0 和 1 写到世界里?这是一个非常有意思、也非常难判断的问题,没人真的知道答案。

 

但你们已经在实践中学到了一些东西。你们之所以创造了 Skills,就是因为仅靠 Slash command 或子 Agent 已经不够了,对吧?我们需要 Claude.md 更强,但现实是 Skills 正是为了解决这个问题而诞生的,而且显然它们效果很好。我完全认同你说的,Skills 太棒了。我现在几乎每天都在写 Skills,而且真的很爱用。所以这里面一定有些什么。但问题是:什么时候应该用 Skill?什么时候又不该?

 

Felix:这真的是一场特别有意思的对话。有一个你以后真的应该跟 Barry 聊聊。在公司内部,至少在某种程度上,Skills 这个概念就是他提出来的。从根本上说,Skills 正是你刚才描述的那种张力的自然产物。

 

举个例子,我们想让公司内部的人能很容易地拿到各种仪表盘。我们用的是一家主流数据服务商,很多数据都在那儿。一开始我们在想:要不要做一堆非常具体的工具,专门去拉数据、压缩成固定格式。最早那几版仪表盘,其实效果并不理想(那还是 4.5 之前)。大概每三四个里面,就有一个看起来很拉胯。于是,我们开始想:要不要把参数卡死,直接做一个“固定模板”的仪表盘?Claude 只负责往里面填新数据。

 

但在这个过程中,我们突然发现了一件事:如果你只是告诉 Claude 如何正确地查询这个数据源、可以使用 SQL、以及生成仪表盘时需要遵循哪些设计原则,突然间,它就能稳定地产出质量很高的结果,而且是“几乎每一次”都很好。

 

更重要的是,这就打开了“涌现能力”的大门。因为你还可以对 Claude 说:“我知道你在遵循这些仪表盘原则,但我想换一种图表类型”,或者“我想把它和另一份数据结合起来。”就在这一刻,事情真正开始变得有趣了。

 

Dan:这真的很有意思。我觉得为什么要用 Skill,而不是只给它 GCC、让一切都即兴发生,其中一个关键原因在于:你需要把一些可重复的、可分享的知识,变成一个大家都能讨论、都能复用的东西。并不是所有事情都应该是“即时生成”的。有些事情,你就是希望一个团队能长期、反复地用同一种方式来做。而这,本质上就是 Skill。

 

Felix:而且这其实也很符合人类本身的工作方式,对吧?比如我刚加入一家公司时,总有人教我怎么订机票、怎么订会议室。从某种意义上说,我们每个人,都是靠着一堆 markdown 文件在工作。

 

我觉得差不多该下线了,但在走之前,我想让你们两个各自给我一个建议:你们最希望我们改的一件事是什么?

 

Dan:那我先来一个最简单的:给我对整台电脑的完全访问权限。还有就是,让我更清楚地知道它现在到底是在我本地电脑上运行,还是在云端以聊天的形式运行;以及,让它在手机上用起来更顺畅。

 

Kieran:我也支持移动端。但我最想要的是能让我添加自己的插件。我有一个插件市场,我只想把它接进来直接用。现在我得在一个应用里加东西,再拷贝到这里,有点绕。可能也能凑合用,但如果能原生支持插件市场、直接添加插件,那真的会非常棒。

 

Felix:好,明白了。谢谢你们,这些反馈都非常有价值。我们会把这些带回去,跟团队一起讨论。也欢迎大家把想法发给我们。我们真的很希望听到大家的反馈,并据此调整路线图。

 

测试总结:理念可以,做得一般

 

最后,我们总结了 Every 团队的测评结果。

 

Claude Cowork 的核心定位是为非技术用户提供 Claude Code 级别的 AI 协作能力,其最显著的突破在于重构了 AI 使用逻辑,从传统“发提示词→等回复”的一问一答模式,升级为“异步协作”模式。

 

与普通 Claude 聊天相比,Claude Cowork 专为“长时间工作”设计,具备持续推进任务直至完成的能力。直播中展示的典型案例包括:审计过去一个月的日历并分析与目标的匹配度、抓取 PostHog 数据统计按钮点击量、分析 Every 咨询业务的竞品、整理下载文件夹、校对 Google Docs 文案等。这些任务均需 AI 持续“浏览”、推理,部分任务耗时可达一小时左右,远超普通 AI 聊天的响应速度。

 

产品的场景适配性极强,尤其适合需要深度研究和数据处理的岗位。用户只需连接 Chrome 浏览器,AI 即可直接使用用户已登录的各类服务,无需重复认证,轻松完成 Twitter 时间线热点分析、竞品信息搜集等需多平台联动的任务。同时,它支持生成文档、Excel、PPT、PDF 等多种产出物,可应用于简历优化、会议发言起草等日常工作场景,大幅提升增长团队、咨询人员、写作者等群体的工作效率。

 

在交互设计上,产品右侧设置了待办任务列表,清晰展示任务进度与当前阶段,用户可直观掌握 AI 工作状态。其“询问用户”功能还配备了可视化交互界面,支持多选项快速响应,进一步降低了操作门槛。

 

根据测评,Cowork 具备较强的可扩展性,支持加载用户已安装的 Claude Skills,这也是其最具“可玩度”和“可定制性”的核心入口。用户可通过 Skills 封装专业知识与操作逻辑,实现个性化需求。

 

测评团队也指出了产品当前存在的争议与不足。

 

最核心的争议在于“单独设置 Cowork 标签页”的设计:部分用户认为应在同一标签页内根据任务自动切换模式,避免额外的选择成本;但也有观点认为,独立标签页能明确提醒用户切换使用心态:从“实时对话”转向“异步托付”,尤其对非技术用户而言,这种明确的区分有助于适应全新的协作范式。

 

另外在体验细节上,产品仍有诸多优化空间:一是 UI 打磨不足,任务列表仅按时间排序,缺乏视觉区分度,部分内容存在“懒加载”导致展示不及时;二是权限管理不够直观,普通用户难以清晰判断 AI 是在本地还是云端运行,文件夹访问权限需手动配置易造成困惑;三是“询问用户”功能存在逻辑缺陷,可能在用户未响应时自动跳过问题,且选项数量和字符数存在限制;四是对复杂应用(如 Google Docs)的适配尚不完善,相关操作容易失败。

 

针对不同用户,测评团队给出了针对性使用建议:非技术用户可将其视为“升级版聊天功能”,用日常任务直接尝试,逐步适应异步协作模式;重度用户可尝试通过 Skills 定制个性化功能,探索组合使用的可能性。他们表示,所有用户均需保持好奇心,忽略“三个月前 AI 做不到”的固有认知,在每一次产品更新后重新尝试核心需求,毕竟 AI 能力每隔几个月就会发生巨大迭代。

 

最终,测评团队给出的评分结论为:“理念绿牌,当前执行黄牌”。理念层面,产品开创性地将 Claude Code 级别的异步协作能力开放给非技术用户,推动了 AI 协作范式的转变,具备极高的探索价值;执行层面,因 UI 粗糙、部分功能逻辑不完善等问题,当前体验仍有较大优化空间。

 

参考链接:

https://www.youtube.com/watch?v=_6C9nMvQsGU

https://www.youtube.com/watch?v=oPBN-QIfLaY

https://www.promptarmor.com/resources/claude-cowork-exfiltrates-files

FACTS基准测试套件发布,这是一个旨在系统性评估大型语言模型事实准确性的全新行业基准。该套件由 FACTS 团队与 Kaggle 联合开发,扩展了早期事实基础研究相关的工作,并引入了一个更广泛的多维度框架,用于衡量语言模型在不同使用场景下产生事实正确响应的可靠性。

 

FACTS 基准测试套件基于原先的 FACTS Grounding Benchmark,并增加了三个新基准:参数化(Parametric)、搜索(Search)和多模态(Multimodal)。结合更新后的 Grounding Benchmark v2,该套件可以从反映现实世界常见模型使用场景的四个维度评估事实性。该基准测试总共包括 3513 个精选示例,分为公共和私有评估集两部分。Kaggle 负责管理保留的私有数据集,评估参赛模型,并通过公开排行榜发布结果。总体性能以 FACTS 评分的形式呈现。该分值是通过所有基准测试以及两部分数据集的平均准确率计算得出的。

 

参数化基准测试侧重于模型仅凭内部知识(无需外部工具)回答基于事实的问题的能力。问题形式类似于常见的知识问答题,通常可通过维基百科等来源找到答案。搜索基准测试评估模型能否通过标准的 Web 搜索工具准确地检索并整合信息,通常需要多步检索才能完成单个查询。多模态基准测试在回答图像相关的问题时检验事实准确性,需要结合背景知识进行正确的视觉解读。更新后的 Grounding Benchmark v2 评估响应是否基于提供的上下文信息进行了合理推演。

 

初步结果既凸显了进展,也揭示了接下来要面对的挑战。在评估的模型中,Gemini 3 Pro 以 68.8%的总体 FACTS 评分位居首位,其参数化事实性与搜索事实性较前代模型均有显著提升。然而,评估的所有模型总体准确率均未突破 70%,多模态事实性成为各模型普遍面临的难题。

图片来源:谷歌 DeepMind 博客

 

基准测试的结构引起了从业者的关注。资深 iOS 工程师 Alexey Marinin 在评论此次发布时指出

 

这种四维视角(知识、Web、基础、多模态)感觉更接近人们日常实际使用这些模型的方式。

 

FACTS 团队表示,该基准旨在支持正在进行的研究,而不是作为模型质量的最终衡量标准。通过公开数据集并规范评估标准,该项目旨在为衡量语言模型的事实可靠性提供一个共同的基准,以适应其持续演进的发展需求。

 

原文链接:

https://www.infoq.com/news/2026/01/facts-benchmark-suite/

Gemma Scope 2 是一套旨在解释 Gemini 3 模型行为的工具,使研究人员能够分析模型的突发行为,审核和调试 AI 代理,并针对越狱、幻觉和阿谀奉承等安全问题制定缓解策略。

 

可解释性研究旨在理解 AI 模型的内部工作机制和学习算法。随着 AI 变得越来越强大和复杂,可解释性对于构建安全可靠的 AI 至关重要。

 

谷歌将 Gemma Scope 描述为大型语言模型(LLM)显微镜。它结合了稀疏自编码器(SAEs)和转码器,让研究人员能够检查模型的内部表示,查看它“思考”的内容,并理解这些内部状态如何塑造了其行为。一个关键的应用场景是检查模型输出与其内部状态之间的差异,按照谷歌的说法,这可能有助于发现安全风险。

 

Gemma Scope 2 针对 Gemma 2 模型家族从多个方面扩展了原先的 Gemma Scope。最值得注意的是,它在 Gemini 3 模型的每一层中重新训练了其 SAEs 和转码器,包括kip-transcoderscross-layer transcoders。这些转码器旨在使多步计算和分布式算法更容易解释。

 

谷歌解释说,增加层数直接增加了计算和内存需求。为了保持复杂性随层数线性增长,这需要设计专门的稀疏内核。

 

此外,谷歌采用了一种更先进的训练技术,使 Gemma Scope 2 有更强的能力来识别更有用的概念,同时也解决了初版实现中已知的几个缺陷。最后,Gemma Scope 2 引入了专门针对聊天机器人进行分析的工具,使研究人员能够研究复杂的多步行为,如越狱、拒绝机制和思维链忠实度。

 

稀疏自编码器使用一对编码器和解码器函数来分解和重建所有 LLM 输入。另一方面,经过训练后,转码器能够稀疏重建多层感知器(MLP)子层的计算过程,即学习如何对给定输入进行输出近似。这使其能够识别各层及子层中哪些部分(更精确地说是哪些激活模式)是由单输入令牌或令牌序列触发的。

 

除了应用于安全领域外,Reddit 用户 Mescalian 预测,这项研究还可以:

 

指导其他领域的最佳实践,未来可能会被用来监控智能程度更高的 AI 的内部推理。不过目前,它最适用于通过对权重进行微调及其他修改来调整模型能力。

 

与谷歌类似,AnthropicOpenAI也针对他们的模型发布了自己的“ AI 显微镜”。

 

谷歌已在 Hugging Face 上发布了 Gemma Scope 2 的权重。

 

原文链接:

https://www.infoq.com/news/2026/01/google-gemma-scope-2/

1 月 16 日,支付宝联合千问 App、淘宝闪购、Rokid、大麦、阿里云百炼等伙伴,正式发布 ACT 协议(Agentic Commerce Trust Protocol,智能体商业信任协议)。这是中国首个面向 Agent 商业需求设计的开放技术协议框架,为 AI 与电商、外卖等服务平台的协同打造一套 “通用语言”,让跨终端、跨系统、跨平台的 AI 任务执行,变得更便捷、更高效。

以千问 App 为例,依托 ACT 协议 ,千问 App 成功打通淘宝闪购与支付宝 AI 付:用户只需向千问发出指令 “帮我点杯珍珠奶茶”,千问基于用户地理位置,智能推荐附近符合需求的商品,同步完成比价与优惠券自动核销。

用户仅需点击 “选它”,确认支付宝付款,即可一键完成结账。整个购物流程以对话式、自动化、不跳端的方式推进,千问化身专属 “购物助手”,包办繁琐操作。

当 AI 的能力边界不断拓展,从“聊天对话”延伸至购物付款等“办事时代”,新的问题也随之浮现:AI 操作是否获得用户明确授权?资金交易过程是否足够安全?更换设备或应用后,服务体验能否保持连贯?

ACT 协议的诞生正是为破解这些问题而来。支付宝为其搭建了 “委托授权域”“商业交互域”“支付服务域”“信任服务域” 四大核心基础设施标准,实现 AI 操作全流程可追溯、可验证,让人更放心;支持自动化交易流程,减少不必要的人工干预,提升服务效率;统一多平台服务标准,避免体验的割裂。

与传统付款模式不同,在 ACT 协议的规则框架下,AI 仅承担下单操作的执行角色,付款环节始终由用户主导或自主授权。在保障资金安全的前提下,为用户大幅节省时间成本。而对商家而言,未来接入 AI 原生应用时,只需按照协议标准配置统一接口,即可对接全渠道入口,无需单独进行复杂的 API 开发,大幅降低对接成本。

目前,ACT 协议可使用在 AI 代买、企业自动化采购等多元场景,并提供两种付款模式:一是即时付款,用户与 AI 实时对话,基于推荐列表自主决策,确认后完成付款授权与身份验证,适用于 AI 点外卖、日常购物等高频场景;二是委托授权,用户可提前设定时间窗口、金额上限、商家范围等条件,即便离线无指令,AI 也能自动监测商品动态并完成下单结算,适用于机票、酒店预订等场景。

该协议最大限度遵循兼容性、隐私性、开放性三大原则,全面适配现有商业与支付系统,并将伴随 AI 行业技术发展持续优化。支付宝同时表示,正积极推动更多支付服务商、商家与平台、AI 开发者、智能终端生态厂商加入,共同完善协议内容,共建 AI 商业信任新生态。

随着 AI 原生应用能力的持续升级,“AI 代办” 服务日渐普及,支付作为其中特殊且关键的环节,正成为全球科技企业的布局焦点。此前,OpenAI 联合 Stripe 推出协议以支持 ChatGPT 结账功能;近期,谷歌也发布 AI 购物全流程通用商务协议(Universal Commerce Protocol,简称 UCP),将实现用户在 Gemini 内直接下单。

自 2014 年推出以来,Apple Pay 已经从最初替代实体钱包的电子支付体验,发展成为了如今覆盖商品交易、身份认证、出行场景的电子钱包服务平台。

除了基础的交易功能,我们可以用 Home Key 解锁家门、用 Car Key 解锁车辆,也可以将各类凭证票据放进钱包 app,通过 Apple Pay 完成信息验证。

截至 2025 年,Apple Pay 已经进入全球 89 个国家与地区的本地市场,与超过 1.1 万家银行与网络达成了合作,并在去年为商户带来了超过 1000 亿美元的额外成交收入。

要达到如今的成绩,与 Apple Pay 的设计初衷密不可分。

据 Apple 介绍,Apple Pay 在上线之初就以提供简单、安全、私密的支付体验为目标,安全与隐私毫无疑问是重中之重。当用户将银行卡与 Apple Pay 绑定使用时,Apple 并不会在云端服务器存储用户的实体卡号信息,而是会以经过加密的专属设备账号存储在设备的安全元件中;若将同一张银行卡绑定到不同设备上,不同设备上的 Apple Pay 支付卡也将获得不同的账号号码。

能够得到全球范围内如此多家银行与网络的合作支持,为 Apple Pay 提供功能适配,就已经能够说明这项功能的安全性有多完善了。据 Apple 服务业务高级副总裁 Eddy Cue 日前公布的数据显示,Apple Pay 仅在 2025 一年就阻止了超过 10 亿美元的欺诈性交易。

在中国大陆地区市场,Apple Pay 目前已经支持了包括国有银行、股份制银行及多家城商银行在内的近 50 家发卡机构银行卡的绑定使用,覆盖范围非常全面;而在网络平台和线下商家方面,像是京东、大众点评、携程、滴滴出行、麦当劳和 KFC 等 40 家服务提供商都已经支持了通过 Apple Pay 完成付款和交易。

交通卡方面,Apple Pay 也已经支持了全国各地近 40 座城市交通卡的添加,可以用于在全国 300 多个城市刷卡乘坐地铁、公交车、轮渡等公共交通出行。这一数字每年也都在持续增加,Apple Pay 在 2025 年就新增了对杭州和昆明两座城市交通卡的支持。

2016 年 2 月 18 日,Apple 宣布 Apple Pay 在中国大陆地区正式上线,到现在几乎刚刚好过了十年时间。在这个特殊的时间节点,Apple Pay 也终于要再次迎来一次大的更新。

众所周知,在过去十年里,Apple Pay 支持添加的大陆地区发行卡种仅限有银联标识的信用卡和借记卡,其它卡种如 Visa 和 Mastercard 等则不支持添加;如果想要添加这些外币卡种,则只能添加港澳台地区或海外发行的相关卡片。

现在,这一限制终于迎来解除,Visa 成为首个在中国大陆地区支持本地接入的国际卡组织,由大陆地区银行机构发行的 Visa 银行卡已在 1 月 15 日正式支持接入 Apple Pay 中,前往港澳台地区或出境旅游将更为便利。

我们从 Apple 方面了解到,即日起已经支持添加 Visa 卡片至 Apple Pay 的银行有:

  • 中国工商银行 (Visa 信用卡)
  • 中国银行 (Visa 信用卡)
  • 中国农业银行 (Visa 信用卡)
  • 交通银行 (Visa 信用卡)
  • 招商银行 (Visa 信用卡)
  • 中信银行 (Visa 信用卡)
  • 平安银行 (Visa 信用卡)
  • 兴业银行 (Visa 信用卡)
  • 中信银行 (Visa 借记卡)

在未来几个月内,上海浦东发展银行、中国建设银行、中国民生银行、中国光大银行等更多银行发行的 Visa 信用卡也将陆续支持添加至 Apple Pay 中。据了解,大陆地区发行的 Mastercard 万事达卡,也同样将在未来数月内支持接入 Apple Pay 支付使用。

虽然目前在国内使用 Visa 或 Mastercard 的商铺相对而言不多,但除了使用 iPhone 和 Apple Watch 在线下实体刷卡以外,我们还能在 iPhone 或 iPad 上通过支持的 app 使用 Apple Pay 付款。此外,在 iPhone、iPad 和 Mac 的 Safari 浏览器中,只要线上商家支持,都可以选择使用 Apple Pay 交易结算,享受安全便捷的支付体验。

据介绍,在全球范围内支持通过 Visa 交易的商户,都可以使用添加进 Apple Pay 的国内 Visa 银行卡刷卡交易。对于国内发行的双币银行卡——即同时配备银联和 Visa 标识的同一张卡片——现在在添加至 Apple Pay 时,可以选择添加银联或 Visa 卡片,或者同时加入两种不同标识的两张卡片。

当然,目前 Apple Pay 添加 Visa 银行卡的功能才刚上线,难免可能会在部分银行的适配、卡片识别或商户受理范围等细节上出现差异或问题,实际体验仍有待进一步观察与完善。

有了开头就是好事,也期待 Apple Pay 能在不久的未来继续扩展更多银行和组织的相关卡片支持,以及增加更多新的使用功能,为用户带来更多便利及安全体验。

    除了与赛博朋克、公司殖民主义、边缘行者等名词高度绑定,现在当我们提起《赛博朋克 2077》这款游戏,出现在很多人还脑海里的自然也有 CDPR 借助光线追踪、DLSS 等技术在其 RED 引擎中所打造的未来城市「夜之城」。

    2.01 版本开启超速模式和光线重建后的效果,DLSS 设置为「均衡」

    在 RTX 50 系列显卡推出后,《赛博朋克 2077》也带来了支持最新的 DLSS 技术的 2.21 版本。从一卡难求到如今支持最新技术的游戏作品井喷,「光追」也从早年少数游戏和玩家才能享受的前沿体验变成了 3A 大作不可或缺的「点睛之笔」。那光追、DLSS、帧生成等技术是如何提升游戏体验的?它的出现改变了什么,又解决了哪些问题?

    注:本文为《升级「真香」的 RTX 30 系显卡后,你能得到什么?》一文的更新内容,原文部分信息已过时。

    传统游戏的光照如何实现

    我们所能看见的、五彩斑斓的世界,本质上是因为光在传播中遇到了组成这个世界的、不同材质的物体。光线在这些物体上反射、折射、漫反射、散射……经过不同的光学现象加工之后,特定的光线最终到达人眼,经视网膜感光细胞的处理,我们才得以看到不同颜色的物体。这种原理会带来一些很有意思的变化,比如不同材质的物体从相同角度来看观感不同,相同材质从不同角度看过去的感觉也不一样;在光线很暗的时候,我们自然也很难看清东西。

    真实环境的光线远比游戏复杂 | 图片自 @unsplash

    但同样的「观感」放在游戏世界,所采取的呈现方式则截然不同。在光线追踪技术出现之前,传统的游戏设计在重现光照效果时往往只能从「最终效果」出发,为玩家呈现不同光照环境下,游戏世界所呈现出来的最终效果。

    具体的实现原理很好理解:

    首先,现代 3D 模型实际上都是通过三角形构成的1,三角形的面数决定了模型的精细程度,模型精度越高,三角形数目也就越多,性能开销也就越大。

    由三角形构成的模型,越复杂的模型也越精细

    这些三角形要显示在我们的电脑屏幕上,还需要经过「光栅化」,即先将三角形用近似连点描边的方式转化成屏幕上的像素2,然后对三角形内部的像素进行上色,同时判断三角形哪些部分被前面其他三角形遮挡了,被遮挡的部分也无需上色,减少不必要的性能开销。

    光栅化工作原理

    游戏里的光照效果实现,也是在「光栅化」这个过程里完成的——只需要对三角形内部的像素进行额外的上色步骤即可:模型的三角形都有对应的固有颜色(皮肤有固有的肤色、头发有固有的发色),所以将模型转化到二维像素以后,可以通过每个三角形的颜色为每个屏幕上的像素分配一个初始颜色值。接下来要根据场景里的其他光源来进一步的像素处理来改变像素的颜色,最后还需要根据纹理(皮革有皮革的纹理,布料有不同的材质)对像素做最后的处理,进而生成应用于像素的最终颜色。

    所以基于光栅化的游戏光线处理,更像是一种对光照结果的「描绘」而非对光照过程的还原。你看到的画面可以被理解为在自行发光,而不是和生活中一样通过折射、反射等手段传递光线。这也就是我们在上面所说的以渲染「最终效果」为主要手段

    光栅化的优点在于可以足够快,程序员可以预先写好光线的程序来处理小面积的光线,还可以制作光照贴图,在需要的时候和环境再进行渲染呈现(静态光照效果)来减少处理压力;但是缺点也很明显:不够真实,比方说游戏中的物体投影大部分时候都是一整块颜色相同的区域(阴影贴图),但是我们仔细观察生活会发现由于光的复杂性实际上的投影由近到远是越来越浅的。

    投影和更接近真实的投影 图片来自 unreal 引擎官网

    更多关于光栅化不够真实的更多例子可以看这里

    光线追踪提供的逆向解法

    相比之下,实时光线追踪可以营造更加真实的光照效果,它通过逆向「追踪」与假想照相机镜头(也就是玩家的「眼睛」或者观察点位置)相交的光作为工作原理,来实现对光线的实时追踪。

    之所以反其道而行之,除了光沿直线传播、入射角等于反射角等基本光学原理外,更重要的原因是逆向追踪比真实地模拟光线相互作用的效率要高很多——大部分的光经过多次反射会逐渐消失,最后也不会进入眼睛。减少不必要的模拟会让最后的计算压力小很多。

    通过逆向追踪实现的实时光线追踪

    实时光线追踪技术最终的产物,大家或多或少早在游戏内容外也都接触过了:电影院里的好莱坞大片在特效制作过程中经常会用到光线追踪技术来生成以假乱真的特效场景,这背后往往需要以亿为单位的庞大运算量,每一帧的画面都需要高性能计算机花费数小时的运算——而这还是在提前设计好了场景和环境光线的前提下,游戏的随机性更大,实时光线追踪的实现难度自然也更高。

    所以该如何把光线追踪引入到游戏中呢?

    2018 年,英伟达发布了第一张支持光线追踪技术 RTX 20 系列显卡,RTX 20 系列中搭载了几组专门的 RT Core 来加速逆向追踪光线的过程,比起 GTX 10 系列,RT Core 在实时光线追踪这件事情上拥有更好的性能,在游戏中开启实时光线追踪后平均帧数也更高。

    而 RTX 显卡发展到今天,游戏中的光线追踪也经历了多种实现方式的变迁。其中玩家感受最直观的几种按实现难度来排序分别是:

    • 阴影
    • 高级反射
    • 全局光照
    • 全景光线追踪

    阴影

    仅阴影

    阴影的代表游戏就是《古墓丽影》,这也是实时光线追踪最简单的实现方式。只需要确定动态光源的数量和位置就可以给游戏带去动态阴影的效果,在任何的表面和环境下都能获得逼真自然的阴影效果。

    上:未开启光追;下:开启光追,人物有了更真实的投影

    高级反射

    高级反射

    高级反射的代表游戏是《战地 5》,光线需要实时追踪场景里的所有物体才能正确精准地表现出反射效果,所以很多时候会造成很大的计算压力,因此这里往往还会引入传统的反射处理方法:屏幕空间法,只要画面中你能看到的物件不出现、被遮挡或是不可见,就不会产生反射。这也是为什么有些游戏中镜子看不见背后的人的原因。

    上:开启光追;下:未开启光追,小汽车更融入环境里了

    在高级反射中后续还引入了,光线可以在所有表面形成反射进一步增强真实感的光线追踪不透明反射,可以在透明表面实现不同亮度反射的光线追踪透明反射,独立光源照亮周围细节或是天空的照明照亮表面的光线追踪漫反射照明等一系列细节更新。

    上:未开启光线追踪透明反射;下:开启光线追踪透明反射,窗前的反射效果更加真实

    全局光照

    全局光照

    最复杂的实时光线追踪方式则是实现全局光照,《地铁:离去》和《控制》都利用了实时光线追踪去实现全局光照。无论是光源、反射还是投影都是实时光线追踪计算得到的,这可以进一步提高光照的准确度,更好地烘托游戏场景和氛围。

    上:未开启光追,下:开启光追;房间内的光照更为准确,给人的感受更为真实

    全局光照后续还改善了环境光遮蔽会生成的阴影,确保每个角落和裂缝都有正确的阴影投射,从而进一步改善图像质量和沉浸感。不过实现全局光照的压力真的是太大了:在没有 RT Core 的 GTX 系列的显卡上打开《地铁:离去》的实时光线追踪,1080Ti 的表现直接从「高刷模式」掉到了「电影级画质」,帧率从 149 掉到了 38。

    全景光线追踪

    不难发现,之前提到的阴影、高级反射又或是全局光照,三者在实现上都是针对特定区域或场景内的光源追踪方式。这些实现方式只追踪一部分光源,需要处理的数据相对较少,对应的计算需求自然更低。在过去显卡光追性能较弱的时候,也可以很好地平衡画面效果和显卡价格。

    而在《赛博朋克:2077》这类五光十色的游戏世界中,大量使用这类部分光线追踪方式虽然可以塑造一个充满氛围感的赛博朋克世界,但仔细观察仍然能发现光影交错中视觉上不够真实的地方,比如较远距离的建筑投影闪烁、镜面和水面的投影模糊等等。显然,覆盖范围有限的光源追踪无法完全捕获场景中所有的光线轨迹,从远距离的角度观察也一定会遗漏一些微妙的光照变化和阴影效果。

    所以随着显卡性能的提升,英伟达在今年也引入了一套新的全景光线追踪实现3

    全景光线追踪可对几乎不限数量的自发光光源的光线特性进行建模,构造出物理意义上更加精准的阴影、反射和全局照明。所以无论场景中光源的数量、方向、或强度如何变化,全景光线追踪均能准确捕捉并在各物体上造成正确的阴影及照明效果,最终提供极其精美的画面质量。

    不管是远景还是近景都能带来更真实的光追效果

    另外,得益于全景光线追踪,来自天空和大气间接光照效果也可以很好得融入到整个游戏画面中。而且相比于分模块实现,整体的光追反倒可以降低开发适配成本,整合多个光源追踪方式提高性能。所以只要游戏支持,比如 2077 中的「光线追踪:超速模式」,对玩家来说游戏画面的效果一定会更好。

    至此,摆在游戏光线追踪面前的就只剩下了最后一个问题:性能。正如前面提到的电影工业里的实时光线追踪十分考验计算能力一样,即便有 RT Core 这样的计算核心进行加速,在原生分辨率下开启实时光线追踪也会带来非常严重的帧率下滑;受限于成本,英伟达也不可能无限制地堆砌 RT Core 数量(不然就真的没几个人买得起了)。

    有没有什么办法在不降低分辨率的情况下仍能获得稳定的帧率呢?

    让高分、高帧率成为可能

    既然高分辨率不能达到稳定的帧率,那不如先降低分辨率渲染,再用算法提升到较高的分辨率,这样不就高分辨率和稳定帧率兼得了嘛。

    这其实也是目前大部分游戏机的处理 4K 画面输出的办法。但是用什么算法提升分辨率呢?很多人会想到的第一个方法可能是插值。借助插值,我们可以很轻松地将 1080P 画面提升至 4K 分辨率,但简单插值效果并不好,对游戏这种特殊的渲染内容而言,还会带来额外的锯齿。

    图片来自知乎 @一疼 ETN

    英伟达最终选择的方案是深度学习,用算法去计算画面,即我们接下来要展开的 DLSS 技术。DLSS 全称 Deep Learning Super Sampling(深度学习超采样),它主要通过 RTX 20 系列引入的 Tensor Core 硬件来加速深度学习,来对实时渲染的图片进行非常高质量的超分辨率。

    DLSS 2

    在 RTX 30 系列发布前上线的 DLSS 2.0 对比第一代 DLSS 进一步带来了如下改进:

    • 4 倍的实时超采样
    • 2 倍的处理速度
    • 通用模型
    • 媲美甚至超越原生分辨率的画面

    其中,4 倍的实时超采样足以让我们在一个极低的渲染分辨率下获得一个高分辨率超采样结果,比如游戏只需要渲染一个 540P 的画面,即可生成一个 1080P 的最终画面,大幅度减少显卡压力。加上一点新算法的「调味」,我们最后获得甚至可以超越原生 1080P 的画面。

    图片来自知乎 @文刀秋二

    处理速度方面的提升,主要体现在一段时间内可以处理的帧数会更多了,搭配 4 倍的实时超采样,最后的结果就是渲染性能的暴涨以及游戏帧率的直线上升。以《控制》为例,4K 分辨率下光追效果全开(全局光照),直接把 2060 的 8 FPS 提升到了 36 FPS,让 PPT 有了可玩性,堪称魔法。

    图片来自知乎 @文刀秋二

    而使用通用模型可以快速在多个完全不同的场景、引擎和风格的游戏中部署 DLSS,让所有的游戏利用同一个神经网络实现高质量的超采样。

    本来在游戏图形领域,性能和画质绝对是成反比的,要想要更好的画质就一定要牺牲性能。而通过 DLSS 2.0 这种鱼和熊掌兼得的技术,原生分辨率渲染输出很快就变成了过去式。超采样的画面不仅不差,反而可能会更好

    左:未开启 DLSS 的原生 1080P,右:开启 DLSS 的 1080P

    DLSS 3:不仅要高分辨率也要高帧率

    虽然大多数的电影还是 24 帧,但在游戏这一场景下,更高的帧率和更稳定的帧速率自然更好。尤其是对一些快节奏的游戏来说,高帧率也能给我们更多的时间来反应并作出更准确的操作。

    因此在全景光线追踪对显卡性能提出新要求的同一时间,主攻高帧率的 DLSS 3 多帧生成技术也应运而生。

    帧采样、帧融合与光流法

    传统意义上的多帧生成技术分为以下 3 种:

    • 帧融合(Frame Blending):最为基础的插帧技术,其工作原理是通过对比两个连续帧之间像素的差异,生成一帧「过渡」图像,这也是很多智能手机、电视上 MEMC 补帧功能的实现方式。这种技术比较简单,适用于简单的场景,但对于复杂的运动和细节可能处理不太好,可能会出现「模糊」的新帧。
    • 帧采样(Frame Sampling):一种算法更为复杂的插帧技术,它首先通过一个方式4挑选出一部分帧,再从这些帧生成新的、需要被插入的帧,来提高帧率。这种方法可以处理复杂的运动变化,但依赖于原始画面的质量和内容。
    • 光流法(Optical Flow):目前算法最为复杂的插帧技术,通过估计每个像素点在图像序列中的运动,可以生成更精确的新帧。这种技术可以处理更复杂的运动变化,它基于对光的流动进行计算,可以更准确地插值新帧的位置。但这种方法计算复杂,对硬件要求较高,且有的时候也不能达到预期的效果。

    然而这 3 种技术在游戏中的应用效果都不一定好,帧融合容易头晕、帧采样可能丢失重要帧,而光流法最后生成的画面不可控。

    既然在生成帧结束后再插帧效果都不好,那么为什么不在生成每一帧的时候就针对性地插帧呢?DLSS 3 的帧生成技术采用的正是这种方法:在渲染游戏画面时就生成额外的帧来补齐画面。从实现原理上来说,在对画面完成 DLSS 2 的超分辨率环节以后,DLSS 3 就要开始生成额外的帧了。想要生成额外的帧需要当前游戏帧、前一游戏帧、Ada 光流加速器生成的光流场,以及游戏引擎数据(例如运动矢量和深度)——这里我打算先举一个不算特别恰当的例子辅助大家进行理解。我们可以把 DLSS 3 的所做的事情想象成我们在走路,我们会不断地根据已经走过和看到的路,大概估计下一步脚下的地面会是什么情况。

    通过分析前两帧画面,DLSS 3 知道画面中的像素的运动方式

    DLSS 3 也是如此,它会分析当前游戏帧、前一游戏帧,就像我们走路时分析之前已经脚下的路和已经走过的路一样,进而理解像素从第一帧图像到第二帧图像中间发生了什么。

    不过如果只看脚下的路,那么走路不是会掉坑里就是会走歪;反映在帧生成的环节里,DLSS 只使用之前的画面来生成帧可能会导致视觉效果异常。我们的大脑会通过已经走过的路面、当前的步伐和方向、我们看到的路的情况,来决定我们接下来一步会走到哪里——要不要避开前面的坑、是不是需要停下或者改变方向。比如前面有个坑,我们就知道要避开它;前面有个台阶,我们就知道要抬高脚步。这个过程,就是我们在根据已经观察到的信息,预测下一步要发生什么,以便做出正确的反应。

    DLSS 3 知道阴影部分不能借助之前的画面,需要重新渲染

    这里游戏引擎数据所扮演的角色就像是我们的大脑:除了提前告诉 DLSS 3 一些必要的数据,DLSS 3 也会自行决定如何用上之前的帧、游戏引擎数据、光流法算法,来有的放矢地预测到每个像素在下一帧中的位置,用尽可能少的资源算出更多的画面。

    实际实践中,很有可能 2 帧只需要渲染第一帧的部分画面即可。大幅度解放了 GPU 的渲染能力。

    这种级别的图像和引擎数据分析,自然也少不了显卡计算能力的加持,英伟达表示第四代 Tensor Core 推理相比于上一代最高可以提升 4 倍,加上新的光流运算单元,这也使得 DLSS 3 目前只有 RTX 支持这项功能。

    整个 DLSS 3 的实现流程

    不过有利自然也有弊,虽然帧生成技术可以快速产生更多的帧,但这个过程仍然需要额外的时间。所以,帧生成技术可能会导致用户输入延迟增加。简单地讲,当你在游戏中执行一个动作,这个动作的结果(例如角色的移动、环境的变化等)需要在画面中表现出来,正常情况下显卡会立即计算并生成这个结果然后展示在你的屏幕上,这个过程通常是非常快速的;但在使用当使用帧生成技术时,假设用户在第 3 帧的时候按下了一个按钮,根据第 1、2 帧以及游戏引擎数据,在用户的操作输入抵达 GPU 时,可能画面已经预先渲染到了第 4 甚至 5 帧了,真的开始渲染至少要到第 6 帧,最后就多了 3 帧延迟。这对于我们来说最直观的感觉就是不跟手,而对于竞技游戏来说额外的延迟会更加致命。

    Reflex 技术的工作流程

    英伟达在这个问题上的解决思路则很简单:尽可能降低系统延迟,也就是使用 RTX Reflex 技术。这项功能于 2020 年正式发布,但放在 DLSS 3 的环节中,RTX Reflex 可以有效降低 DLSS 3 帧生成技术带来的延迟。

    未启用和启用 RTX Reflex 渲染上的区别

    RTX Reflex 的实现原理一方面是减少队列深度,以为后续输入做准备;另一方面则是就是检测到输入时,及时将命令发送到 GPU。我们依然可以用走路来举例:如果我们走在繁忙的街道上,如果提前计划好下面几步的走法(不开启 RTX Reflex 时),那么遇到情况时,比如一个人突然从旁边的小巷走出来,那你即使反应过来了也很有可能撞上那个人,因为你的脚步(GPU 渲染好的画面)已经落后于你的大脑已经做出的决定(我们的输入)。

    所以正常情况下,我们的每一走出一步都会有大脑参与,并且任何突发事件都能使我们的行动即刻响应大脑的决策,无需等待之前行动的完成。

    未启用和启用 RTX Reflex 的延迟对比

    RTX Reflex 开启时也是如此,它会尽可能得将用户操作优先传递给 GPU,来让 GPU 生成新的画面。这样既降低了延迟,又能享受帧生成带来的更多画面。

    DLSS 3.5:为光线追踪引入深度学习

    在 DLSS 3.5 得到应用之前,光线追踪的效果生成一般是放在材质和几何体载入完毕后进行的,此时的游戏世界就像一块没有上色的画布,光线追踪根据游戏内不同类型的模型、材质,计算并模拟反射光、散射光和全局光照在画布中不同位置的呈现效果。

    未进行光效追踪效果渲染的游戏世界看起来是这个样子 | 图:英伟达

    但问题在于,戏内场景千变万化、不同材质对光线的传递效果也各不相同。即便是上面提到的全景光线追踪——因为其实现方式的特殊性(由结果逆推光源和路径)——也无法保证正确判断并渲染画面中的每一个细节。

    因此无论是游戏还是上面提到的特效电影,都会在光线追踪效果渲染之前引入一个人为设计的、用于效果优化的降噪器

    这些降噪器以往通常采用时域累积、空间插值两种方法,比如时域累积会选择多个连续帧中质量较高的像素点进行合成,此法能有效减噪并提高像素填充效果;空间插值则是在单一帧内,通过插值相邻像素点的灰度值,产生平滑的图像效果。

    人工设计的降噪器存在诸多问题,比如因为多帧信息合成导致的倒影画质降低 | 图:英伟达

    但无论哪种降噪方案都有其弊端,时域积累会合成不正确的画面、空间插值则会影响全局光照和反射效果……人工设计的降噪器在设计和实际应用中也有诸多难以应对实际状况的地方。

    要解决这些局部细节上的「不对劲」,担任调色板和笔刷角色的降噪器就必须更加高效且更加聪明,足以在瞬息万变的游戏环境中决定画面中每个细节应该如何修改和调整。于是便有了 DLSS 3.5 光线重建(Ray Reconstruction/RR)的引入。

    前面提到 DLSS 的全称是 Deep Learning Super Sampling(深度学习的超采样),9 月上线的《赛博朋克 2077》 2.0 版本更新中所搭载的 DLSS 3.5,则将这项超采样能力扩展到了提高分辨率、帧率之外——让深度学习参与光线追踪最终呈现效果的生成环节。

    光线重建的核心理念在于,将光线追踪光照处理流程中的人工设计组件,改为效率更高、由深度学习驱动的 AI 模型。在大量训练素材的积累下,光线重建就像经验丰富的画家,不仅有更优质的工具,对游戏内的环境和世界也有更独特、更专业的看法和理解;他知道如何融合不同的颜色、纹理和运动,他熟知如何尽可能保留细腻的光照效果,并能善用各种手法来呈现各种光照效果。

    同等设置下光线重建开启前(上)与开启后(下)的画质对比,注意路面积水中的倒影清晰度、以及远处桥梁顶部的阴影细节

    最终,在《赛博朋克 2077》的世界中,原本就已经足够惊艳的夜之城在视觉上也更能经得起眼尖玩家的鉴赏了。在我们的实际测试中,远处建筑的阴影几乎没有以往频繁出现的闪烁、跳动问题,地面倒影中的霓虹灯广告牌细节清晰可见……无论是近景还是远眺,都几乎不会发现那些原本会打破游戏世界沉浸感的小问题了。

    就连车灯在路面和马路牙子上的不同照射效果都更加真实了 | 图:英伟达

    DLSS 4:能「理解」画面的超分辨率模型、渲染 1 帧得 4 帧的多帧生成

    在详细介绍 DLSS 4 之前,我们先要简单介绍一下 DLSS 4 包含了哪些新功能:一个是大多数老显卡都能得到的升级,光线重建、画面超分辨率、深度学习抗锯齿换用了新的 Transformer 模型;一个则是 RTX 50 系列独占的渲染 1 帧得 4 帧的多帧生成功能;以及配合新的渲染延迟降低算法 Reflex 2

    RTX 系列显卡都能用上最新的 DLAA、DLSS 画面超分辨率算法和光线重建算法;40 系列和以上可以使用改进性能和内存占用的 DLSS 帧生成;50 系列独占 DLSS 多帧生成

    Transformer 模型和之前 DLSS 模型普遍采用的 CNN 模型一样,都是深度学习模型,他们最终达成的目的也很相似——处理数据、提取特征。

    CNN 从原理上来说擅长提取局部信息,但对容易处理了新的数据就忘记旧的数据。更形象点地说,基于 CNN 的 DLSS 就像是一个放大镜。它会先从照片的一个小区域开始观察,然后逐渐移动到其他区域,每次都专注于那些局部细节(比如一个物体的边缘或颜色)。最后再像拼图游戏一样,把每块都都拼凑起来变成一个完整的图像。

    DLSS CNN 模式下的效果,图源 NVIDIA

    由于每个小区域的特征都用了相同的放大方式(无论图中物体出现在什么位置),所以这种方法很高效、参数少,也很擅长识别局部特征再放大出来。CNN 的短处就是依赖小块的信息,会错失整体关系。举个游戏里最常见的例子来说,电线被基于 CNN 的 DLSS 放大以后,电线变成「锯齿形」了,在一些极端的运动场景里,甚至还会让电线不停「闪烁」。

    电线上的锯齿,标示牌边缘也同样如此。2K 中高画质,光线重构「开」,DLSS 质量 CNN 模式

    随着大语言模型 LLM 的各种营销,相信不少人对 Transformer 模型也略有耳闻,受限于篇幅我们这里也不展开介绍 Transformer 的细节了,具体细节可以一步这篇文章。在这里我们只需要知道,Transformer 模型会捕捉全局特征、会通过上下文信息推断依赖关系。

    DLSS Transformer 模式下的效果,皮革纹理更丰富,图源 NVIDIA

    这样基于 Transformer 模型的 DLSS 就像是一个导演,他不会只看一张图片里的某一小部分,而是结合之前渲染好的画面一起考虑。通过分析画面中的元素、元素的前后遮挡关系,Transformer 模型能更准确地理解整体场景和具体的模型。换句话来说 DLSS 4 能「理解」3D 模型具体是什么,过去的画面里和将要渲染出来的画面里这个 3D 模型长什么样。再根据不同的放大方式放大对应的物体,这样不仅传统的画面会更稳定,重影、运动模糊会更少,而且在光线重建的过程中光源的闪烁问题也变得更少见了。这里依然以 CNN 做不好的电线为例,在换用 DLSS 4 以后明显就顺滑很多。

    电线明显更平滑,标示牌边缘也正常很多。2K 中高画质,光线重构「开」,DLSS 质量 Transformer 模式

    Transformer 模型唯一的问题就是资源开销会比 CNN 高得多,在 4080 上打开最新的 DLSS 4 以后显卡计算占用和显存占用明显会高于之前的 DLSS 版本。

    极端情况下电线清晰很多,也不容易闪烁了。另一组 CNN 和 Transformer 对比样张,参数同上。

    RTX 50 系列显卡的多帧生成技术则是 DLSS 3 插帧技术的的进一步升级。DLSS 3 插帧技术需要在渲染游戏画面时,就需要当前游戏帧、前一游戏帧、光流场、游戏引擎数据(例如运动矢量和深度) 等等众多的数据一同参与运算,才能生成额外的帧。

    DLSS 3 帧生成的简化版模型,本质上每次只能生成 1 帧,图源 NVIDIA

    只生成一帧可能看起来还好,但想要生成更多的帧,就需要那么嵌套计算这些数据,显卡自然也需要在硬件上有额外的处理单元。对于老黄这样的「刀法大成」的成本控制专家来说是不能用这个方案的,即使真的用了售价上天我们也不会买账。

    帧生成改进了生成速度和所需内存,图源 NVIDIA

    RTX 50 系列则从软件和硬件两方面入手解决了多帧生成的问题。首先是软件上,提升了 40% 的帧生成模型的速度,帧生成所需要的显存也减少了 30%,为多帧生成打下了基础,这个基础 40 系列也能享受到。

    在硬件上,RTX 50 系列砍掉了一直以来 RTX 上的光流加速单元,这个单元主要通过计算图像连续帧之间的亮度变化来估计每个像素的运动。换用通过人工智能模型来估计每个像素的运动,加上通用的计算单元来减少额外的帧生成所需要的成本,多帧生成的计算量也就下来了。

    DLSS 4 多帧生成的简化版模型,通过 AI 光流可以连续生成,图源 NVIDIA

    但是 120Hz 的屏幕两次刷新间隔是 8.33ms。所以显卡需要用更短的时间完成:画面超分辨率、光线重建以及多帧生成这样多个步骤,每个步骤内还有一个甚至多个 AI 模型要跑。所以 RTX 50 系列也升级到了第 5 代张量核心(Tensor),NVIDIA 表示相比于上一代有 2.5 倍的 AI 处理性能的提升,这样满足多帧生成的硬件也有了。

    但生成帧除了生成,还要保证帧与帧间隔均匀,帧间隔不均匀即是帧率再高人看起来也会卡顿。过去 DLSS 3 主要依赖于 CPU 控制,但是 CPU 调度本身存在的不确定性,额外生成的帧可能无法严格遵循固定的时间间隔同步到显示器上,帧间节奏的不一致性,视觉上的流畅度就变差了。

    RTX 50 在生成多个帧以后,会用显卡内部的 Flip Metering 硬件将控制帧同步的逻辑交给显示引擎,作为显卡自然能更精准地把画面同步到显示器上,加上提高了两倍的像素处理能力的显示引擎。在画面性能模式下,DLSS 4 的多帧生成最多可以只用 1 个像素渲染额外 15 个像素。高帧率畅玩带有光线跟踪的 3A 游戏或许真不远了。

    图源 NVIDIA

    有了新的多帧生成,降低渲染的 Reflex 技术也迭代到了 2 代。Reflex 2 在 1 代的基础上引入了新的「Frame Warp」(帧扭曲)的功能。当 GPU 渲染某一帧时,CPU 会根据最新的鼠标或手柄输入计算下一帧的视角位置。而 Frame Warp 会立即从 CPU 采样新的视角位置,并将 GPU 刚刚渲染的帧调整至最新视角。在渲染帧被发送到显示器之前,尽可能最新的视角数据扭转渲染好画面,确保屏幕上呈现最新的鼠标输入的画面。

    Reflex 2 工作原理示意图,图源 NVIDIA

    为了配合 Frame Warp 功能导致的图像出现撕裂或缝隙、以及出现的新场景,NVIDIA 也配套开发了一个延迟的预测渲染算法,该算法会使用来自先前帧的视角、颜色和深度数据,对这些撕裂准确修复图像。NVIDIA 还表示,Reflex 2 未来还会下放给其他的 RTX GPU 显卡。

    延迟降低效果展示,图源 NVIDIA

    DLSS 4.5:「力大砖飞」带来更原生的画面、支持 6 倍多帧生成

    不出意外,在 2026 年 CES 首日老黄端出了最新的 DLSS 4.5 技术,看名字就知道这是 2025 年 DLSS 4 的「升级版」。DLSS 4.5 主要升级了 DLSS 模型、支持在 RTX 50 系列的显卡上生成 6 倍帧,并将在未来支持动态多帧⽣成技术。

    全新 DLSS 模型:更接近原生渲染

    DLSS 4.5 延续了 DLSS 4 上使用的Transformer 模型的思路,只不过新的模型采用了更大的 Transformer 模型。

    Transformer 模型的大小我们可以简单理解成:「这个模型可以支持多复杂的情况」。想要支持更复杂的情况,Transformer 模型也就需要越大,自然能做到的事情也就越多。举个可能更易懂的情况,就好比 OpenAI、Google 商业公司在经历多年的迭代以后,模型已经从从原来基本只能拿来聊天、做一些简单的问答与改写,到现在已经能稳定完成规划、撰写代码这样的需要更长链路推理的情景了。

    不过「更大」不意味着「一定更好」,参数量上去之后会有明显的边际递减效应,而且更大的 Transformer 也代表着不管是训练还是后面使用,都需要占用更高的算力和更大的显存。

    有了这个基本的认识以后,我们再来看 DLSS 4.5 里这个新模型,NVIDIA 表示这个新模型是在一个「⼤幅扩展的⾼保真数据集上完成训练」,而结果则是:

    ……对每个场景都有更深⼊的理解,并能更智能地利⽤游戏引擎的像素采样和动态数据,从⽽呈现具有更佳光照、更精细边缘和动态清晰度的图像。

    更多的训练素材+第二代 Transformer 架构 =DLSS 4.5,图源 NVIDIA

    在我看来,NVDIA 的 DLSS 4.5 走的是「力大砖飞」的思路:通过显著提升模型容量,来覆盖更复杂、更多的渲染场景,尤其是以往基于 CNN 或较小模型难以稳定处理的情况,例如透明或半透明材质中常见的鬼影与闪烁问题。

    所以 DLSS 4.5 在整体稳定性和细节一致性上都有明显改善,最终呈现出的画面观感也更接近原生渲染。

    不再糊成一团的高频细节

    除了让画面效果更接近原生渲染,DLSS 4.5 还对游戏中降噪方式和高频细节保留的方式做了优化。许多人可能认为,只要角色保持静止,屏幕上所有的像素亮度就自然保持不变。

    但在游戏这种实时 3D 渲染的场景里,画面是一个随时间持续变化的窗口。每一帧都会重复回答同一个问题:每个像素此刻应当有多亮。即使角色没有任何主动操作,游戏中依然会通过多种细节变化来增强沉浸感,从而影响最终画面的渲染过程,比如:

    • 角色的呼吸模拟
    • 角色的待机动作
    • 周围环境的细微变化

    这些因素都会导致 3D 模型在映射到 2D 屏幕时落在不同的屏幕像素上,这样每一帧在渲染时每个像素点亮度都不一样,因为屏幕上每个像素都应该反应实时变化。

    周围环境会时刻发生变化,每个像素的亮度自然也在不断改变,图源 NVIDIA

    更不用说,在游戏画面渲染中还存在着大量的浮点运算,浮点数小数点后面的 N 位发生一点变化,也可能会导致渲染的分支路径不同,让实际像素的亮度发生变化。

    而且哪怕是来了什么外星科技,也不存在让渲染像素出现亮度不变的情况,同时性对比效应也会影响视觉观感。下面我们举一个比较极端的例子:如果有一簇像素在上一帧大部分覆盖比较明亮物体,而在这一帧又覆盖了比较暗淡的背景。哪怕这簇像素本身的亮度也没变化,给我们的带来的视觉亮度也一直在改变。

    背景和前景亮度不同,同时性对比效应会让我们误认为像素的亮度发生了变化

    而人眼人眼对亮度变化的敏感度,又远高于色彩变化。不管是这个像素亮度真的发生了变化,还是同时性对比效应导致的亮度感知变化,即使变化幅度很小,但只要出现得足够频繁,就会被我们感知到。从我们的视角来看,就是游戏画面里有很多闪烁的噪点,比如模型边缘的锯齿,看着毛毛躁躁的很不舒服。

    要让画面舒服起来,就要减少画面里这些闪烁的噪点。这个逻辑也自然影响到了后续各种抗锯齿算法以及早期 DLSS 画面超分技术的设计取向:稳定但稍微模糊的画面远好于清晰但不断闪烁的画面。早期 DLSS 在设计上也是这样做的:只有跨帧一致的像素才是可信的真像素,才能在这个基础上超分、补帧;宁可抹掉不确定信息、尽量减少变化,让画面稳定,至于细节是可以被牺牲的。

    在天国拯救 2 中,高对比度场景下高频细节 DLSS 4 的情况里会被抹掉,而 DLSS 4.5 则很好得还原了,图源 NVIDIA

    很不幸的是,像是铁丝网、屋檐、玻璃纹理、武器边缘花纹这样的高对比度,也被称为高频细节也一样会被各种抗锯齿算法或者早期 DLSS 画面超分技术误认为是闪烁,而被压到没有。反映到游戏里一些原本真实存在、且在物理上完全合理的高频细节,会直接糊成一团。比如原本应该清晰的物体边缘,在移动时反而变得更糊了;又或者角色或镜头一移动,远处细节立刻丢失。

    在《巫师 3:狂猎》中,新的 DLSS 4.5 模型(右,Model L)相比旧版 DLSS 模型(左)能提供更加锐利的画质,同时还原原本被算法抹除的植被细节

    相比于过去简单粗暴地抹掉细节,DLSS 4.5 选了另一条简单粗暴的路:拿到数据硬算,从而知道哪些是真噪点,哪些是细节。因为在渲染画面时,游戏引擎本来就在计算各种光照的具体情况,那 DLSS 4.5 不如就对着这个数据算。更形象得说就是,DLSS 4.5 就是通过理解光,来分辨哪些是真的细节,哪些是噪点。

    这种变化在 DLSS 4.5 加持的游戏画面中的体现非常直观,比如:强反射表面和亮部能够保留完整的亮度层次与色域信息,不再发灰;暗部与阴影也不必再为整体观感,而牺牲细节的清晰度。

    在《寂静岭 2 重制版》中,DLSS 4.5(右,Model L)更能理解门板上瓦楞玻璃的透光场景,精准还原光追效果;旧版模型(左,Model J)相比之下就是在随意涂抹了
    因为能直接拿到游戏引擎中的数据,DLSS 4.5(右,Model L)对《GTA V:增强版》中较远处的字体广告牌还原得也非常精准

    更大的资源占用

    前面我也提到过,更大的 Transformer 也代表着更高的算力占用。在显卡上主要就体现在,渲染延迟和游戏时的显存占用。根据《NVIDIA DLSS Super Resolution (version 310.5.0)》里提供的数据:

    其中,模型 J, K 是 DLSS 4 相关的两个模型;预设 M 是标准的 DLSS 4.5 超分模型,也是 NVIDIA app 中最新(Lastest)选项使用的模型;而预设 L 是针 4K 分辨率下的超⾼性能模式优化的模型。

    RTX 50/40 系列预设1080P2K4K
    [显存占用]J, K85.77MB143.54MB307.37MB
     L118.36MB207.97MB464MB
     M120.27MB211.42MB471.84MB
    RTX 30/20 系列预设1080P2K4K
    [显存占用]J, K85.77MB143.54MB307.37MB
     L159.24MB279.28MB618.43MB
     M161.10MB282.67MB626.2MB
    2080Ti预设1080P2K4K
    [渲染延迟(DLSS 性能模式)]J, K1.16ms1.80ms3.5ms
     L3.51ms5.45ms10.60ms
     M1.95ms3.41ms7.51ms
    3080Ti预设1080P2K4K
    [渲染延迟(DLSS 性能模式)]J, K0.65ms1.02ms2.06ms
     L1.67ms2.63ms5.32ms
     M1.19ms2.04ms4.35ms
    4080预设1080P2K4K
    [渲染延迟(DLSS 性能模式)]J, K0.47ms0.71ms1.49ms
     L0.79ms1.19ms2.51ms
     M0.54ms0.92ms2.08ms
    5080预设1080P2K4K
    [渲染延迟(DLSS 性能模式)]J, K0.46ms0.68ms1.31ms
     L0.78ms1.16ms2.24ms
     M0.49ms0.80ms1.74ms

    可以看到 DLSS 4.5 模型,不管是需要的显存和帧生成所需要的时间都显著高于 DLSS 4 模型所需要的量。而且相比于 RTX 50/40 系列,RTX 30/20 系列在使用 DLSS 4.5 时所需要的显存和帧生成延迟还会更高。

    背后的道理也很好理解,比较在同样分辨率、同样 DLSS 档位下,每帧 DLSS 推理要算的东西更多了,自然 Tensor Core 的压力更大。而 RTX 40 系列开始,NVIDIA 给显卡配备了更快的、更先进、支持FP8 精度计算的 Tensor Core,通过更高等级的运算单元来让第二代 Transformer 的性能代价变小,也不失为一个解决方案。通俗地说,就是 RTX 40/50 在 DLSS 4.5 上有硬件红利。

    但这不意味着 RTX 30/20 就不适合用 DLSS 4.5 了,在相对没那么极限的游戏场景中(比如《古墓丽影:暗影》这类相对较老、但支持 DLSS 特性的游戏),牺牲一点点帧率或者降低一档 DLSS 档位就能获得远胜于 DLSS 4 技术的画面,何乐而不为呢?

    多帧生成:高达 6 倍的多帧生成、静态元素优化以及动态多帧生成

    RTX 50 系列显卡的多帧生成技术在 DLSS 4.5 以后,从原先的 4 倍多帧生成升级到了 6 倍。

    这个提升我认为是 DLSS 4.5 帧生成模型变得更高效了,生成 5 个额外帧的过程不需要额外推理 5 次,每个真渲染帧只需要运行一次推理,接着使用来自游戏引擎的后续物理数据,就能直接生成 5 个、额外的、符合画面运动效果的额外帧。

    而且得益于 DLSS 4.5 针对画面放大也变得更稳定、更真实了,这样多帧生成时所依赖的参考帧可信度也明显提升,自然多帧生成导致的画面鬼影、抖动的情况自然也变少了。所以 2026 年打开路径光追的 3A 游戏也能有高刷体验。

    龙之信条 2 中,小地图在 DLSS 4 帧生成的情况下经常会出现鬼影的现象

    DLSS 4.5 的帧生成模型还针对游戏中的界面元素(UI)做出的优化,因为 UI 通常不遵循世界运动矢量规律,这种「静态」元素也是最容易在生成帧里出现抖动/重影现象的元素。DLSS 4.5 选择将游戏引擎数据融合进模型,这样不管是准星还是迷你地图,DLSS 4.5 多帧生成出来的静态元素也变稳定了。

    天外世界 2 中的准星在 DLSS 4.5 中再也不会变「软」了

    由于 DLSS 4.5 支持了 6 倍帧生成,不过这就引出了另一个问题,我们真的时时刻刻需要那么多帧吗?毕竟站在 2026 年年初的这个时间点,大多数的显示器「电竞」(高刷新率)属性和「专业」(高分辨率、HDR)属性通常只会二选一,那怕是两者兼得的显示器一般也要切换模式,更别说 360Hz 刷新率的显示器价格也不便宜了。

    所以我的观点是,有 6 倍的帧生成可以,但没必要时时刻刻生成超过显示器刷新率的帧,只需要游戏画面不卡顿不撕裂就可以了。而 NVIDIA 给出的解决方案是动态多帧生成,从今年春季开始 RTX50 系列的多帧生成不会采用固定的帧率倍数,而是根据显示器刷新率或游戏设置的目标帧率,自动在在不同的帧率倍数之间切换。

    这样在图形密集的场景里 DLSS 就能拉高生成倍率,补足更多的帧;而在渲染压力没那么大的场景就能降低生成倍率,只生成需要的帧,来降低功耗和风扇噪音。

    怎么用

    想要用上 DLSS 4.5,还有些额外的细节值得注意。首先是软件上的细节,我们要把 NVIDIAapp 升级到 11.0.6 版本以上,并升级到最新的 NVIDIA 显卡驱动。

    而在最新的 NVIDIA app 中,原先的 Latest(最新)选项被移除了,转而引入了新的 Recommended(推荐)选项。在推荐模式下,NVIDIA 表示:如果你在游戏中 DLSS 选项选择了「性能模式」将会调用预设 M、「超级性能模式」则会调用预设 L,其他模式则继续使用 K。但预设 M 和 L 也都支持 DLSS 超分辨率质量和平衡模式以及 DLAA 抗锯齿。

    所以想要用上 DLSS 4.5,也是有那么一点点门槛的。但大致分为两个方法:

    • 在游戏中,DLSS 选项设置为「性能模式」或「超级性能模式」档;
    • 在 NVIDIA app 中,针对全局或者单个游戏设置 DLSS 覆盖模式,Super Resolution(超分辨率)设置为预设 M 或预设 L。

    要确认是不是用上了 DLSS 4.5 也很简单,可以在游戏中,按下 Alt+ Z ,选择「统计(Statistics)」-「统计视图 (Statistics View) 」,切换到 DLSS 打开 NVIDIA App 浮窗统计信息视图,查看当前使用的模型即可。

    参考链接:

    > 关注 少数派公众号,解锁全新阅读体验 📰

    > 实用、好用的 正版软件,少数派为你呈现 🚀

      很多读者都会好奇少数派的编辑们到底平时都「买了啥」。我们希望通过「编辑部的新玩意」介绍编辑部成员们最近在用的新奇产品,让他们自己来谈谈这些新玩意的使用体验究竟如何。

      内容声明:《新玩意》栏目如含有商务内容,将会在对应条目标注「广告」。


      @张奕源 Nick:

      拓竹 P2S 3D 打印机 + AMS 2 Pro

      • 参考价格:¥3994.15(含 AMS,价格为政府补贴后)

      前文有提到,我因为想搞家庭收纳而入坑了 3D 打印,所以在家里摆了一台拓竹的 P2S。

      P2S 虽然已经发布了两个多月,但依然算是拓竹的新品。得益于我入坑晚,没经历过 3D 打印在民用化、小型化过程中的历次迭代,一上手就是几乎没有缺陷的成熟产品,所以 P2S 在我眼里已经趋近完美,在使用它的这两周里,我收获的全是新奇感。

      首先,它很易用,非常非常容易上手。你可能也对他们的开源模型社区 Makerworld 有所耳闻,这上面有各种各样花里胡哨、稀奇古怪的模型可供下载,而且其中的大部分都针对拓竹打印机写好了配置,只需要下载之后跟自己的机型同步一下,就能直接开打,不用修改任何参数。

      而且 Makerworld 上有很多强工具向的冷门模型,恰好满足了我的需要,譬如我在筹备我派的《寻源南疆》项目拍摄,要带一堆拍摄工具,我就打了一套索尼相机的电池盒、镜头盖等。还有一些收纳盒,也都是针对 U 盘之类的小玩意设计的,很适合旅途携带,实用又方便。

      3D 打印的卡口盖和电池盒,这类玩意单买不划算,很适合 3D 打印

      如果你和我一样是特别怕麻烦的超级懒人,那可以在购机的时候顺便整一套 AMS(或者直接买套装),耗材也直接用拓竹第一方的。这样一来,机器可以自动读取颜色、余量等信息,上料、退料、换料也都自动完成,几乎可以做到「除了要自己决定想打啥,别的都能撒手不管」,看上什么模型打就完了。

      此外,它的易用性还体现在对打印机的摆放环境要求没那么严格。我家里地方小,没有多余空间再摆放很沉重、稳定的桌子了,只好把 P2S 放在厨房一个三脚茶桌上。我本来还担心晃动会影响打印质量,结果完全没事。后来我研究了一下才发现,P2S 有一套内置的平衡补偿机制,对于小幅度的桌子晃动之类都能自动找平和稳定,没有我担心得那么娇气。

      其次,它的出品很稳定。我用过的 3D 打印机不多,P2S 肯定是其中出品质量最高的那个。在默认状态下,P2S 打出来的模型就已经足够细腻厚实,而且打印过程几乎没有出过大错。我唯一一次遇到炒面的情况还是模型设计本身的问题。通常来说,打印机的配套 app《Bambu Studio》会自动判断和处理模型是否需要加支撑、加边之类,选择模型时也可以稍微看看大家晒出的成品或者反馈的打印质量,基本就能避免类似的情况。

      滑盖收纳盒咬合得很到位,紫色的料用完之后续上粉红的接着打,融合得也不错

      再次,它的运行噪音很低,这一点超出了我的预期。P2S 采用了全封机身,能有效隔绝大量的噪音,加上它打印时主要发出的是一种持续、中低频的声音,所以不算恼人,响度大体和正在运行中的空调接近。我一开始是把它放在客厅、挨着我的办公桌的,边打印边工作都没什么大碍。但考虑到我之后会利用睡觉时间打长任务,所以还是把它放进了厨房,工作期间在卧室完全听不到声音,不打扰休息。

      再推几个我最近比较喜欢的模型吧,如果你也有 3D 打印机可以打打看。

      第一个是我目前最喜欢的收纳盒,「机械风格收纳盒」的单色版本。它有方方正正的盒体,所以更便于摆放;默认的尺寸就很合适,容量大,好收纳;支援堆叠,有位置合理的卡槽,可以无限叠叠乐。这个盒子我打了得有十个,把家里的各种乱七八遭的小东西都收纳了一遍,相当解压。

      模型地址:https://makerworld.com.cn/zh/models/1018417-ji-jie-feng-ge-shou-na-he-ke-dui-die

      超好用!

      第二个是「BUCKETS – 可堆叠收纳盒」,这款是在所有我打过的斜口收纳盒里品质最好也最好看的。它有厚实的外壁和大收纳空间,也做了可堆叠设计,而且这种窄瘦的造型更适合放在边边角角里,装什么都行,很百搭。

      模型地址:https://makerworld.com.cn/zh/models/1504594-buckets-ke-dui-die-shou-na-he-wu-xu-zhi-cheng

      也很好用!

      第三个是个偏冷门的「带滑盖的大卡片盒」,这玩意原本是个塔罗盒,滑盖上的图案也是按着这个路子来的。但这个盒容量大,工艺精致,打印时间还不长,是我目前打过的滑盖盒里综合品质最高的。

      模型地址:https://makerworld.com.cn/zh/models/631847-dai-hua-gai-de-da-qia-pian-he

      非常细腻还不费料,适合用这种木质材料

      MelGeek 蜜氪奇点 Centauri 60 磁轴键盘

      • 参考价格:¥1695.18(首发优惠价)

      买这块键盘有一半是冲动消费。它长得挺好看,60% 配列的布局很紧凑,磁轴的手感我也很好奇,所以我在产品刚发布的时候就下单了,也算是当了一把第一批用户。

      好在这次冲动没有受到惩罚——奇点 60 好用。它默认配的是「TTC 反斗万磁王白轴」,手感其实和茶轴类似,都是直来直去、清脆不累的手感。我用它基本都是打字办公,长期使用也不会觉得累,而且因为手感酥脆,所以很容易进入某种心流状态,蛮好玩的。

      拓展阅读:https://sspai.com/post/105108

      奇点 Centauri 系列还有一个更旗舰的 80 款,区别在于使用了 80% 配列,有 F1-F12 功能键区,而且键盘右侧多了一块萤幕,可以查看键盘状态或者调整参数。我更习惯键盘靠近鼠标,希望键盘越小越好,所以就没买大的。而且 60% 配列也让键盘整体更显紧凑,我觉得比 80 好看一些。

      我还很喜欢的奇点 60 的 LED 灯带,MelGeek 为它专门做了一个类似贪吃蛇绕圈圈的光亮效果,这让键盘有了些许趣味,而且比 RGB 闪瞎眼高级很多。

      至于键盘性能,我反而没太操心。咱毕竟不打 CS 多年,对键盘的延迟、无冲等指标已经没有太多追求。MelGeek 提供的网页版驱动也覆盖了完整的参数调节选项,不仅可以逐键定义,还能照抄职业选手的配置,搞起来十分简单。但其实这把键盘是支援从里到外完全自定义的,从轴体到底棉,再到板簧和定位版,甚至键盘外部的金属装饰框,理论上都能随便更换或者调整。对于喜欢折腾的玩家来说,这肯定是个好消息。

      MelGeek 的驱动介面,可以单独调整每个键的参数,也可以直接抄作业

      不过,我对奇点 60 也有不满意之处——它的灯效速率太快了,即便是调到最慢也要大概一秒变换一次,做不出那种缓亮缓灭的呼吸感。这其实是个软体层面可以解决的问题,如果 MelGeek 的朋友能看到这篇文章,希望可以考虑再加几个灯光速度的档位,照顾一下我们这些老年人 :)

      @克莱德:米家标签打印机

      • 参考价格:¥139(带 3 卷标签纸)

      每到换季都要翻箱倒柜找衣物和床上用品,每年也都会一遍遍重复那个永恒不变的自我拷问:顶上那个收纳盒里放的什么东西来着?

      今年索性决定购入一台标签机,给家里的一切收纳容器都贴上「防呆标记」。因为是自己此前从未主动了解过的新品类,所以首先找到了生活小电器知名品牌米家。

      和以往见过的可以打印各种图片、发票样式的标签机不同,米家这款标签打印机主要面向的是需要「贴贴贴」的场景,所以使用的耗材也是宽度固定的、类似透明胶布的长条状标签纸,在米家 app 内可以手动设置打印标签的固定长度(最多 150mm),也可以根据打印的实际内容自动决定。

      标签文本的编辑工作自然也是在米家 app 中完成,应用内提供的排版功能包括样式、字体、对齐,样式中又包含基本的加粗、倾斜、下划线、字间距、行间距、文本方向等,移动文本的过程中会提供辅助参考线,也内置了一些固定的对齐方式和微调方向按钮。如果是日常助记的文本标签,没有太多的排版和设计需求,这些工具基本能够满足——但如果你想多点装饰和趣味,它不支持 emoji 输入、仅提供有限的贴纸图案和内置图文模板,就会显得有些力不从心甚至可以说是非常简陋了。

      不过在我的使用场景下,标签纸的打印效果可以说清晰锐利,并且标签纸采用的是中间对半剥开的设计,也可以避免在边角手搓导致边角粘性下降的问题。

      唯一的问题是标签纸默认为透明背景+黑色字体,且仅支持黑白打印,所以打印的标签用在一些浅色收纳容器或白色家电、电子产品上效果还行,但如果是深色就有点恼火了——这里你只能牺牲一半的标签宽度、剥开一半的胶面,然后将文本打印在没有剥开的那部分,达到白底黑字的效果。


      @PlatyHsu:徕芬 Swift 4 吹风机

      • 参考价格:560(国补后,原价 659)

      我一般是不怎么用得到吹风机的——用我妈的话说,你那几根毛有什么好吹的。(澄清:还是有几根的。)不过,人在深圳,你也不知道什么时候就会天赐甘露,还是需要留一手能让自己快速变得体面的方式。

      我的上一个吹风机,就是在这样一个雷雨天抱头逃回的路上,花几十块钱从外卖软件上点的。可想而知,它的风力即使对付我那几根毛都有点过于文明了。正好前段时间看国补优惠信息的时候,刷到了徕芬的吹风机,问了一圈周围买过的人,评价都还行,就弄了一个新型号 Swift 4试试。

      素闻徕芬擅长致敬苹果,果不其然,从牛皮纸箱和封口方式,到只印了产品图片的白色包装,再到内附的说明文档排版,甚至拆封后的清洁剂气味,无不散发出浓浓的果味。

      说回产品本身,Swift 4 这一代相比过往型号,主要是改进了机身材质,用上了铝合金,看起来还是比较精致的。电源线有理线器,不过长度 1.7 米(也就是不到两根手机充电线的长度)稍微短了一点。

      工作性能方面,Swift 4 最高风速标称 23m/s,算是比较快的水平;但是因为机身尺寸不大,出风量肯定还是比不上 Tony 老师们拿的那些大家伙,只能说对我是够用了。工作噪音标称最大 59dB,我用手机量了一下差不多,还是比较安静的。搭配不同工作模式,机身尾部的圆形灯光会显示出四种颜色,是一个醒目也好看的设计。

      如今什么家电产品都要赶时髦搭配点「智能」,Swift 4 也不能免俗,内置了蓝牙,可以和徕芬 app 或者微信小程序搭配使用。我贫乏的想象力实在无法理解吹风机为什么要智能——更离谱的是还只能电机呜呜转的状态下配对和操作——但好在除了冷热定时循环之外,并没有什么非要配对才能实现的功能,大多数时候直接忽略这部分就好了。

      总的来说,Swift 4 在补贴下的性价比还是可以的,虽然可能在一些细节上比起戴森还是有差距,但对我这种偶尔用用的已经足够了。如果非要挑什么毛病的话,简洁精致并不是只有苹果那一种表现形式,也许在学习的时候可以更有创意和自信一些。

       

      我们近期开通了新玩意的社媒帐号,更有更多新奇产品和服务以视频方式呈现,快来关注我们吧!

      如果你也想分享「新玩意」🔉:

      • 获取 Matrix 社区写作权限并签署 Matrix 共创计划
      • 新发布一篇文章,在标题中标注「新玩意」前缀;
      • 用至少 800 字介绍产品,并配上 2-3 张产品的实拍图片;
      • 在网站个人信息中补充支付宝账号。

      成功入选还可以得到 108 元的「剁手红包」🧧,并在每周二的社区速递栏目中展示。如果你有兴趣参与,就赶紧来稿吧!

      > 下载少数派 客户端、关注 少数派公众号,了解更多的新玩意 🆒

      > 特惠、好用的硬件产品,尽在 少数派 sspai 官方店铺🛒

        iQOO 发布 iQOO Z11 Turbo 手机

        1 月 15 日,iQOO 正式发布 iQOO Z11 Turbo 手机,起售价 2699 元,国补后到手价 2039.15 元起。

        UTaBb3TIFolJg4xejT9cgZmQnnc

        屏幕方面,iQOO Z11 Turbo 配备一块 6.59 英寸 OLED 直屏,分辨率为 2750×1260,支持最高 144Hz 刷新率。屏幕采用 TCL 华星 C9+ 发光材料,局部峰值亮度最高可达 5000nit,最低亮度约 1nit。显示调光方面,该屏幕支持类 DC 调光及最高 4320Hz 的高频 PWM 调光,并提供全亮度范围的类 DC 调光选项。同时,屏幕具备最高 3200Hz 的瞬时触控采样率和 300Hz 十指触控采样率,支持 10 亿色显示,表面覆盖肖特金刚盾玻璃。

        性能方面,iQOO Z11 Turbo 搭载高通骁龙 8 Gen 5 处理器,并配备一枚自研辅助芯片 Q2,用于游戏相关的性能调度与显示优化。整机采用 LPDDR5X 内存与 UFS 4.1 闪存组合,并配备大面积 VC 液冷散热结构。官方公布的综合性能测试成绩超过 359 万分。在游戏测试中,主流开放世界手游平均帧率约为 60 帧,整机功耗控制在 4.54W 左右。

        续航方面,新机内置 7600mAh 电池,采用第二代半固态电池方案。官方表示,该电池在高温或低温环境下可维持较为稳定的放电表现。充电方面,iQOO Z11 Turbo 支持 100W 有线快充,并提供边充边玩的直供供电模式。散热系统方面,机身内部通过多层散热结构以降低核心温度,并改善高负载场景下的热量分布。

        影像方面,iQOO Z11 Turbo 在 Z 系列中首次配备 2 亿像素主摄,支持 4 倍无损变焦,并覆盖 50mm、85mm 等常用人像焦段,同时支持多焦段 Live Photo 拍摄。前置摄像头为 3200 万像素,并支持 0.8 倍广角取景。

        外观与设计方面,iQOO Z11 Turbo 提供沧浪浮光、光晕粉、天光白和极夜黑四种配色。其中,极夜黑版本采用玻纤后盖,其余配色为玻璃后盖。机身采用铝合金中框设计,宽度约 74.42mm,厚度 7.9mm,重量约 202g,并支持 IP68 / IP69 级防尘防水。

        通信与系统方面,新机内部集成多天线设计,以提升复杂网络环境下的连接稳定性。系统方面,iQOO Z11 Turbo 预装 OriginOS 6,系统引入新的流畅度优化方案与动画效果,并整合多项 AI 功能,用于搜索、分享等日常操作场景。来源


        大疆发布 DJI RS 5 轻量商拍稳定器

        大疆今日正式发布全新轻量商拍稳定器 DJI RS 5,标准版 3099 元,套装版 3899 元。

        PQmBb8LyKoGQsox5RJfcmRNinVf

        据悉,DJI RS 5 引入全新 RS 增强智能追踪模块,跟拍对象从人物扩展至车辆、宠物等多类主体;官方称人物跟随识别距离最远可达 10 米,主体短暂离开画面也可重新锁定。该模块采用磁吸式安装,并支持在触控屏上点选或框选主体启动跟随,配合辅助构图能显著降低复杂运镜门槛。

        稳定与动力方面,DJI RS 5 电机峰值扭矩较前代最高提升 50%,结合第五代 RS 增稳算法,在快速转动、运动拍摄及竖拍场景下可获得更稳定画面。操控层面,新机支持原生电控手提转接手柄,便于单手与低角度拍摄,并新增 Z 轴稳定指示器,实时提示上下抖动以辅助调整步伐。

        续航与机身设计同样强化:充电速度提升 60%,约 1 小时可充满;标配电池续航约 14 小时,搭配 BG70 大容量电池手柄最长可达 30 小时。整机约 1.46 千克,支持第三代原生横竖拍切换,最大负载 3 千克,可覆盖主流微单机身与镜头组合。

        扩展能力方面,DJI RS 5 原生支持 Focus Pro 电机与 DJI SDR 图传系统,内置 RSA 通信接口并兼容多种官方与第三方配件;同时开放 DJI RS SDK,支持开发者定制更多专业功能。来源


        联发科发布天玑 9500s 和天玑 8500 芯片

        1 月 15 日,联发科发布天玑 9500s 与天玑 8500 芯片。两款芯片在硬件层面对生成式推理与多模态模型作出深度优化,原生支持全球主流大语言模型(LLM / MLLM)及 Stable Diffusion 图像生成模型,并引入 AI 超清晰长焦算法、天玑 AI 语义分割引擎与 AI 反光炫光消除技术。同时,芯片支持端侧 AI 实况照片美化与照片编辑,以及基于端侧 AI 算力的通话、会议和文件内容 AI 摘要功能。

        其中,天玑 9500s 采用台积电第二代 3 纳米制程,集成超过 290 亿个晶体管,搭载旗舰级全大核 CPU 架构,并配备 Cortex-X925 超大核。联发科表示,该芯片结合第二代天玑调度引擎与超级内存压缩技术,在性能调度效率与应用启动速度方面带来明显提升。天玑 9500s 同时支持光线追踪、8K HDR 视频、端侧 AI 计算,以及 5G 与 Wi-Fi 7 等功能。

        面向轻旗舰市场的天玑 8500 同样采用第二代全大核 CPU 架构,基于台积电 N4P 工艺打造。其中,CPU 性能较上一代提升 7%,GPU 性能提升 25%,并配备四通道内存。天玑 8500 同样支持光线追踪技术,并加强了语音与影像 AI 能力。来源


        菲律宾对华免签

        菲律宾外交部宣布对华免签,自 2026 年 1 月 16 日起,中国公民可免签入境菲律宾,停留时间最长为 14 天。该政策仅适用于经马尼拉和宿务机场入境的游客,且 14 天的停留期限不可延长。来源


        千问宣布开放 AI 生活购物功能

        1 月 15 日,千问 App 宣布全面接入淘宝、支付宝、淘宝闪购等阿里生态业务,面向所有用户开放 AI 购物与生活服务功能测试。

        官方介绍称,千问 App 在对话界面内实现点外卖、AI 购物、订机票等多项服务的一体化操作,同时上线 400 多项新功能,深度接入支付宝政务服务与飞猪旅行服务,并已公布完整功能清单。同时新增「任务助理」功能,用于支持多步骤复杂任务的智能规划与执行。来源


        Apple 宣布 Apple Pay 支持 Visa 卡

        Apple 于 1 月 15 日宣布拓展 Apple Pay 的跨境支付支持。中国大陆用户在境外旅行时,可使用本地发行的 Visa 信用卡与借记卡,在支持免接触式支付的线下门店与线上场景完成付款。

        目前,中国工商银行、中国银行、中国农业银行、交通银行、招商银行、中信银行、平安银行、兴业银行发行的 Visa 信用卡,以及中信银行发行的 Visa 借记卡,均已支持该功能。用户将上述卡片添加至 Apple 钱包 App 后,即可通过 Apple Pay 实现跨境支付。

        此外,上海浦东发展银行、中国建设银行、中国民生银行、中国光大银行等机构发行的 Visa 信用卡,预计将在未来数月内加入支持行列。万事达卡方面也计划在未来数月内,为部分发卡机构的中国持卡人支持 Apple Pay 。来源


        Google Gemini 现已发布「个人智能」

        Google 于 1 月 14 日宣布,名为「个人智能」的新功能已向个人账户开放测试。该功能可整合 Gmail、谷歌相册等应用中的信息,帮助 Gemini 在无需明确指引的情况下理解上下文关系,使聊天机器人具备跨应用理解用户数据的能力,从而给出更贴近个人情境的回答。

        该功能将优先向美国地区的 Google AI Pro 与 AI Ultra 订阅用户开放,并在后续加入谷歌搜索的 AI Mode。为降低潜在风险,「个人智能」默认处于关闭状态。

        Google 实验室与 Gemini 应用副总裁 乔什 · 伍德沃德 表示,测试版本仍可能出现判断偏差,并希望用户主动反馈相关问题。在涉及关系变化或复杂兴趣取向的场景中,Gemini 仍可能难以准确把握时机与语境。在健康等敏感领域,Gemini 不会主动推断,仅在用户明确提问时基于已有数据展开讨论。

        此外,Google 表示不会直接使用用户的 Gmail 内容或照片库训练模型,仅会利用用户输入的提示与模型回复等部分交互信息,用于逐步优化功能表现。来源


        微软将删除 Microsoft Edge 收藏集功能

        微软近日在最新发布的 Microsoft Edge Dev 版本中向用户发出提示,计划移除浏览器内的「收藏集」功能。相关调整完成后,用户将无法继续向收藏集添加新内容。

        针对已保存的数据,微软提供了有限的迁移方式。用户可将收藏集内的网页统一移动至收藏夹(书签),但该方式仅保留网页链接,无法迁移此前添加的图片与笔记内容。若需完整保留图片和笔记,需手动将收藏集数据导出为 CSV 文件用于离线保存。微软提醒,若未提前完成导出,相关数据后续将从用户账户中移除,存在永久丢失的风险。

        公开资料显示,Edge 收藏集功能最早于 2020 年推出,支持集中保存网页、图片与笔记,常用于行程规划、资料整理与购物清单等场景。目前,微软尚未就该功能的移除发布正式公告。但鉴于相关提示已出现在 Dev 版本中,仍建议用户尽早完成数据备份,以应对后续可能出现的产品调整。来源


        少数派的近期动态

        • 年末「夯」一下!少数派 2025 年度盘点正式上线
        • 少数派会员年终福利来袭,引荐比例限时上调至 15%,邀请好友享 85 折入会优惠。参与活动
        • 好玩又实用,还有迪士尼授权配件可选,少数派「扭扭宝」充电宝火爆开售。来一个试试
        • GAMEBABY for iPhone 17 Pro & 17 Pro Max 系列现已上市。进一步了解
        • 《蓝皮书》系列新版上架,一起探索全新 iOS 和 macOS 的精彩。试读并选购

        你可能错过的好文章

        > 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

        > 实用、好用的 正版软件,少数派为你呈现 🚀

          利益相关声明:作者与文中产品有直接的利益相关(开发者、自家产品等)

          Matrix 首页推荐 

          Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。 

          文章代表作者个人观点,少数派仅对标题和排版略作修改。


          TimeGPT 是一套科学完善的时间精力待办管理系统,整套系统旨在帮助所有人能够更好地实现自己的目标。整套系统以目标为导向,拆解成更小的项目以及可以执行的待办,为待办事项提供了一套完成的 UCEVI 评分系统;评分系统旨在能够最大化地实现最高价值的目标,并且最终根据待办事项的类型以及精力区域来智能安排待办事项的时间,时间精力以及待办最终能够达成一个完美的正循环来帮助更好地实现目标。

          待办管理

          UCEVI 评分系统

          UCEVI 是紧急(Urgent)、花费(Cost)、努力(Effort)、价值(Value)、影响(Impact)的缩写,这套系统是在艾森豪威尔矩阵也就是大众所熟知的紧急重要矩阵上发展出来的系统。艾森豪威尔矩阵简单来说就是它将任务分为四个象限,基于它们的紧急性和重要性来判断任务的优先级。但是在我的实践过程中发现,这种评判标准有以下的两个问题:

          1. 对于处于同一象限的任务没有优先级之分;
          2. 紧急性和重要性是待办事项的开始节点和结束节点,但是却忽略了过程。

          针对于以上的两点问题,我对艾森豪尔矩阵进行了一些拓展。首先我要求最终的结果是一套评分系统,对于同一象限内的任务也依旧存在优先级之分。

          其次我增加了对于待办过程的考量,也就是待办所需要花费的资源。我增加了一个新的维度:花费(Cost),也就是每一个待办的时间花费。

          StartProgressResult
          UrgentCostImportance

          但是这可能依旧存在一定的问题,目前的三个维度,只关注到了每个待办的本身,没有涉及到待办上级的项目或者是最终的大体目标。也就是说,如果一个待办本身如果有很高的花费和较高的重要性,但是这个待办后面的目标不是一个很重要的目标的话,很有可能最终的优先级高于一个有较高花费、但是是重要目标的待办。

          所以为了能够加上对于上级的考量,又增加了两个新的维度:努力(Effort)和影响(Impact)。努力指代待办背后的整个目标所需要花费的努力。而之前的重要性分解为了待办自身的价值(Value)以及待办背后的目标最终带来的影响力。

          最终得到以下五个不同的维度:

          StartProgressResult
          UrgentCostValue
           EffortImpact

          对于待办的开始是取决于紧迫程度,在过程中取决于所需要花费的资源,最终对于完成待办之后是所能够带来的价值。以下是对于这五个维度的具体定义:

          • Urgent:待办的紧急程度
          • Cost:待办所花费的资源
          • Effort:完成待办所属的目标(Goal)所需要花费的努力
          • Value:待办所能够带来的价值
          • Impact:待办背后的目标所能够带来的影响

          既然是一套评分系统,我们就需要对于每一个维度都设定一个具体的值,如果单纯地按照自己的心理评价来打分(1-10)显然不是一个客观的评分系统。所以对于这五个维度我们需要找到对应的实际值来转化,也就是我们需要实际记录的值,对于不同层级会有不一样的记录。

          GoalProjectTodo
          开始日期开始日期开始日期
          截止日期截止日期截止日期
          时间花费时间花费时间花费
          年收入提升所属目标所属项目
          一次性收入  
          成功的可能性  
          收入转化比  
          • Urgent:现在的日期到截止日期天数
          • Cost:待办本身的时间花费
          • Effort:待办所属的目标所花费的时间 + 待办所属的项目所花费的时间
          • Value:待办所花费的时间占总目标所花费的时间乘以影响(Impact)
          • Impact:如果目标成功的期望收入(收入乘以可能性)- 目标失败所损失的机会成本(失败的概率乘以小时工资) + 目标所带来的精神愉悦

          到此为止我们已经能够获得 UCEVI 相对来说客观的数据,当然这其中还有一些系数没有解释,这些我们留到后面再来解决。

          有了这 UCEVI 的数据之后,我们又面临了新的问题,对于我们的待办来说,UCEVI 中的维度的影响力对于每一个人来说是不一样的,可能有的人认为自己的时间很多,只看重最终的价值,那么他就会认为 花费(Cost) 以及 努力(Effort) 的影响力需要低一些,反之亦然。如果纯靠自己给予每一个变量一个系数也不是一个客观合理的做法。为了解决这个问题,我们需要引入层次分析法。

          层次分析法(Analytic Hierarchy Process,简称 AHP)是一种决策分析方法,这种方法主要用于复杂决策问题的分析与决策,特别适合于那些难以完全定量分析的问题。举例来说我现在想要买电脑,我可能会考虑以下三个方面:CPU、GPU、主板,但是我的预算有限导致我不能够全部买最好的,所以我要在有限的预算中去进去取舍。

          我对于这三个变量进行两两比较,例如 CPU 和 GPU 中我更看重 GPU,那么我给 GPU 取 2,CPU 和 GPU 的比较中就只能取得 1/2。最终我获得了以下的表格:

           CPUGPU主板
           CPU11/21
          GPU213
          主板11/31

          之后我对于每一列进行计算获取百分比,再加总百分比就能够获得每一个变量的权重了。

           CPUGPU主板权重
           CPU11/21 
          GPU213 
          主板11/31 
           0.250.270.20.72
           0.50.550.61.65
           0.250.180.20.63

          这种权重依旧是我们主观(也确实是需要我们的主观)上来获取的权重,但是相较于纯凭照内心来对于变量进行打分更加客观一些。经过计算之后我们就能够获取到自己的 UCEVI 的权重了使用权重乘以变量就能获得我们最终的分数(这之中还有很多的归一化,反值转化的操作)。

          如何定义价值

          对于不同的目标的价值是不太一样的,有的目标可能是直接能够为你带来金钱,但有的目标可能是为你带来成就感或者是愉悦的时间。我们先讨论比较直接的能够获取金钱的目标,这种目标通常来说更加符合直觉,也应该是我们大部分人追求的目标。

          对于金钱的收入也同样有两种不一样的收入,一种是一次性的收入、一种是年收入的增加。要比较一次性收入还是年收入的增加通常的做法是使用净现值的做法,通常使用银行利率作为折现率来计算净现值。

          但是如果仅仅只是这样去做比较的话还是有一些问题,按照现在这个算法来说极端情况下的买彩票可能带来的收入是极高的,相较于其他的一切目标,所以在计算真正的目标价值的时候需要计算的是期望效用。期望效用简单来说就是最终目标的各种可能带来的价值乘以这些可能发生的概率的合。

          如果以单纯的年收入的增加作为事件的影响结果的话,那么可能会导致的问题就是,买彩票这个事情的年收入增加会非常的高,但是没有考虑这个事情可能发生的概率,所以在最终的决策是应该在世界的某一个状态(State)下做出行为(Action)的结果(Outcome)。对于每一个结果存在自己的效用(Utility)函数,同时要达成这样的结果也存在一个可能得概率(Probability)。

          最终的结果就是如下,对于某一个行为的期望效用是这个行为在世界的不同状态下的结果乘以发生的概率合。

          上述的方式可能理解起来有一些困难,现在举一个简单的例子来理解。对于出门要不要带伞这一行为做的决定是和世界的状态相关的,也就是和下不下雨是相关的。那么不同的行为对应不同的世界状况就能够得到不同的结果。

           下雨不下雨
          带伞舒适身体舒适但是额外带伞
          不带伞身体潮湿舒适

          那么不同的结果对于每个人来说评判的效用不同,再根据下雨和不下雨可能发生的概率得到一个行为的期望效用。

          所以在极端情况下可能会出现的是,我的一个目标可能是我要找到一份一年挣 1000 万的工作,那么这个目标相应的项目和待办的优先度就会非常的高。但是这件事情的最终能够实现的可能性非常低,我们需要考虑在当前这个世界的状态下这件事情能够成功的可能性再去定夺。

          通过这种方式得到的结果就会比之前年收入的增加合理很多。可能这时候会有人问到如何精确确定每种事件的发生概率,这对于未来事件的预测的概率不可能做到完全精确,但是这些概率可以随着你在进展的途中进行改变,至于新的概率是使用贝叶斯的理论结合先验概率和新的确凿证据来更新概率,还是杰弗里斯的获取不确定证据后的更新概率,都能够有效地去帮助我们更好地往正确的方向更进一步。

          这些概率和很多的因素相关和你内心的信念、所处世界的状态都相关,同样的一件事件不同人给出来的概率也可能截然相反,但是本质上是为了朝着你心中信念的方向去努力。

          如何比较精神获得和金钱收入

          在设定目标的时候,如果系统只考量金钱收入的话,那对于某一些暂时没有金钱收入的目标会永远得不到考虑。有一些目标可能只是为了自己的心里愉悦,例如发展一些兴趣爱好,健身等等,所以这时候我们就需要考虑精神获得和金钱收入。

          在 TimeGPT 中所使用的方法是引出一个彩票机制。假设在某一个时间段你面临一个选择,你可以选择去上班或者在家打游戏。通常来说大家无法做出决定的时候就会选择抛硬币,正面就去上班、反面就在家打游戏。彩票几乎也是类似的意思,只不过你可以自己设定正面和反面的概率。

          例如我想要比较上班和打排球,那么这时候我做了一个彩票 1/10 的概率是上班 9/10 的概率是打排球来让我认为这个彩票无论出现哪个结果我都是满意的。那么在我的心中我是更加想要去打排球的,而不是上班的。所以 V 的等价价值是等于一个常数 k 除以概率。

          假设的条件是如果概率各自是 1/2 的时候我们认为工作和精神愉悦是相等的。所以就得到 k = 0.5W。

          由模型曲线可以看到,这个模型基本上符合我们的需求,且只有在极端的情况下才会由大幅度的上涨,其他的时候基本上是属于 W 周围的正常范围。

          所以对于非直接收入的目标的时候,就可以使用达成这个目标所需要使用的时间乘以上面公式计算的等价小时收入,也就是相当于你获得了这么多小时的愉悦和你拿这么多钱是一样的。

          推荐系统

          至此我们已经对所有的待办都拥有了一个对应的分数,但是这依旧不能够满足我们的推荐系统。如果仅仅是按照分数进行排序,那么可能会出现一些问题:

          1. 待办可能还没有到开始的日期,但是因为最终的高价值所以获得了很高的分数。
          2. 相似的待办因为相同的目标或者结果所以全部都获得相同的评分。
          3. 没有办法根据每天的情况来具体推荐。

          针对于以上问题,我们需要再额外加入一些限制条件,不过在这之前最重要的是对待办进行分类。经过我长时间的实践把待办分为了三种:任务、提醒、日程。它们的所要求的方式是完全不一样的:

          • 任务 Task:不是有明确时间的任务,例如完成调查研究等等
          • 日程 Event:有明确时间点的事件,例如看医生,开会议
          • 提醒 Reminder:需要快速完成的小任务,例如交房租
           开始时间花费时间属于目标
          任务不固定不固定属于
          日程固定固定属于
          提醒不固定固定且短不属于

          其中提醒我们不需要在我们任务系统中进行评分,因为它们通常都是很短暂的小任务。所以以下的讨论只会涉及到剩下的两种待办类型。

          任务是没有固定的开始时间,同时也没有固定的时长,与之对应的是日程,日程拥有非常固定的开始时间以及固定的时长。理清楚这些待办事项的类型是非常重要的,在此之前如果没有把这些待办分类,全部杂糅到一起那么将会是一片混乱。

          在对待办有了分类之后,我们就能够对不同类型的待办进行合理的推荐了。对于任务来说,它们没有固定的开始时间,所以几乎是任何时候都可以作为选择。对于日程来说,如果不到当日,那么这个日程就毫无意义,因为它需要固定的时间,只有时间到了才会发生。对于日常来说,我们可能会同时拥有很多日常,但是每天只需要做一个日常就足够了。所以推荐系统需要选择出是否有当日的日程,之后利用剩下的时间选择合理搭配日常和任务。

          用通俗的话来说,推荐系统能够在有限的时间内为每一天安排合适的任务。其实这句话中就包含了这个推荐系统的限制条件,有限的时间以及合适的任务。

          有限的时间也就是当天可用于支配的自由时间,合适的任务在于获取必要的日程任务之后,力求剩下的时间能够获取最高评分的日常和任务搭配。为了实现这个系统,我们需要用到线性规划。线性规划是一种数学方法,用于在一系列线性不等式或等式约束下寻找某个线性函数的最大值或最小值。线性规划包含以下要素:

          1. 变量:这些是你在目标函数中调整以达到最大化或最小化的元素。在商业案例中,这些可能是生产不同产品的数量。
          2. 目标函数:这是你希望最大化或最小化的线性函数。例如,你可能想要最大化利润或最小化成本。
          3. 约束:这些是形式为线性不等式或等式的限制,用于限定变量的可行范围。例如,原材料或预算的限制。

          对于我们的系统来说,变量就是待办是否执行。待办只有执行(1)或者不执行(0)。

          目标函数是所有可执行待办的评分总和,我们希望最大化这个总和。

          约束条件是可执行待办的时间总和要小于当日的活跃时间,以及日程任务必须当日执行,同时类似的日常任务每日只执行一个。

          拥有了这些设置之后,我们就能够获取当日最优的待办方案了。

          时间管理

          在文章的最开始提到这是一套能够帮助所有人而存在的系统,对于所有人来说共有的资源就是时间。时间作为一个公平的维度去帮助衡量所有的项目,也能够看到自己在为某个目标所付出的真正的「努力」。

          大部分人对于时间的敏感度是非常低的,对于某一项能力的评估大部分人是使用的时间来评估。比如通常会说我学了五年吉他。但是这里的「五年」其实是非常模糊的一个表述,只表达了一个时间区段,这五年里面是一周练习一次还是每天都练习,这对于技艺来说就是天差地别。反过来,如果不能够计算清楚自己所花费的时间是多少,可能也会被这个「五年」所欺骗,会觉得自己已经学习了那么久了,为什么最终还是没有什么太大的进步。

          举一个我自己的例子来说,我从 2022 年的 11 月开始打排球,在我有时间意识之前,我只知道自己打球了几年时间,但是我在 2024 年底时候回顾了我过去两年时间在排球上面所花费的时间,其实仅仅只有 350 个小时左右。

          按照 K. Anders Ericsson 提出的「10000 小时定律」,要将一项技能练至世界级水平,需要投入 1 万小时。而对比上述两个例子,我最初认为自己两年来投入了不少时间在排球上,但实际上,这 350 小时与 1 万小时相比只是九牛一毛。虽然我的目标并非达到世界级水平,但若仅从 10000 小时的标准来看,这个时间显然远远不够。

          根据「二八法则」,我们可能只需投入 20% 的时间,就能掌握 80% 的基础技能。然而,若想在剩下的 20% 上精进,接近世界级水平,通常需要额外投入 80% 的时间。换句话说,即使不追求世界级水平,普通人至少也需要投入 2000 小时,才能在某项技能上达到较高的能力水准。所以我在 2024 年底的时候清楚的意识到自己的水平就仅仅只有 350 个小时而已,为了能够尽快地达到 2000 个小时,我在 2025 年设下了目标要求一年就能够达到 300 个小时。

          这就是时间管理的意义所在,如果我不能够清楚的知道自己所花费的时间,我只会知道自己打了两年的球,但是依旧没有什么太大的进步,2025 年可能也继续只能投入 150 个小时左右的时间。

          如何记录

          目前市面上有很多的时间记录软件(Timing、Toggle、Tyme),但是最终都没有能够坚持下来。市面上的时间记录软件大致有两种,电脑后台的自动记录(Timing)或者是自己手动开始和结束某个任务(Toggle、Tyme),但这两种记录方式都有坚持不下来的问题。

          自动记录不能够记录在电脑使用之外的时间,同时对于自动记录下来的时间过于繁杂且真实导致最终不愿意继续记录,手动记录就是单纯需要每一个任务都做一次开始记录时间的操作外加一次结束记录的操作从而导致经常忘记。

          最终我的选择是使用间歇日记的方式来进行记录,间歇日记非常简单,只需要记录一个时间戳再附上简短的文字即可。间歇日记不仅能够帮助记录下时间的使用情况,同时也能够帮助我们整理思绪切换到下一个任务,每天记录完成之后只需要计算两个时间戳之间的时间差再进行分类就好。

          对于时间的分类,我目前的分类是:主要工作、日常生活、自我提升、健康、人际关系、休息,六个大类。这六个大类几乎能够涵盖生活中的大部分的场景了。

          在分类中最容易出现的问题就是,如果有一个时间段我认为同时属于两个不同的类别,应该如何去区分?经过我的实践有以下的解决方法:

          1. 按照这个时间段的主要目的去分类。例如和朋友一起打游戏,是应该算作打游戏还是维系朋友关系?那就要看自己选择去做这个事情的主要目的是什么,如果是为了放松休息,那么就应该是休息的类别,如果是为了和朋友一起聚会,那么就是人际关系。
          2. 按照原本的时间去分别记录。例如吃饭的同时看了电视剧应该如何记录?吃饭的时间是每天必不可少的时间,那么有一个本来正常的吃饭时间,超过这个正常时间的部分就算作你的额外目的的时间。例如吃饭的整个过程是 2 个小时,那么正常的吃饭时间是一个小时的日常生活类别,剩下的一个小时就是看电视剧的休息时间。
          3. 可以同时记录的情况。例如上班摸鱼做自己的事情应该如何记录?本职的上班时间本来就能够给我们带来价值,那么额外利用时间就算作对应的类别记录。也就是说我们可能存在一天超过24小时的情况。

          精力管理

          之前的内容只获取了当日最优任务搭配,如何能够在最合适的时间去做最合适的任务,是下一步的目标。通过一段时间的时间记录,我们能够知道每天在哪些时间段是做了我们认为重要的工作,这些时间段就是每天的高精力时间段。

          把一天分为每 5 分钟一个小时间段,那么一整天就会有 288个五分钟,也就是一个长度为 288 的向量 V,对于每一天来说我们都能够获得一个这样的向量,如果是高精力时间段就会在对应的时间段获得 1、低精力时间段就会获得 0。

          把所有天的向量集合起来就能够获得一个平均的精力向量 V bar。

          有了这个平均精力向量,系统就能够知道在什么时候是处于高精力的时间段,什么时候是处于低精力的时间段,在推荐系统推荐出合理的任务之后,就能够把任务分配到精力最高的时间段了。

          三位一体

          至此这套系统之中的时间待办精力是如何管理的已经完全解释了,它们是三位一体的存在。有新的待办产生之后,需要花费时间去完成,时间又能够反应精力的高低帮助下一次更好的去安排待办。这套系统希望能够在这个良性的循环中不断进步完成待办直到达成目标。

          FluxTime

          上述的整套系统看起来非常的复杂有非常多需要计算的地方,靠个人几乎是没有办法去实现它的。为了能够让更多的人使用上这套系统,我开发了一个软件 FluxTime,让你只需要关注时间记录以及创建待办就好了,其他的任务推荐,精力曲线计算,结果反馈都交给软件就好了。

          目前 FluxTime 已经上架 App Store 且完全免费,欢迎各位读者下载测试。

           

          > 关注 少数派公众号,解锁全新阅读体验 📰

          > 实用、好用的 正版软件,少数派为你呈现 🚀

            这里记录每周值得分享的科技内容,周五发布。

            本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

            封面图

            刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

            中国 AI 大模型领导者在想什么

            上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

            中国顶尖的 AI 大模型领导者,很多都出席了。

            • 唐杰:清华大学教授,智谱创始人
            • 杨植麟:月之暗面 Kimi 创始人
            • 林俊旸:阿里 Qwen 技术负责人
            • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

            他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

            内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

            一、唐杰的发言

            1、智谱的起源

            2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

            那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

            2、泛化和 Scaling

            我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

            目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

            (1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

            (2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

            (3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

            这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

            如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

            3、从 Chat 到做事:新范式的开始

            大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

            2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

            我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

            那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

            当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

            二、林俊旸的发言

            4、千问是怎么开源的

            千问的开源模型比较多,很多人问这是为什么?

            这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

            当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

            干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

            5、我们的追求是多模态模型

            我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

            我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

            为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

            更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

            三、姚顺雨的发言

            6、To C 和 To B 的差异

            我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

            大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

            对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

            但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

            所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

            7、垂直整合和模型应用分层

            我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

            比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

            首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

            我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

            8、需要更大的 Context

            怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

            比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

            回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

            四、圆桌对话:中国 AI 的未来

            李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

            9、姚顺雨的回答

            我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

            我觉得可能有几个比较关键的点。

            (1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

            (2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

            (3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

            10、林俊旸的回答

            这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

            这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

            未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

            2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

            今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

            三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

            11、唐杰的回答

            首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

            我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

            但我觉得,现在慢慢变得越来越好。

            (1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

            (2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

            (3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

            科技动态

            1、载人飞艇

            1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

            飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

            2、鼻子触控

            一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

            他灵机一动,发明了戴在鼻子上的触控笔。

            它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

            这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

            3、越南禁止不可跳过的广告

            越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

            法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

            这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

            文章

            1、我所有的新代码都将闭源(英文)

            作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

            2、网站的视觉回归测试(英文)

            本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

            3、我用 PostgreSQL 代替 Redis(英文)

            Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

            4、如何用 CSS 修复水平滚动条(英文)

            一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

            5、消息队列原理简介(英文)

            本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

            6、macOS Tahoe 的圆角问题(英文)

            macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

            工具

            1、whenwords

            本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

            用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

            以后会不会都是这样,软件库没有代码,只有接口描述?

            2、Hongdown

            Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

            3、VAM Seek

            一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

            4、kodbox

            开源的网页文件管理器。

            5、Nigate

            让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

            6、Flippy Lid

            一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

            7、Jumble

            nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

            8、Clash Kit

            一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

            9、SlideNote

            开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

            10、NginxPulse

            开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
            @likaia 投稿)

            AI 相关

            1、Auto Paper Digest (APD)

            一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

            2、CC Switch

            一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

            3、网易云音乐歌单 AI 分析

            使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

            资源

            1、EverMsg

            这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

            2、DeepTime Mammalia

            沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

            图片

            1、冰下修船

            俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

            为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

            冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

            有时,需要凿开一条很长的冰槽。

            下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

            言论

            1

            我对自己的代码被大模型吸收感觉如何?

            我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

            大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

            -- Antirez,Redis 项目的创始人

            2、

            即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

            以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

            -- Antirez,Redis 项目的创始人

            3、

            如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

            -- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

            4、

            人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

            -- 《当你想摆脱困境》

            往年回顾

            年终笔记四则(#334)

            YouTube 有多少个视频?(#284)

            AI 聊天有多强?(#234)

            政府的存储需求有多大?(#184)

            (完)

            面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

            0%
            icon展开列表
            面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破
            今天
            img
            神同步OpenAI!中国团队Deep Principle领衔发布LLMs for Science评测,引爆外网
            今天
            img
            美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
            今天
            img
            失去三个联创后,Mira公司危机持续:又有两人要出走
            今天
            img
            不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
            今天
            img
            支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT
            今天
            img
            刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
            今天
            img
            腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
            今天
            img
            DeepSeek连发两篇论文背后,原来藏着一场学术接力
            今天
            img
            仅需一个混频器的无线射频机器学习推理,登上Science Advances!
            今天
            img
            国内首个可复现!萝博派对公开人形机器人 “从 0 到跑” 全开源方案
            01月15日
            img
            联发科天玑9500s、8500发布:GPU、光追拉满,红米Turbo 5Max将搭载
            01月15日
            img
            通用级PixVerse P1的技术突破,揣着进入平行世界的密码
            01月15日
            img
            Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
            01月15日
            img
            Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
            01月15日
            img
            刚刚,喝到了千问APP给我点的奶茶
            01月15日
            img
            人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
            01月15日
            img
            实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
            01月15日
            img
            已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
            01月15日
            img
            解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
            01月15日
            img

            面向临床的心电图AI,上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

            图片
            作者团队丨上海科学智能研究院、复旦大学团队
            编辑丨ScienceAI

            在心血管疾病诊断中,心电图(Electrocardiogram, ECG)是无可替代的基础工具,其中 12 导联心电图是临床使用的金标准。作为观察心脏电活动的“视角”,导联是由一正一负两个电极构成的一个记录电路,12 导联心电图即是通过体表 10 个电极组合构建出 12 个独特的电信号“视角”,同步捕捉心脏的电活动,形成一套多维度的波形图谱。

            然而,面对海量的心电图数据,现有基于自监督学习的分析方法尽管提供了无需大规模标注数据的解决方案,其局限仍非常明显:它们往往未能充分建模心脏传导过程中细微的个体心搏差异,也缺乏与临床“从心搏到导联,再从导联到整体”的递进诊断逻辑相对齐的推理结构,导致在复杂病例诊断中表现受限。

            为此,上海科学智能研究院(下称上智院)与复旦大学联合提出了 CLEAR-HUG 双阶段框架。该框架从心电图信号的生理本质出发,在预训练阶段显式建模心脏传导特征,并在诊断阶段紧密贴合临床判读的层级思维,实现了从信号表征到诊断推理的全流程优化。实验表明,该方法在六个权威公开数据集上平均性能提升达 6.84%,为开发高性能、可解释的 AI 辅助心电图诊断工具开辟了新路径。

            图片

            论文链接:https://arxiv.org/pdf/2512.24002

            该研究成果已被 AAAI 2026 接收。研究项目由星河启智科学智能开放平台和复旦大学 CFFF 智算平台提供技术和算力支持。

            星河启智平台链接:https://aistudio.ai4s.com.cn

            现有方法的两大局限

            既往的心电图自监督学习(electrocardiogram self-supervised learning, eSSL)方法虽取得一定进展,但存在两个面向临床的关键短板:

            一是忽视个体差异。

            现有方法学会了看“大概”和“通常”,却难以识别那些“例外”与“异常”,而后者往往是临床诊断中更需要关注的信号。具体来说,现有方法主要让模型学习心电图信号中重复出现和普遍存在的模式——比如不同导联之间波形的同步性,或连续心搏间的形态相似性,却忽略了一个生理事实:每个心搏的传导路径存在自然的细微差异,而不同导联观察的解剖角度也本就不同。这些细节往往承载着重要的生理与病理信息,例如,一个偶发的、形态异常的室性早搏,在标准心电图中看起来就“很不合群”,但这恰恰是临床诊断需要捕捉的关键线索。

            二是脱离临床逻辑。

            为确保诊断的精确性和全面性,心电图临床诊断通常遵循“心搏→单导联→多导联组合”的层级流程:医生首先观察单个心搏的形态细节,判断其是否异常;然后在一个特定的导联上,分析连续心搏的节律和模式,确认异常是否持续存在;最后,综合所有 12 个导联的信息,像拼图一样将不同导联的发现进行组合与空间对应,从而精确定位心脏的病变部位并做出最终诊断。但是,现有模型在下游任务中常忽视这一递进式诊断逻辑,导致特征提取与诊断需求脱节。

            为解决这些问题,研究团队从心脏传导机制和临床诊断规范双重视角出发,构建了 CLEAR-HUG 框架,实现从信号表征到诊断推理的全流程优化。该框架与人类专家的知识体系对齐,使得医生不仅能够获知“诊断结果是什么”,更能理解“模型为何做出该诊断”,从而推动心电图AI分析更加可解释。

            图片

            图示:心脏传导机制。

            CLEAR-HUG 的双阶段创新设计

            CLEAR-HUG 框架包含预训练和微调两个阶段,分别对应特征学习与诊断适配,形成完整的技术闭环。

            第一阶段,团队设计了名为“传导-导联重构器”(Conduction-LEAd Reconstructor, CLEAR)的自监督模型,该模型能同时捕捉心跳的特异性变异与普遍共性。通过将每个心搏视为独特实体,该模型采用简洁高效的稀疏注意力机制,在排除其他心搏干扰的情况下重构信号。

            第二阶段,团队构建了“分层导联统一分组头”(Hierarchical lead-Unified Group head, HUG头)诊断模块,模拟临床诊断流程。

            图片

            图示:双阶段训练

            1.CLEAR 预训练,捕捉传导级细微特征

            预训练阶段的核心是 CLEAR 模型,通过传导引导和视角引导的双重信息学习,精准重建心电图信号:

            • 双重视角建模:将心电图信号分解为传导引导信息(同一心搏在各导联的时间同步特征)和视角引导信息(同一导联的空间异质性特征),全面捕捉信号本质。

            • 稀疏注意力机制:设计专属注意力掩码,确保心搏重建仅依赖对应的心搏传导信息和导联全局上下文,避免其他心搏干扰,高效提取特异性特征。

            • 掩码重建训练:采用 80% 的高掩码率,通过重建被掩盖的心搏 token,迫使模型学习深层生理特征而非表面模式,提升表征鲁棒性。

            2.HUG 微调 ,模拟临床诊断流程

            微调阶段引入 HUG 头,完全贴合临床心电图诊断的层级逻辑:

            • 导联分组:按临床标准将 12 导联分为 3 组(双极肢体导联、加压单极肢体导联、胸前导联),每组通过独立线性层学习特征并平均。

            • 成对组合:将三组特征进行两两组合,进一步捕捉导联间的互补信息。

            • 全局聚合:整合所有组合特征,形成完整的多导联全局表征,作为最终诊断依据。

            这种层级设计不仅提升了模型的可解释性,更让特征提取过程与医生诊断思维高度一致,实现从数据驱动到临床驱动的转变。

            在六大数据集上超越现有最优方法

            本研究在 MIMIC-IV-ECG 数据集上完成预训练后,于 PTB-XL、CPSC2018 及 CSN 三个公开数据集的六个下游任务上进行了系统评估,结果全面超越了现有最优方法(SOTA)。

            具体而言,模型在平均性能上较当前 SOTA 提升了 6.84%,其中 CLEAR 单模型在预训练阶段贡献了 3.94% 的提升,而加入 HUG 诊断头后性能得到进一步改善,充分验证了双阶段设计的有效性。在低数据场景下,该方法展现出卓越的少样本迁移能力,例如,在仅使用 1% 训练数据的 PTBXL-Rhythm 任务中,CLEAR-HUG 较 SOTA 提升超 17%。

            同时,在细粒度疾病分类任务上,层级分组策略的价值尤为凸显——在 CSN 数据集的 38 类疾病分类中,使用 1%、10% 与 100% 训练数据时,HUG 头相较基础模型分别带来 9.21%、5.81% 与 3.18% 的性能增益。

            此外,该方法在关键特性上也表现出显著优势。其一,模型具有更强的稳健性,即使在部分导联缺失、仅保留两个核心导联的极端情况下,其性能仍优于现有 SOTA,能够很好地适应临床中数据不完整的实际场景。其二,模型展现出高度的临床适配性,通过激活可视化,HUG 头对不同疾病所激活的导联组合模式,与临床诊断标准高度一致,显著提升了模型的可解释性。

            核心模块的必要性验证

            为验证 CLEAR-HUG 框架中各核心组件的贡献,本研究进行了系统的消融实验。该方法遵循控制变量原则,通过逐步移除或调整模型中的特定设计,量化评估每个创新模块的实际价值。主要实验结果与发现如下:

            • 传导建模的有效性验证:对比基础掩码自编码器,CLEAR 预训练通过传导引导稀疏注意力,在心律分析任务中提升 17.4%,证明了传导机制建模的重要性。

              图片
            • 层级诊断结构的作用分析:移除 HUG 头后,模型在细分类任务中性能明显下降,验证了层级分组策略对复杂疾病诊断的关键作用。

              图片
            • 预训练掩码策略的优化验证:不同掩码率实验表明,80% 的掩码率能平衡特征学习深度与训练稳定性,是最优选择。

            这些实验从多个维度证实,CLEAR 与 HUG 两个核心模块均不可或缺,其设计共同支撑了模型在各项任务中的性能提升。

            总结与展望

            CLEAR-HUG 的成功,并不依赖于复杂的模型架构,而是根植于对医学本质的深刻洞察与巧妙融合。

            首先,模型从生理机制出发,紧扣心脏传导这一心电信号的核心生成原理,使特征学习过程更贴合生理本质。其次,通过将模型流程与医生诊断逻辑深度对齐,在提升性能的同时也显著增强了结果的可解释性。此外,其轻量化设计与对缺失导联的适应能力,兼顾了效率与临床实用性,为实际部署扫除了障碍。

            该研究不仅为心电分析提供了新的技术路径,也印证了 AI 医疗发展的关键方向——唯有将领域知识与人工智能技术深度融合,才能开发出真正赋能临床的实用工具。

            展望未来,研究团队计划将本框架扩展至更多心血管疾病诊断场景,并探索与多模态医疗数据的融合应用,从而为智能医疗的落地持续注入新动力。

            作者信息:

            上智院实习生、复旦大学人工智能创新与产业研究院博士生潘覃和孙翊轩,为共同第一作者。

            代码地址:

            https://aistudio.ai4s.com.cn/galaxy-model/partner/galaxy-model-frontend/model/CLEAR-HUG#heading-1

            https://github.com/Ashespt/CLEAR-HUG

            KrebsOnSecurity.com 于今日迎来十六周年纪念!衷心感谢所有读者——无论是新朋友、老读者,还是匆匆路过的批评者。过去一年里,各位的积极参与令人惊叹,也确实为一些阴郁的日子带来了慰藉。令人欣慰的是,"恶有恶报"成为了我们2025年报道的突出主题,重点关注那些助长复杂且全球分布的网络犯罪服务的实体。

            图片:Shutterstock, Younes Stiller Kraske。

            2024年5月,我们深入审视了 Stark Industries Solutions Ltd. 的历史与所有权。这家"防弹托管"服务商在俄罗斯入侵乌克兰前仅两周上线,并成为克里姆林宫多次网络攻击和虚假信息行动的主要策源地。一年后,Stark及其两位共同所有者受到欧盟制裁,但我们的分析显示,这些惩罚收效甚微,未能阻止Stark的所有者改头换面,并将大量网络资产转移到他们控制的其他实体。

            2024年12月,KrebsOnSecurity报道了Cryptomus。这家在加拿大注册的金融公司,成为数十家俄罗斯加密货币交易所以及向俄语客户兜售网络犯罪服务的网站的首选支付处理器。2025年10月,加拿大金融监管机构裁定Cryptomus严重违反了反洗钱法,并对该平台处以创纪录的1.76亿美元罚款

            2023年9月,KrebsOnSecurity发布了研究人员的发现,他们得出结论:一系列针对数十名受害者、涉案金额达六位数的网络盗窃案,源于窃贼破解了2022年从密码管理服务LastPass窃取的主密码。在2025年3月的一份法庭文件中,调查一起惊人1.5亿美元加密货币盗窃案的美国联邦特工表示,他们得出了相同的结论

            网络钓鱼是今年报道的一个主要主题,我们深入窥探了几个语音钓鱼团伙的日常运作,这些团伙经常实施精心策划、令人信服且造成巨大经济损失的加密货币盗窃。《一个高产语音钓鱼团伙的日常》 审视了一个网络犯罪团伙如何滥用苹果和谷歌的合法服务,向用户强制发送各种外发通信,包括电子邮件、自动电话以及发送到所有已登录设备的系统级消息。

            2025年,近六篇报道剖析了来自中国网络钓鱼工具包供应商无休止的短信钓鱼或"smishing",他们让客户能够轻松地将钓鱼获取的支付卡数据转换为苹果和谷歌的移动钱包。为了争夺对该钓鱼集团在线资源的控制权,谷歌此后至少提起了两起针对这些团体和数十名未具名被告的无名氏诉讼

            一月份,我们重点报道了对一个名为Funnull的可疑且庞大的内容分发网络的研究,该网络专门帮助中国的赌博和洗钱网站将其业务分布到多家美国云服务提供商。五个月后,美国政府制裁了Funnull,认定其为被称为"杀猪盘"的投资/恋爱诈骗的主要源头。

            图片:Shutterstock, ArtHead。

            五月份,巴基斯坦逮捕了21名涉嫌为Heartsender工作的人员。Heartsender是一个网络钓鱼和恶意软件传播服务,KrebsOnSecurity早在2015年就首次报道过。此次逮捕发生在联邦调查局和荷兰警方查获该组织数十台服务器和域名后不久。许多被捕者首次被公开身份,是在2021年本网站的一篇报道中,该报道讲述了他们如何无意中感染了恶意软件,从而泄露了他们的真实身份

            四月份,美国司法部起诉了一家巴基斯坦电子商务公司的所有者,指控其合谋在美国分销合成阿片类药物。次月,KrebsOnSecurity详细说明了这家受制裁实体的所有者或许更广为人知的是,他们运营着一个精心策划且历时漫长的骗局,诈骗那些在商标注册、图书写作、移动应用开发和标志设计方面寻求帮助的西方人

            本月早些时候,我们调查了一个由谷歌广告助推的学术作弊帝国,该帝国获得了数千万美元的收入,并且与一位和克里姆林宫有联系的寡头有着耐人寻味的关联,这位寡头的俄罗斯大学正在为俄罗斯对乌克兰的战争制造无人机。

            一架攻击无人机在俄罗斯最大的私立教育公司——协同大学——所在的同一网络托管的网站上做广告。

            一如既往,KrebsOnSecurity努力密切关注全球最大、最具破坏性的僵尸网络。今年,这些僵尸网络以分布式拒绝服务攻击重创互联网,其规模和影响是先前记录的最大DDoS攻击的两到三倍

            六月份,KrebsOnSecurity.com遭遇了当时谷歌所缓解过的最大规模DDoS攻击(我们很感激能成为谷歌优秀Project Shield服务的用户)。专家将此次攻击归咎于一个名为Aisuru的物联网僵尸网络,该网络自2024年底首次出现以来,规模和火力迅速增长。几天后,Aisuru对Cloudflare的另一次攻击,其规模几乎是对本网站六月攻击的两倍。此后不久,Aisuru又被指责发动了一次DDoS攻击,其规模再次翻倍,刷新了之前的记录。

            十月份,控制Aisuru的网络犯罪分子似乎已将僵尸网络的重点从DDoS攻击转向了更可持续、更有利可图的用途:将数十万台受感染的物联网设备出租给代理服务以帮助网络犯罪分子匿名化其流量

            您正在阅读的报道是一系列独家新闻,它们嵌套在一份更为紧迫的全球互联网安全公告之中。所讨论的漏洞已被利用数月之久,现在是时候让更多人意识到这一威胁了。简而言之,您过去对互联网路由器后方内部网络安全性的认知,如今很可能已严重过时。

            安全公司Synthient目前监测到全球有超过200万台设备感染了Kimwolf,其中越南、巴西、印度、沙特阿拉伯、俄罗斯和美国是重灾区。Synthient发现,三分之二的Kimwolf感染设备是内置无任何安全或认证机制的Android电视盒子。

            过去几个月,一个名为Kimwolf的新型僵尸网络呈现爆炸式增长。专家称其已感染全球超过200万台设备。Kimwolf恶意软件会强制受控系统转发恶意和滥用的互联网流量——例如广告欺诈、账户接管尝试和大规模内容抓取——并参与具有破坏性的分布式拒绝服务(DDoS)攻击,此类攻击足以让几乎任何网站一次性瘫痪数天。

            然而,比Kimwolf的惊人规模更重要的是其快速传播所采用的邪恶方法:它有效地通过多种“住宅代理”网络隧道回连,进入代理端点的本地网络,并进一步感染那些本应受用户防火墙和互联网路由器保护的设备。

            住宅代理网络作为一种服务出售,旨在帮助客户匿名化其网络流量并将其定位到特定区域。其中最大的服务商允许客户通过全球几乎任何国家或城市的设备来路由其流量。

            将终端用户互联网连接变为代理节点的恶意软件,通常与可疑的移动应用和游戏捆绑。这些住宅代理程序也常通过非官方Android电视盒子安装,这些盒子由第三方商家在诸如AmazonBestBuy、NeweggWalmart等热门电商平台销售。

            这些电视盒子的价格从40美元到400美元不等,以令人眼花缭乱的无名品牌和型号进行销售,并且经常被宣传为可以免费流式传输某些类型的订阅视频内容。但这场交易存在隐性成本:我们稍后将探讨,这些电视盒子构成了目前估计200万感染Kimwolf系统中相当大的一部分。

            一些预装了住宅代理恶意软件的非官方Android电视盒子。图片来源:Synthient。

            Kimwolf也非常擅长感染一系列联网数码相框,这些相框在各大电商网站同样大量存在。2025年11月,Quokka的研究人员发布了一份报告(PDF),详细说明了运行Uhale应用的基于Android的数码相框存在的严重安全问题——包括截至2025年3月亚马逊最畅销的数码相框。

            这些数码相框和非官方Android电视盒子的第二大安全噩梦在于,它们依赖于少数几款联网微电脑主板,而这些主板没有内置明显的安全或认证要求。换句话说,如果您与一个或多个此类设备处于同一网络,您很可能可以通过在网络中发送一条命令同时攻陷它们。

            没有地方比得上127.0.0.1

            这两种安全现实的结合在2025年10月凸显出来,当时罗切斯特理工学院的一名计算机科学本科生开始密切跟踪Kimwolf的增长,并每天与其明显的创建者直接互动。

            Benjamin Brundage是安全公司Synthient的22岁创始人,这家初创公司帮助企业检测代理网络并了解这些网络如何被滥用。Brundage在准备期末考试期间进行了大量关于Kimwolf的研究,他在2025年10月下旬告诉KrebsOnSecurity,他怀疑Kimwolf是Aisuru僵尸网络的一个新的基于Android的变种。Aisuru在去年秋天曾被错误地指责为多起破纪录DDoS攻击的元凶。

            Brundage表示,Kimwolf通过利用全球许多大型住宅代理服务中的一个明显漏洞而迅速壮大。他解释说,这个弱点的关键在于,这些代理服务未能充分阻止其客户将请求转发到单个代理端点的内部服务器。

            大多数代理服务会采取基本措施,通过明确拒绝针对RFC-1918中指定的本地地址的请求,来防止其付费客户“向上游”进入代理端点的本地网络。这些地址包括众所周知的网络地址转换(NAT)范围:10.0.0.0/8、192.168.0.0/16和172.16.0.0/12。这些范围允许私有网络中的多个设备使用单个公共IP地址访问互联网。如果您运行任何家庭或办公网络,您的内部地址空间就在一个或多个这些NAT范围内运行。

            然而,Brundage发现,Kimwolf的运营者已经找到了如何直接与数百万住宅代理端点的内部网络上的设备通信的方法,他们只需更改其域名系统(DNS)设置,使其与RFC-1918地址范围内的地址匹配即可。

            “通过使用指向192.168.0.1或0.0.0.0的DNS记录,可以绕过现有的域名限制,”Brundage在2025年12月中旬发送给近十二家住宅代理提供商的首份安全公告中写道。“这使得攻击者能够向当前设备或本地网络上的设备发送精心构造的请求。这正被积极利用,攻击者利用此功能来投放恶意软件。”

            我们2026年的首个报道揭示了名为Kimwolf的新型破坏性僵尸网络如何通过大规模入侵大量非官方Android TV流媒体盒子,感染了超过两百万台设备。今天,我们将深入挖掘黑客、网络运营商及服务方留下的数字线索,这些实体似乎都从Kimwolf的传播中获益。

            2025年12月17日,中国安全公司XLab发布了一份关于Kimwolf的深度分析报告。该僵尸网络会强制受感染设备参与分布式拒绝服务(DDoS)攻击,并为所谓的“住宅代理”服务转发滥用性和恶意的互联网流量。

            将用户设备转变为住宅代理的软件通常被悄无声息地捆绑在移动应用和游戏中。Kimwolf专门针对出厂预装在超过一千种不同型号的非授权Android TV流媒体设备上的住宅代理软件。很快,这些住宅代理的互联网地址就开始输送与广告欺诈、账户接管尝试和大规模内容抓取相关的流量。

            XLab的报告解释称,其研究人员发现了“确凿证据”,证明相同的网络犯罪分子和基础设施被用于部署Kimwolf和Aisuru僵尸网络——后者是Kimwolf的早期版本,同样劫持设备用于DDoS攻击和代理服务。

            XLab表示,自10月起就怀疑Kimwolf和Aisuru的作者和运营者是同一批人,部分依据是两者随时间推移共享的代码变更。但该公司称,这些怀疑在12月8日得到证实,当时他们观察到两个僵尸网络变种均通过同一互联网地址93.95.112[.]59进行分发。

            图片:XLab。

            RESI RACK

            公开记录显示,XLab标记的互联网地址范围被分配给了位于犹他州李海的Resi Rack LLC公司。Resi Rack的网站自称是“高级游戏服务器托管提供商”。同时,Resi Rack在互联网赚钱论坛BlackHatWorld上的广告则称其为“高级住宅代理托管及代理软件解决方案公司”。

            Resi Rack联合创始人Cassidy Hales告诉KrebsOnSecurity,他的公司在12月10日收到了关于Kimwolf使用其网络的通知,“其中详细说明了我们一位租用服务器的客户所做的事情。”

            “当我们收到这封邮件时,我们立即处理了这个问题,”Hales在回复评论请求的邮件中写道。“我们非常失望此事现在与我们的名字关联在一起,这完全不是我们公司的本意。”

            XLab在12月8日引用的Resi Rack互联网地址,在那之前两周多就已进入KrebsOnSecurity的视野。Benjamin Brundage是追踪代理服务的初创公司Synthient的创始人。2025年10月下旬,Brundage分享说,那些销售各种从Aisuru和Kimwolf僵尸网络中获益的代理服务的人,正在一个名为resi[.]to的新Discord服务器上进行此类活动。

            2025年11月24日,resi-dot-to Discord频道的一名成员分享了一个负责通过感染了Kimwolf僵尸网络的Android TV流媒体盒子代理流量的IP地址。

            当KrebsOnSecurity在10月下旬作为沉默潜伏者加入resi[.]to Discord频道时,该服务器成员不足150人,其中包括“Shox”——Resi Rack联合创始人Hales先生使用的昵称——以及他的商业伙伴“Linus”,后者未回应置评请求。

            resi[.]to Discord频道的其他成员会定期发布负责通过Kimwolf僵尸网络代理流量的新IP地址。如上方的resi[.]to截图所示,XLab标记的那个Resi Rack互联网地址早在11月24日(如果不是更早)就被Kimwolf用于引导代理流量。总而言之,Synthient表示,它在2025年10月至12月期间追踪到至少七个与Kimwolf代理基础设施相关的静态Resi Rack IP地址。

            Resi Rack的两位共同所有者均未回应后续问题。两人近两年来一直活跃于通过Discord销售代理服务。根据对网络情报公司Flashpoint索引的Discord消息的审查,Shox和Linus在2024年大部分时间里,通过路由美国主要互联网服务提供商的各种互联网地址块来销售静态“ISP代理”。

            2025年2月,AT&T宣布自2025年7月31日起,将不再为非AT&T拥有和管理的网络块发起路由(其他主要ISP此后也采取了类似举措)。不到一个月后,Shox和Linus就告知客户,由于这些政策变化,他们将很快停止提供静态ISP代理。

            Shox和Linux,谈论他们停止销售ISP代理的决定。

            DORT & SNOW

            resi[.]to Discord服务器的声明所有者使用缩写用户名“D”。这个首字母似乎是黑客代号“Dort”的简称,该名字在这些Discord聊天中频繁出现。

            Dort在resi dot to上的个人资料。

            这个“Dort”昵称出现在KrebsOnSecurity最近与“Forky”的对话中。Forky是一名巴西男子,他承认在2024年底Aisuru僵尸网络创立初期参与了其营销活动。但他坚决否认与2025年下半年归咎于Aisuru的一系列破纪录的大规模DDoS攻击有任何关系,称僵尸网络在那时已被竞争对手接管。

            Forky断言,Dort是加拿大居民,并且是当前控制Aisuru/Kimwolf僵尸网络的至少两人之一。Forky指名的另一位Aisuru/Kimwolf僵尸网络控制者使用的昵称是“Snow”。

            1月2日——就在我们关于Kimwolf的报道发布几小时后——resi[.]to上的历史聊天记录被毫无预警地清除,并替换为一条针对Synthient创始人的充满脏话的信息。几分钟后,整个服务器消失了。

            微软今日发布补丁,修复了其各类Windows操作系统及支持软件中至少113个安全漏洞。其中8个漏洞被微软评为最严重的"高危"级别,该公司警告称攻击者已在利用其中一个今日修复的漏洞。

            本月微软零日漏洞——CVE-2026-20805——源于桌面窗口管理器(DWM)的缺陷,该组件是Windows系统中管理用户屏幕窗口的核心模块。Immersive网络威胁研究高级总监Kev Breen指出,尽管该漏洞仅获得5.5分的中等CVSS评分,但微软已确认其在野利用情况,表明威胁攻击者正利用此漏洞针对各类组织机构。

            Breen表示此类漏洞常被用于破坏地址空间布局随机化(ASLR),这项核心操作系统安全控制机制旨在防范缓冲区溢出及其他内存操纵攻击。

            Ivanti产品管理副总裁Chris Goettl注意到CVE-2026-20805影响所有当前受支持及扩展安全更新支持的Windows版本。他强调不应因该漏洞被标记为"重要"级别且CVSS评分相对较低而低估其严重性。

            "基于风险的优先级评估方法要求将此漏洞视为比供应商评级或CVSS评分更高的严重级别,"他补充道。

            本月修复的高危漏洞中包含两个Microsoft Office远程代码执行漏洞(CVE-2026-20952和CVE-2026-20953),仅需在预览窗格中查看恶意构造的消息即可触发。

            我们在2025年10月补丁星期二发布的《"终结10"专题报告》中曾指出,微软在发现黑客利用调制解调器驱动程序漏洞入侵系统后,已从所有版本中移除该驱动。Rapid7的Adam Barnett透露,微软今日又因类似原因从Windows移除另外两款调制解调器驱动:微软已掌握功能完整的漏洞利用代码,该代码针对极其相似的调制解调器驱动中的权限提升漏洞(编号CVE-2023-31096)。

            "这并非笔误,该漏洞最初由MITRE在两年前披露,原始研究人员还发布了可信的公开分析报告,"Barnett说明,"今日的Windows补丁移除了agrsm64.sys和agrsm.sys文件。这三款调制解调器驱动均源自同一家现已停止运营的第三方厂商,并已预置在Windows系统中数十年。对多数用户而言这些驱动移除不会引起注意,但在某些工业控制系统等特定场景中可能仍存在活跃的调制解调器。"

            Barnett提出两个遗留问题:在完全打补丁的Windows设备中究竟还存在多少传统调制解调器驱动?在微软切断攻击者"依赖[有线]生存"的途径——即利用整类陈旧设备驱动进行攻击——之前,这些驱动还将暴露出多少可提升至SYSTEM权限的漏洞?

            "尽管微软未宣称掌握CVE-2023-31096的利用证据,但2023年的相关分析报告与2025年移除其他Agere调制解调器驱动的举措,已为在此期间寻找Windows漏洞利用方式的人员释放了两个强烈信号,"Barnett强调,"需要说明的是,即使未连接调制解调器硬件,仅驱动文件的存在就足以让设备处于脆弱状态。"

            Immersive、Ivanti和Rapid7均重点关注CVE-2026-21265,这是影响Windows安全启动的关键安全功能绕过漏洞。该安全功能旨在防范rootkit和bootkit等威胁,其依赖的一组证书将于2026年6月和10月到期。这些2011年颁发的证书过期后,未安装2023年新证书的Windows设备将无法继续接收安全启动安全修复。

            Barnett特别提醒,在更新引导加载程序和BIOS时,必须针对特定操作系统与BIOS组合做好充分准备,错误的修复步骤可能导致系统无法启动。

            "在信息安全领域十五年确实非常漫长,但自震网病毒时代以来一直为安全启动生态系统签名的微软根证书正面临失效倒计时,"Barnett指出,"微软早在2023年就发布了替换证书,同时推出CVE-2023-24932补丁,涵盖相关Windows更新以及后续修复步骤,以应对BlackLotus bootkit利用的安全启动绕过漏洞。"

            Goettl同时提到Mozilla已发布Firefox和Firefox ESR更新,共修复34个漏洞,其中两个(CVE-2026-0891和CVE-2026-0892)疑似已被利用。两者均在Firefox 147(MFSA2026-01)中修复,CVE-2026-0891还在Firefox ESR 140.7(MFSA2026-03)中得以解决。

            "除1月6日Chrome更新已修复的高危Chrome WebView漏洞(CVE-2026-0628)外,预计本周还将发布Google Chrome和Microsoft Edge更新,"Goettl补充道。

            --互联网观察员,干啥都不持久--

            1 、买 172 的电话卡。一开始在今日头条搬运 tiktok 视频,下面就挂卖卡的店铺地址,后来头条号被封了,这个就没干过了。买了 4 张卡,单卡价格平均在 100 元,收益大概在 400.

            2 、淘宝联盟、京东联盟、维客享,做 cps ,到处发广告,这个没做起来,群里没拉什么人。主要都是朋友买东西用的分享的链接,干到结束,佣金也就 100 多
            ps:在上上家公司干过,但是公司是通过短信菜单投放的。公司有渠道,我没渠道。卒!

            3 、游戏搬砖。打魔兽世界,会挖矿买点卡,然后在卖掉。也好久不干了,收益预估在 1 小时 10 元左右吧,现版本不知道了