标签 强化学习 下的文章

编者按: 为什么在强化学习(RL)中,模型往往需要消耗比有监督学习多出数个数量级的计算资源,却只能换来看似微薄的性能提升,且常常陷入训练不稳定的泥潭?

本文从信息论角度出发,对比了有监督学习与强化学习在单位样本中可获取信息量的根本差异:前者通过明确的正确标签直接提供高信息密度的学习信号,而后者仅依赖二元的成功/失败反馈,其信息熵在通过率极低或极高时趋近于零。作者进一步指出,只有当模型的“通过率”处于约 50% 的“金发姑娘区”时,RL 才能高效学习,而这通常只出现在训练末期。此外,文章还剖析了 RL 中梯度估计方差巨大、容易被简单启发式策略主导、难以培养通用推理能力等深层问题,并反思了人类学习机制与当前 model-free RL 的本质差距。

这篇文章提醒我们:若想让强化学习真正释放其潜力,不能仅靠堆算力,而必须重新思考如何设计更密集、更结构化的反馈机制 —— 否则,我们可能只是在用极其昂贵的方式,重复确认一个早已写在预训练权重里的答案。

作者 | Dwarkesh Patel

编译 | 岳扬

最近,人们[1]一直在讨论[2]:在强化学习(RL)中生成单个样本所需的计算量(FLOPs)远高于有监督学习(supervised learning)。在预训练阶段,模型对每一个用于训练的 token 都能立即获得一个学习信号;而在 RL 中,必须展开一整条长达数万 tokens 的推理思维链,才能在最后得到一个奖励信号(例如,我写的代码单元测试是否通过?这道数学题的答案是否正确?等等)。

但这只是问题的一半。这里有一种简单的方法可以比较强化学习与有监督学习的学习效率:

Bits/FLOP = Samples/Flop × Bits/Sample

我还没听到有人讨论我们公式中的这一项:Bits/Sample(每个样本包含多少有用信息)。而且在训练的大部分阶段,强化学习的每一个样本所包含的“有效学习信息量”比有监督学习要低得多。

01 用大白话来说

在有监督学习(也就是预训练)中,模型只是在疯狂吸收信息(bits)。每一个 token 都像是一条线索,它不仅能帮你理解语言本身的构造,还能让你窥见创造这段语言的思维过程,以及那个思维所感知的现实世界。在训练初期,当你用一个完全随机初始化的模型时,你对这些内容都处于最大程度的不确定状态。因此,每个 token 都会让你“恍然大悟”。而且你会立刻得到一个精确的信号,知道自己对正确答案的预测错得多离谱,以及需要调整哪些参数来减少错误。

假设你从一个随机初始化的模型开始,并启动训练。如果你使用有监督学习对 “The sky is” 这个短语做 next-token-prediction,那么训练循环会这样工作:“正确答案其实是 ‘blue’。你预测 ‘blue’ 的概率只有 0.001%。现在,请大幅加强那些本该指向 ‘blue’ 的连接权重。好了,下一个 token。”

而在使用策略梯度(policy gradient)的强化学习中,你会增加所有回答正确的轨迹的权重,并降低所有回答错误的轨迹的权重。但问题是,一个还没怎么学会东西的模型,几乎不可能凭运气就答对。

如果你用 RL 来做“The sky is”的 next-token-prediction,训练循环大概会是这样:“好吧,‘halcyon’ 是错的,别再做导致输出‘halcyon’的操作了…… 好吧,‘serendipity’ 也是错的……” 然后就这样反复试错,猜错的次数差不多得有词汇表总量那么多(约 10 万次)。

02 详细分析

让我们思考一下:随着通过率(p)的变化,每个样本所能获得的最大信息量(bits/sample)会如何变化。这里的“通过率”指的是你给出正确答案的概率。 为简化起见,我们假设答案长度只有一个词元。那么,对于一个完全未经训练的模型,其通过率仅仅是 1/(词汇表大小)。

在有监督学习中,每个样本都会明确告诉你正确标签是什么。你学到的新信息量,取决于你看到正确答案时有多“惊讶” —— 你的通过率越低(即正确答案的先验概率越小),你从这个标签中学到的东西就越多。信息熵的基本公式告诉我们:在有监督学习中,你从每个样本中最多可以学到 -log(p) bits 的信息。

而在强化学习中,你只会被告知答案是否正确。你能从中提取的信息量,受限于你对这个二元结果(对/错)的不确定性。如果你几乎总是通过(p ≈ 1)或几乎总是失败(p ≈ 0),那么每次试验都很难让你感到意外。当通过的概率像抛硬币一样时(p ≈ 0.5),你学到的东西最多。 对于一个二元随机变量,其信息量的上限由熵公式给出:在 RL 中,你从每个样本中最多能学到 Entropy(p) = -p log(p) - (1-p) log(1-p)1 bits 的信息。

好,我们来画图。

看起来还不算太糟。是的,在通过率前 50% 的范围内,预训练明显更好,但在后 50% 的范围内,强化学习表现更佳。然而,这张图极具误导性。根据缩放定律(scaling laws)中的幂律关系,每当你想把“通过率”(pass rate)提升一个数量级,你都需要投入大致相同量级的计算资源。 如果你花了 X FLOPs 将通过率从 1/100,000 提升到 1/10,000,那么你也需要 X FLOPs 才能将通过率从 1/10,000 提升到 1/1,000。因此,我们应该使用对数刻度来表示通过率 —— 以便使 X 轴的每一单位增量对应于相同数量的计算开销(FLOPs)。

这张图看起来真令人沮丧。强化学习在样本信息密度上与预训练相当的区域,仅仅是训练末期的一小段,而且此时模型本身已经相当不错了。

再次强调,这一问题完全独立于另一个观点:即从强化学习中获取单个样本(也就是在得到任何信号前必须完整展开一整条推理轨迹)可能需要耗费高出数百万倍的计算量。

03 方差(variance)让实际情况甚至比这更糟

训练初期的强化学习,实际情况其实比上面描述的更为严峻。当通过率很低时,对梯度的估计会变得极其混乱且难以预测。 要么在当前 batch 生成的样本中,根本就没有采样到正确答案,在这种情况下,几乎得不到任何有用的学习信号。要么碰巧采样到了一次,然后就会得到一个巨大的梯度峰值。模型的训练过程会被剧烈地、不规则地“拉扯”(梯度忽大忽小、方向混乱),如果要追求高效、稳定的训练,这样是非常糟糕的。2

有趣的是,预训练的问题恰好相反,方差(variance)在训练末期会变得非常高。随着预训练的推进,你会逐渐耗尽那些可约损失(reducible loss,即模型实际能从数据中学到的东西)。剩下的主要都是不可约损失(irreducible loss),不可约损失指的是网络文本数据固有的不可预测性。

提示词 “Bob’s favorite color is” 应该怎么结尾?这完全取决于 Bob 是谁。对于这种问题,并不存在什么标准正确答案能让你的超级智能模型通过训练达到很高的预测准确率。但是,模型仍然会根据某人在网上留下的随机答案,获得梯度更新(gradient update)。而这种噪音,会淹没当前 batch 中少数几个真正可学习的词元为我们提供的真实信号。我不知道这是否准确,但预训练阶段末期出现的这种方差激增,似乎与为什么在预训练过程中需要增大 batch sizes 有关。

04 进入 RL 的“金发姑娘区”(Goldilocks zone)

如果 RL 在通过率远高于 1% 时效果最佳,那么这就引出了一个问题:我们该如何设计 RL 训练过程,才能让模型进入并维持在这个高效学习的状态中?

例如,在进行强化学习(RL)时,我们可以通过“预训练更多的数据”和“增加推理时的计算量(比如让模型想得更久)”这两种方式,来让模型变得更聪明、回答得更准确,提高模型的“通过率”,从而让每个样本带来更多的有效信息(bits)。

有观点指出,课程学习(curriculum learning)在预训练中作用不大[3],但在 RL 中却常常不可或缺[4]。这完全说得通 —— 因为 RL 只有在通过率处于这个“金发姑娘区”时,每个样本才能带来有意义的信息量。因此,为了训练效果好,你必须精心安排学习内容的顺序,要保证问题的难度是随着模型能力的提升而同步加难的,不要一下子给太难的题,也不要一直做太简单的题。

作者提出的“通过率”理论可以很好地解释为什么“自我对弈”(像 AlphaGo 那样自己跟自己下棋)在强化学习历史上特别管用。因为当你跟一个水平旗鼓相当的对手比赛时,你赢的概率大约就是 50%。在这个理论中,50%是一个最佳状态,意味着每次比赛结果(输或赢)带给你的信息量是最大的,能让你学得最快。

但自我对弈并不是唯一能让训练过程中保持高通过率的方法。我们还可以设计出一种“proxy evaluation”机制,这种机制能提供更密集的反馈信息。这里的“密集”具体指以下两种情况之一:

1)Samples/FLOP 密度:通过“proxy evaluation”方法,我们可以在一个强化学习回合刚开始不久时就估算出最终的奖励,而不必真的把整个过程跑完,从而省去了后续的大量计算消耗。这种机制其实就是所谓的“价值函数”。

2)Bits/Sample 密度:我们可以设计一个比最终目标更易达成的 proxy objectives 来指导模型。我能想到的最简单例子是过程奖励模型(process-reward model),它会这样说:“嘿,这次生成的答案虽然错了,但我看得出来,它一开始的推理方向是对的。那我们就给这些早期的 token 增加一点权重。”

Deepseek R1[5] 论文的 4.2 节讨论并解释了,为什么直到现在,要为大语言模型开发出像这样好用的 proxy objectives 依然是一件很难的事情。

05 信息量虽少,但价值高

虽然在强化学习中,每单位计算量(FLOP)学到的 bits 确实少得多,但这些 bits 却非常重要,它们与预训练中获得的 bits 信息不能简单地相提并论。 这其中主要有两个关键原因:

  • 预训练就像是让模型把互联网上现有的数据全记下来,但这种知识与“如何完成具有经济价值的任务”只有部分且间接的关联;而强化学习则是直接教模型怎么去解决那些真正有用、能产生价值的实际问题。
  • 即使预训练语料中包含了完成某项任务的“操作说明”(比如教程、具体步骤或答案),它也缺少一种关键的东西 —— “思维轨迹”(thinking trace)。也就是说,数据里没有展示模型犯错时是怎么自我纠正的,也没有展示如何利用模型独特的、非人类的方式去组合技能来解决问题。而这些深层的思考痕迹,正是强化学习能提供的东西。

反驳的观点认为,虽然这些信息很有价值,但它们只在一个非常窄的通过率范围内(比如模型已经挺聪明了,但还没完全学会的时候)才能被获取。之所以要强调这一点,是因为在训练的大部分时间里,模型的通过率都极低(接近0),在对数尺度上看,这些低通过率的阶段占据了很大的比重,这意味着真正能高效学习的窗口期其实很短。

现在我们就能理解那些关于 RLHF/RL 仅能激发预训练模型中已有的潜在能力的说法了[6]。事实当然如此。如果预训练模型初始的通过率不够高,那么强化学习的 bits/sample 就会低得可怜,从而根本无法进行有效学习。 围棋对战中的“第 37 手”是一个非常著名的案例,它证明了强化学习确实能教给模型一种全新的、前所未有的策略。值得注意的是,AlphaGo 是通过自我对弈训练出来的(见上文关于自我对弈如何提高通过率的论述),而且以当时的标准来看[7],其计算消耗之巨令人吃惊。

06 强化学习的不均衡

人们指出,从经验上看,RLVR(强化学习 + 可验证奖励)实际上只是让模型将某种思维模式与特定问题类型关联起来,而并未真正培养出一种更通用的策略 —— 比如先退一步,再仔细思考最佳解法。

仔细想想。怎么会有模型在国际编程竞赛中达到世界顶尖水平,却同时在代码库中留下了大量本可预见的 Bug 和技术债务?

这种奇怪的不均衡该如何解释?也许 RLVR 无法区分一条成功的推理轨迹到底是模型通过某种通用的推理能力(举一反三)做出来的,还是仅仅靠死记硬背某种特定的解题模板(“看到这个形状就用这个套路”)做出来的。因为它没法区分这两种过程,所以模型可能学会了后者(简单的套路),而不是前者(通用的能力)。

当你使用策略梯度(policy gradient)进行 rollout(即让模型生成完整的行为序列)时,那种更复杂、更具泛化能力的策略几乎不可能被采样到;而简单的启发式策略却很容易被采样到,并随着训练不断被强化,出现频率越来越高,最终完全主导模型的行为(即达到“固定”状态)。与此同时,真正的通用策略则越来越难以被观察到,逐渐从训练过程中消失。

那么问题来了,我们该如何搭建一座“短桥”,把简单的启发式解法,和那种更复杂、更具泛化能力的通用策略连接起来?而且,这座桥会不会随着任务时间跨度(time horizons)自然拉长而自动出现 —— 从而迫使模型发展出真正的泛化能力?

我担心的是,那种“先退一步、基于对世界的理解做出明智判断”的通用策略,即使在更长周期的任务中,也依然很难通过“可验证的奖励”(verifiable rewards)被有效识别和强化。因此,要解决这种不均衡问题,不能只靠扩大 RLVR 的规模,而必须设计更鲁棒的训练方法。

07 人类的学习方式

本节我们讨论的只是 model-free RL —— 也就是仅从一个强化学习周期结束时的二元结果(成功/失败)中获得的信息量(bits/sample)。但显然,人类的学习效率远高于此。想想假如有一位连续创业者,我们会说她拥有大量来之不易的智慧和经验。而这些学习成果中,极少部分真正来自上一次创业的“one bit”结果(即创业成功与否)。

目前还不清楚,在机器学习中,人类这种从经验中学习的方式对应的是什么机制。 显然,我们的观察与反思会不断更新我们的世界模型(world model) —— 而且这种更新并不依赖于最终结果是成功还是失败。这在人类学习过程中起着非常重要的作用。

也许我们不该只是想着“如何把 model-free RL 的通过率调到 50% 左右,因为这样做仅仅是试图从一个单一的“成功/失败”结果中,挤出那么一点点微薄的信息。也许我们应该转换思路,去研究人类是如何从环境中获取海量信息的。人类并不像现在的机器那样,只盯着最终的结果(成功或失败),而是能从过程、观察和反思中吸收大量的经验和教训。

1 这个公式的意思是:从一个二元结果中学到的信息量 =p(样本正确) × (样本正确时获得的信息量) +p(样本错误) × (样本错误时获得的信息量)。

2 感谢 Lukas Berglund 指出我此前在这一点上的阐述有误。

END

本期互动内容 🍻

❓人类从失败中能学到远不止“0/1”的反馈——你觉得 AI 系统要如何模拟这种过程性反思能力?

文中链接

[1]https://www.tobyord.com/writing/inefficiency-of-reinforcement...

[2]https://thinkingmachines.ai/blog/lora/#how-much-capacity-is-n...

[3]https://arxiv.org/pdf/2012.03107

[4]https://arxiv.org/pdf/1707.05300

[5]https://arxiv.org/abs/2501.12948

[6]https://arxiv.org/abs/2510.07364v3

[7]https://epoch.ai/data/ai-models

原文链接:

https://www.dwarkesh.com/p/bits-per-sample

AAAI 是人工智能领域顶级的国际学术会议,本文精选了美团技术团队被收录的 8 篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,希望这些论文能对大家有所帮助或启发。

01 Promoting Efficient Reasoning with Verifiable Stepwise Reward

论文类型:Poster

论文下载PDF

论文简介:大推理模型通过强化学习提升了链式推理能力,但输出冗长,导致推理开销增大和用户体验下降,即「过度思考」问题。针对这一现象,本文提出了可验证的过程奖励机制(VSRM),通过奖励有效步骤、惩戒无效步骤,优化模型推理过程。VSRM 首先通过特殊 token 划分推理步骤,并结合三条规则保证每个步骤的内容可读性。各步骤通过插入 token 生成子轨迹,模型根据每步前后正确率变化分配步骤级奖励。为避免奖励信号稀疏,引入前瞻窗口机制,通过折扣因子传播未来正确率变化,使奖励更密集。

实验表明,VSRM 能大幅缩减输出长度,且在多种数学 benchmark 和不同模型、算法下保持甚至提升性能。消融实验证明前瞻窗口机制有效,显式长度惩罚对 VSRM 无益。VSRM 机制可与各类强化学习算法无缝结合,有效抑制无效步骤,鼓励有效推理,是解决过度思考问题、提升模型推理效率的有效方法。

02 Scaling and Transferability of Annealing Strategies in Large Language Model Training

论文类型:Long Paper

论文下载PDF

论文简介:本文深入研究了大型语言模型训练过程中退火策略(Annealing Strategies)对模型性能的影响,提出了一个新的缩放法则公式来预测不同训练配置下的损失曲线。研究发现,即使在相同的训练 token 数量和模型规模下,不同的批次大小(batch size)和学习率调度器也会导致显著不同的训练曲线。为此,作者提出了一个改进的缩放法则公式:

其中 S 表示学习率对训练步数的积分(前向效应),M 表示动量对训练步数的积分(退火动量项),N 代表模型规模。

论文的核心贡献包括:(1) 证明在特定情况下,训练步数比训练 token 数更适合作为追踪损失曲线的指标;(2) 发现最优退火比率(Ropt)随总训练步数增加而减小,遵循幂律关系;(3) 验证了最优退火比率在训练集和验证集上保持一致;(4) 通过在 Dense 模型和 MoE(Mixture-of-Experts)模型上的大量实验,证明小模型可以作为优化大模型训练动态的可靠代理。该研究为大规模语言模型的训练提供了更精确的理论指导,有助于优化训练效率和模型性能。

03 From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling

论文类型:Long Paper (Oral)

论文下载PDF

论文简介:本文系统研究了过程奖励模型(Process Reward Models, PRMs)在提升大型语言模型推理能力方面的作用,特别关注其从数学推理到代码生成任务的跨域泛化能力。研究从训练方法、可扩展性和泛化能力等多个维度对 PRMs 进行了深入分析。

论文的核心发现包括:
- 训练计算资源的影响:研究发现随着 PRM 模型规模的增大,性能提升呈现边际递减效应,强调了在模型规模和计算成本之间寻找平衡的重要性。同时,训练数据集的多样性显著影响 PRM 性能,作者提出的 ASLAF(自动步骤级标注与过滤)方法在多个基准测试中表现优异。
- 测试时扩展策略:论文评估了 Best-of-N 采样、束搜索、蒙特卡洛树搜索(MCTS)和多数投票等多种搜索策略。结果表明,在计算资源充足时 MCTS 效果最佳,而在资源受限情况下 Best-of-N 采样是实用的替代方案。
- 跨域泛化能力:令人惊讶的是,在数学数据集上训练的 PRMs 在代码生成任务上的表现与专门针对代码训练的模型相当,展现出强大的跨域适应能力。通过梯度分析,研究还发现 PRMs 倾向于选择具有相似底层推理模式的响应,这为理解其优化机制提供了新视角。该研究为优化大规模语言模型的训练和部署提供了重要的理论指导和实践参考。

04 Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

论文类型:Poster

论文下载PDF

论文简介:本文对强化学习(RL)中的问题采样策略进行了系统性研究,当前主流采样策略大多直接依赖单步通过率(Pass Rate) 作为问题难度指标,存在 1)对问题难度的估计不够稳定;2)无法有效捕捉模型能力与问题难度的对齐关系的问题。

针对这些问题,本文提出了 CDAS(Competence-Difficulty Alignment Sampling):一种将模型能力与问题难度显式建模并对齐的动态采样方法。CDAS 不依赖单步通过率,而是通过累积历史表现差异来构建更稳定的难度估计;同时定义模型能力,并以不动点系统确保两者在训练过程中共同收敛。基于能力—难度差值构建对齐指标,再通过对称采样策略,选取最匹配模型当前能力的问题,从而提升有效梯度比例与训练效率。CDAS 在数学推理和代码生成场景中均通过 RL 训练 验证,结果显示 CDAS 显著提升了采样效率与模型性能,击败了多种主流采样策略。

05 ViType: High-Fidelity Visual Text Rendering via Glyph-Aware Multimodal Diffusion

论文类型:Oral

论文下载PDF

论文简介:随着文生图模型在电商营销等领域的广泛应用,视觉文本渲染的准确性已成为制约生成质量的核心瓶颈。现有模型因缺乏字形级理解能力,难以精确刻画多语言字符结构,导致海报、商品图等商业场景中文字乱码、字形失真等问题频发,严重阻碍了 AIGC 在智能设计中的实际落地。

针对这一关键挑战,我们提出 ViType 三阶段对齐增强框架:首先通过视觉问答机制实现文本-字形显式对齐,将字符视觉结构注入大语言模型语义空间;其次创新性地将预对齐字形嵌入与文本 token 同步输入多模态扩散 Transformer,通过联合训练建立跨模态特征协同;最后基于高质量图文对进行美学精调,确保生成图像的版式和谐与视觉美感。该框架使字符准确率提升 15%以上,为电商海报、营销物料等高精度视觉内容创作提供了可靠的技术支撑。

06 DSCF: Dual-Source Counterfactual Fusion for High-Dimensional Combinatorial Interventions

论文类型:Poster

论文下载PDF

论文简介:在个性化推荐、数字营销和医疗健康等领域,基于观测数据预测反事实结果对科学决策至关重要。在这些应用场景中,决策过程往往涉及高维组合干预策略,例如多渠道资源捆绑投放或产品组合推荐。面向这类场景,无论是历史策略的效果评估还是新策略的优化,都需要模型能够对历史数据中很少出现甚至从未出现过的策略组合效果进行准确预测。此外,观测数据中源于历史分配策略和倾向性投放的选择偏差会进一步加剧数据稀疏问题,从而影响反事实推断的准确性。

为此,本文提出双源反事实融合模型(Dual-Source Counterfactual Fusion,DSCF),该可扩展框架通过双专家混合架构联合建模观测数据和代理反事实样本,并采用领域引导融合机制,在有效平衡偏差消除与信息多样性的同时,还能自适应地泛化到反事实输入场景。在合成和半合成数据集上的大量实验表明,DSCF 框架能够显著提升高维组合干预场景下的预测准确性,并在不同情境下展现出优异的鲁棒性表现。

07 Compress-then-Rank: Faster and Better Listwise Reranking with Large Language Models via Ranking-Aware Passage Compression

论文类型:Poster

论文下载PDF

论文简介:基于大型语言模型(LLMs)的列表重排序(listwise reranking)已经成为最先进的方法,在段落重排序任务中不断创下新的性能基准。然而,其实际应用面临两个关键挑战:处理长序列时高昂的计算开销和高延迟,以及由于“迷失在中间”等现象导致的长上下文性能下降。

为了解决这些问题,我们提出了一种高效的框架压缩后排序(Compress-then-Rank, C2R),该框架不是直接对原始段落进行列表重排序,而是对其紧凑的多向量代理进行操作。这些代理可以预先计算并缓存,适用于语料库中的所有段落。C2R 的有效性依赖于三项关键创新。首先,压缩模型通过结合文本恢复和文本延续目标进行预训练,生成高保真的压缩向量序列,从而减轻了单向量方法中常见的语义损失问题。其次,一种新颖的输入方案将每个序数索引的嵌入添加到其对应的压缩向量序列前,这不仅划定了段落边界,还引导重排序 LLM 生成排序列表。最后,压缩模型和重排序模型通过联合优化,使压缩过程对排序目标具有排序感知能力。在主要重排序基准上的广泛实验表明,C2R 在提供显著加速的同时,能够实现与全文重排序方法相当甚至更优的排序性能。

08 Multi-Aspect Cross-modal Quantization for Generative Recommendation

论文类型:Oral

论文下载PDF

论文简介:本文提出一种基于多模态融合的生成式推荐框架(MACRec),旨在解决现有生成式推荐方法因模态信息利用不足和跨模态交互缺失导致的性能瓶颈。

针对文本与视觉模态的量化难题,MACRec 引入跨模态量化与多角度对齐机制,通过两阶段技术路线实现优化:1)跨模态残差量化:将对比学习融入分层量化过程,生成兼具语义层次性与模态兼容性的物品标识符,显著降低多模态表征冲突;2)跨模态协同对齐:通过显式-隐式协同对齐策略,分别建模文本与视觉模态的共享特征和互补特征,增强生成式推荐的多模态理解能力。在亚马逊电商推荐数据集上的实验结果表明,MACRec 相较基准模型在推荐性能上有显著提升;各模态的码本分布更均衡、利用率更低,充分验证了跨模态量化与对齐机制在提升生成式推荐有效性方面的优势。

相关点击访问:

github

HUGGINGFACE

MODELSCOPE

SHOWCASEgithub

从 Chatbot 到 Autonomous Agent

通义DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。

在多个极高难度的信息检索和推理任务中,通义DeepResearch 取得了最先进的(SOTA)成绩:

  • Humanity’s Last Exam (HLE):32.9
  • BrowseComp‑EN:43.4
  • BrowseComp‑ZH:46.7
  • xBench‑DeepSearch:75.0

全面超越了目前所有的闭源及开源 Deep Research 智能体(Agent)。

不仅如此,我们还完整分享了一套可落地的高水平Agent构建方法论,详细介绍了从数据合成、Agentic 增量预训练(CPT)、有监督微调(SFT)冷启动,到强化学习(RL)的全套流程。在 RL 环节,我们提供了算法创新、自动化数据构建与高稳定性基础设施的全栈解决方案。

在推理阶段,基础的 ReAct 模式无需任何提示工程即可充分展现模型固有能力,而深度模式(test‑time‑scaling) 则展示了其在复杂推理与规划能力上的上限。

基于合成数据的增量预训练和后训练

增量预训练数据

我们提出在Agent模型训练中加入智能体增量预训练(Agentic Continual Pre‑training, Agentic CPT)阶段,从而为后训练提供一个强大的Agent基座模型。为此,我们提供了一套支持大规模持续扩展的智能体预训练数据合成方案AgentFounder,并与后训练过程中源源不断生产的数据形成数据飞轮。

数据重组和问题构建 

基于广泛收集和持续更新的知识文档、公开可用的爬虫数据、知识图谱以及后训练数据生产和训练中产生的轨迹数据和工具调用返回结果(例如,搜索结果和网页访问记录)等,我们构建了一个以实体为锚定的开放世界知识记忆。进一步,我们基于采样的实体和相关知识构造多风格的(问题,答案)对,以尽可能涵盖智能体所面临的真实场景。

image

image

动作合成 

基于多风格问题和历史轨迹数据,我们分别构建了三种类型的动作数据,包含单步的规划、推理动作和多步的决策动作合成。我们的方法能够在离线环境下大规模、全面地探索潜在的推理‑动作空间,从而消除了对额外商业工具 API 调用的需求。例如,对于决策动作合成,我们将原始轨迹中的步骤进行扩展,并最终建模成多步骤决策过程数据,以激发模型的探索能力和决策能力。

后训练数据

High‑quality QA

我们开发了一套端到端的合成数据生成解决方案。这一全自动流程无需人工干预即可构建超越人类质量的数据集,旨在突破智能体的性能极限。经过长期的探索和迭代——从早期的网页点击流逆向工程Benchmark(WebWalker)到基于图谱的合成方法(WebSailor 和 WebSailor‑V2),再到形式化的任务建模(WebShaper),我们的方法确保了卓越的数据质量和强大的可扩展性,突破了模型能力的上限。

为了解决复杂且高度不确定的问题,我们通过一种新颖的流程合成基于 Web 的问答数据。该流程首先通过在高度互联的知识图谱随机游走和基于表格数据融合同构表构建,将来自真实网站数据整合,并确保信息结构的真实性;然后,我们对子图和子表进行采样,生成初始问题和答案,关键步骤是通过策略性地混淆或模糊问题中的信息来增加问题难度。该方法基于一个组合泛化的理论框架,我们将问答难度正式建模为一系列可控的“原子操作”(例如,合并具有相似属性的实体),这些操作基于实体关系,使我们能够系统地增加复杂性。

为了进一步减少问答系统的信息结构与推理结构之间的不一致性,提高推理难度和结构扩展能力,我们提出了一种基于集合论的信息搜索问题形式化建模,基于这种建模,我们开发了能够以可控方式扩展问题的智能体,并最大限度地减少了推理捷径和结构冗余,从而进一步提升了问题质量,此外,这种形式还能高效地验证问答的正确性,有效解决了信息搜索合成数据难以验证的挑战。

我们还开发了一个自动化学术数据构建流程,以扩大博士级研究问题的规模。该引擎基于多学科知识库,生成需要多源推理的“种子”问答对;然后,每个种子都会进入一个自我引导的“迭代复杂性升级”循环,其中,一个问题构建代理配备了一套强大的工具,包括网络搜索、学术检索和 Python 执行环境。在每次迭代中,代理都会扩展知识边界,深化概念抽象,甚至构建计算任务,从而形成一个演化循环,上一轮的输出成为下一轮更复杂的输入,确保任务难度的可控且系统地升级。

融合多样推理模式,激发智能体潜能

为激发模型的初始能力,我们基于 ReAct 和 IterResearch 框架,通过拒绝采样的方式构建了一组轨迹。一方面,ReAct 作为一个经典且基础的多轮推理范式,为模型注入了丰富的推理行为,并加强了其遵循结构化格式的能力。

另一方面,我们引入了一种创新的智能体范式——IterResearch(下文将详细介绍)。它通过在每一轮动态地重构一个精简的工作空间,来释放模型的全部推理潜力,从而确保每一个决策都经过深思熟虑,不受上下文噪声干扰。

Rollout模式

我们对深度研究型智能体的部署范式进行了广泛的探索。因此,我们的最终模型支持多种部署格式,包括原生的 ReAct 模式和上下文管理的深度模式。

ReAct 模式

我们的模型使用ReAct推理范式展现出卓越的性能。它严格遵循“思考‑行动‑观察”的循环,通过多次迭代来解决问题。模型上下文长度为 128K,可以处理大量的交互轮次,从而完全实现与环境交互的可扩展性。ReAct 的简单性和通用性为模型的内在能力和我们训练流程的有效性提供了最清晰的基准。

我们选择ReAct很大程度上受到了“The Bitter Lesson”的影响,利用可扩展计算的通用方法最终将优于依赖复杂的人工知识和复杂设计的方法。

深度模式

除了 ReAct 模式外,我们还开发了“深度模式”,用于处理极端复杂的多步研究任务。此模式基于我们全新的 IterResearch 范式,旨在将Agent的能力发挥到极致。

IterResearch 范式的创建是为了解决Agent将所有信息堆积在一个不断扩展的单一上下文窗口中时出现的认知瓶颈和噪音污染。针对多步研究任务,IterResearch 将其解构为一系列研究回合。

image

在每一轮中,Agent仅使用上一轮中最重要的输出来重建一个精简的工作空间,在这个专注的工作空间中,Agent会分析问题,将关键发现整合成一个不断演变的核心报告,然后决定下一步行动——是收集更多信息还是提供最终答案。这种“综合与重构”的迭代过程使Agent能够在执行长期任务时保持清晰的认知焦点和高质量的推理能力。

在此基础上,我们提出了Research‑Synthesis框架,并行使用多个IterResearch Agent探索同一个问题。并最终整合它们完善的报告和结论,从而得出更准确的最终答案,这种并行结构使模型能够在有限的上下文窗口内考虑更广泛的研究路径,从而将其性能推向极限。

image

端到端Agent训练流程

image

训练这样的Agent模型需要重新思考整个模型训练流程,从预训练到微调再到强化学习,我们建立了一套完整的智能体模型训练范式,将Agentic CPT → Agentic SFT → Agentic RL 连接起来,为 AI Agent创建了一个无缝的端到端训练循环。

以下是我们利用强化学习解决最后阶段的方法,对于使代理的行为与高阶目标保持一致至关重要:

基于On-Policy策略的智能体强化学习 (RL)

通过强化学习构建高质量的Agent是一项复杂的系统工程挑战;如果将整个开发过程视为一个“强化学习”循环,其组件中的任何不稳定或鲁棒性不足都可能导致错误的“奖励”信号。接下来,我们将分享我们在强化学习方面的实践,涵盖算法和基础设施两个方面。

在强化学习(RL)算法方面,我们基于GRPO进行了定制优化,我们严格遵循 on‑policy 的训练范式,确保学习信号始终与模型当前的能力精准匹配,同时,我们采取了一个 token 级别的策略梯度损失函数来优化训练目标。

其次,为了进一步降低优势估计(advantage estimation)的方差,我们采用了留一法 (leave‑one‑out) 策略,此外,我们发现未经筛选的负样本会严重影响训练的稳定性,这种不稳定性在长时间训练后可能表现为“格式崩溃”(format collapse)现象。为缓解此问题,我们会选择性地将某些负样本排除在损失计算之外,例如那些因过长而未能生成最终答案的样本,出于效率考虑,我们没有采用动态采样,而是通过增大批次(batch size)和组规模(group size)的方式,来维持较小的方差并提供充足的监督信号。

训练过程的动态指标显示,模型学习效果显著,奖励(reward)呈持续上升趋势。同时,策略熵(policy entropy)始终维持在较高水平,这表明模型在持续进行探索,有效防止了过早收敛。我们将此归因于Web环境天然的非平稳性,该特性促进了稳健自适应策略的形成,也因此无需再进行显式的熵正则化。

我们认为,算法固然重要,但并非 Agentic RL 成功的唯一决定因素。 在尝试了多种算法和优化技巧后我们发现,数据质量和训练环境的稳定性,可能是决定强化学习项目成败的更关键一环。一个有趣的现象是,我们曾尝试直接在 BrowseComp 测试集上训练,但其表现远不如使用我们合成数据的结果。我们推测,这种差异源于合成数据提供了一致性更高的分布,使模型能进行更有效的学习和拟合。

相比之下,像 BrowseComp 这样的人工标注数据,本身就含有更多噪声,加之其规模有限,导致模型很难从中提炼出一个可供学习的潜在分布,从而影响了其学习和泛化(generalize)能力。这一发现对其他智能体的训练同样具有启发意义,为构建更多样、更复杂的智能体训练方案提供了思路。

image

在基础设施方面,使用工具训练智能体需要一个高度稳定高效的环境:

● 仿真训练环境:依赖实时 Web API 进行开发成本高昂、速度慢且不一致。我们利用离线维基百科数据库和自定义工具套件创建了一个模拟训练环境来解决这一问题。并且通过SailorFog‑QA‑V2的流程,为该环境生成专属的高质量数据,创建了一个经济高效、快速可控的平台,显著加快了我们的研究和迭代速度。

● 稳定高效的工具沙盒:为了确保在智能体训练和评估期间对工具的稳定调用,我们开发了一个统一的沙盒。该沙盒通过缓存结果、重试失败的调用以及饱和式响应等改进来高效地处理并发和故障。这为智能体提供了快速且鲁棒的交互环境,可以有效防止工具的错误响应破坏其学习轨迹。

● 自动数据管理:数据是提升模型能力的核心驱动力,其重要性甚至超过了算法。数据质量直接决定了模型是否能通过自我探索提升分布外泛化能力。因此,我们在训练动态的指导下实时优化数据,通过全自动数据合成和数据漏斗动态调整训练集。通过数据生成和模型训练之间的正向循环,这种方法不仅确保了训练的稳定性,还带来了显著的性能提升。

● On‑Policy策略的异步框架:我们在 rLLM 之上实现了异步强化学习训练推理框架,多个智能体实例并行与(模拟或真实)环境交互,独立生成轨迹。

通过这些措施,我们实现了智能体强化训练的“闭环”。从基座模型开始,我们进行了Agentic持续预训练以初始化工具使用技能,然后使用类似专家的数据进行监督微调以实现冷启动,最后进在on‑policy的强化学习,使模型进行自我进化。这种全栈方法为训练能够在动态环境中稳健地解决复杂任务的 AI 代理提供了一种全新的范例。

(我们的强化学习算法受到 Agentica 过去研究的启发。我们基于rLLM框架进行开发和扩展,实现高效训练)

应用及影响

通义Deep Research不仅仅是一个研究成果的展示,它已经在阿里巴巴内外赋能实际应用,并在实际场景中展现其价值:

高德地图(地图导航智能体) 高德 App 作为通义在集团内长期共建的重点客户,其“地图导航+本地生活”的业务场景,以及高德内部丰富的专用工具,具备构建Deep Research 类 Agent 的土壤,高德也将这种能力作为 25 年暑期大版本 V16 的一个亮点功能。通义团队近期在地图+本地生活场景,基于纯agentic + ReAct执行复杂推理的垂类Deep Research技术建设,为高德提供更好效果的模型。因此,双方团队共建合作,“通义团队提供Deep Research模型 + 高德团队提供工具和 Agent 链路”,打造了高德 App 中助手「小高老师」的复杂查询体验,在地图行业内打出影响力。

通义法睿(法律Deep Research) 作为大模型原生的“法律智能体”,致力于为大众及法律从业者提供专业、便捷的法律智能服务。集法律问答、案例法条检索、合同审查、文书阅读、文书起草等功能于一体,全面满足法律用户需求。依托创新的Agentic架构与迭代式规划(Iterative Planning)技术,通义法睿全新升级司法DeepResearch能力,可高效执行多步查询与复杂推理,实现权威类案精准检索、法条智能匹配与专业观点深度融合。我们以真实判例、官方法规和权威解读为基础,打造可追溯、高可信的法律分析服务,在法律问答的深度研究三大核心维度——答案要点质量、案例引用质量、法条引用质量上领先行业。

image

未来工作

我们未来的工作将致力于解决以下三个关键局限性:首先,当前 128k 的上下文长度在处理极端复杂的长程推理任务时仍显不足。为此,我们将探索扩展上下文窗口的有效方法,并研究更精细的上下文管理策略。其次,我们训练流程的可扩展性在远超 30B 参数规模的模型上尚未得到充分验证,我们计划在更大规模的模型上测试并验证我们流程的有效性。最后,我们旨在通过引入 partial rollouts 等技术进一步提升强化学习框架的效率,这需要我们攻克离线训练所面临的挑战,尤其是分布偏移问题。

敬请期待我们下一代Agent模型:

@misc{tongyidr,
  author={Tongyi DeepResearch Team},
  title={Tongyi DeepResearch: A New Era of Open-Source AI Researchers},
  year={2025},
  howpublished={\url{https://github.com/Alibaba-NLP/DeepResearch}}
}

image


点击下方访问产品链接:

面向深度的查询问答和调研分析需求场景,多步骤推理规划研究路径,生成有洞察、可溯源、图文并茂的长文报告-大模型服务平台百炼(Model Studio)-阿里云帮助中心

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01有话题的技术

1、阶跃星辰开源 Step3‑VL‑10B:10B 模型对标 200B 能力

昨天,阶跃星辰宣布正式开源旗下 10B 参数量多模态模型 Step3‑VL‑10B。该模型在多项核心基准测试中达到同规模 SOTA 水平,部分能力甚至超越 10–20 倍体量的大模型。

Step3‑VL‑10B 主打「小模型实现大模型能力」,在视觉感知、逻辑推理、数学竞赛题、多模态对话等任务中表现突出。

阶跃星辰称,Step3‑VL‑10B 的性能已接近甚至超越部分百亿级开源模型(如 GLM‑4.6V 106B‑A12B、Qwen3‑VL‑Thinking 235B‑A22B),并在部分场景中达到顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed‑1.5‑VL)水平。

官方强调,该模型的关键突破来自三项核心设计:

  • 全参数端到端多模态联合预训练:在 1.2T 高质量多模态数据上训练,实现视觉与语言的深度对齐;
  • 大规模多模态强化学习:经历超过 1,400 次迭代,使模型在识别、推理与对话能力上持续提升;
  • 并行协调推理机制:通过并行探索与证据聚合提升复杂任务的准确度,尤其在数学推理、OCR、计数与空间拓扑任务中效果显著。

Step3‑VL‑10B 同时提供 SeRe(顺序推理)与 PaCoRe(并行推理)两种范式,覆盖 STEM 推理、OCR、GUI Grounding、空间理解与代码等多项能力维度。

当前,Step3‑VL‑10B 已开放 Base 与 Thinking 两个版本,社区可在 HuggingFace 与 ModelScope 获取模型并进行微调。

项目主页:
https://stepfun-ai.github.io/Step3-VL-10B/

Hugging Face:
https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope:
https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

论文链接:
https://arxiv.org/pdf/2601.09668

(@阶跃星辰、@APPSO)

2、showlab 开源 whisperVideo:集成 SAM3 与 TalkNet 实现长视频「音视对齐」的说话人转录

showlab 近期开源了名为 whisperVideo 的项目,专门致力于解决长视频场景下「谁在说话」的身份归属难题。该工具打破了传统方案仅依赖音频的局限,通过融合视听双重特征,实现了语音内容与画面特定人脸的精准对齐。

为了突破纯音频方案在多人混响或近距离交谈时常见的识别漂移问题,whisperVideo 构建了一套紧密的多模态级联架构。它集成了 WhisperX 负责语音转录、Pyannote.audio 处理声纹分离,并引入 SAM3 进行人脸分割以及 TalkNet 判定主动说话人。这种组合拳方式,确保了机器能像人类一样同时「听」和「看」,从而做出更准确的判断。

针对小时级素材中常见的跨场景挑战,工具特别引入了「长时身份一致性」机制。利用视觉嵌入与轨迹聚类技术,系统能在漫长的视频时间轴上记住每一张脸,确保同一说话人的 ID 在不同场景切换中始终保持稳定。

在工作流设计上,whisperVideo 追求全自动化体验。内置的 SceneDetect 能够自动进行场景切割与分段处理,无需人工干预即可完成时间戳、文本与视觉 ID 的三方对齐。最终生成的成果不仅包括带说话人 ID 的字幕,还支持可视化的面板模式,并将底层数据以 。pckl 格式开放给开发者。

目前,项目已在 GitHub 开源,需使用 CUDA GPU 环境,依赖 HuggingFace Token 调用 Diarization 模型,支持 Python 命令行一键推理。

GitHub:
https://github.com/showlab/whisperVideo

( @aigclink\@X)

3、Bolna 获 630 万美元种子轮融资:自研 SLM 语音智能体,支持「印式英语」混说

总部位于班加罗尔的初创公司「Bolna」近日完成了由 General Catalyst 领投的 630 万美元种子轮融资。这家公司致力于通过自研的专用小模型(SLM)技术,打破多语言环境下的自动化通信瓶颈。

为了适应印度极其复杂的语言生态,Bolna 构建的语音智能体不仅将端到端响应延迟控制在 500 毫秒以内,更实现了深度的本地化适配。它能够流畅处理包括印地语、泰米尔语在内的 10 余种本土语言及 50 多种地区口音,甚至针对印度特有的语言混合现象,专门优化了对「印式英语(Hinglish)」的语义理解与生成能力。

在技术架构上,Bolna 摒弃了昂贵的通用大模型方案,转而采用针对事务性查询优化的 SLM 与智能路由架构。这种策略有效平衡了计算成本与响应速度,使其更适合大规模商业落地。配合其提供的无代码控制台,企业可自主设计并监控智能体。目前,该平台的日呼叫处理量已从 1,500 通激增至 20 万通以上,广泛应用于购物车挽回、货到付款确认及招聘筛选等场景。

平台现已正式上线,主要面向印度企业提供订阅制的自助服务。

( @AI Tech Suite)

02有亮点的产品

1、消息称华为首款 AI 眼镜将在上半年发布:搭载鸿蒙 OS,支持同传翻译与拍照

1 月 20 日多家媒体消息,华为的第一款「AI 眼镜」暂定在今年上半年推出,支持拍照和音频,鸿蒙系统 + 跨端无缝协同,同传翻译等功能。 AI 眼镜被誉为「下一代 AI 终端超级入口」,已然是大厂必争之地,百度、小米、阿里、理想等早已进场,并推出了 AI 拍照眼镜,字节也即将推出 AI 眼镜,作为国内消费类智能终端龙头的华为自然不会落后于人。

据 @数码闲聊站 爆料,华为 AI 眼镜将采用鸿蒙 OS 系统与轻量化设计,内置 3 块锂电池,支持跨端无缝协同,进一步拓展使用场景。并提供流光银、钛银灰、摩登黑三款配色,支持拍照、拍视频、音频播放以及同声传译等功能。

虽然目前具体细节尚未公布,但结合华为在 AI 技术领域的探索,预计将内置华为 AI 助手小艺,产品可能涉及 AI 识物、智能场景推荐等功能。

经查询发现,华为曾推出带有音频功能的智能眼镜,主打听音乐、打电话、健康播报等。如今随着 AI 的兴起,智能眼镜行业也纷纷上马 AI,以及自带摄像头、显示屏的 AI 眼镜也不断推新。

据 IDC 预测,智能眼镜产品成为 2025 年消费电子赛道的黑马,相应产品在中国市场出货量预计达到 290.7 万台,同比增长 121.1%。业内人士普遍认为,这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

汇丰控股认为,智能眼镜市场仍处于加速扩张阶段。分析师预计,智能眼镜的用户规模将在未来十多年内迎来爆发式增长,到 2030 年代末将达到 2.89 亿人,较 2025 年的 1500 万用户增长超过 18 倍。

(@即智 Ultra、@IT 之家)

2、MiniMax 推出「Agent 实习生」,AI-native Workspace 全面升级

昨天,MiniMax 官宣,AI-native Workspace 迎来两项核心升级,进一步推动 AI 深度嵌入真实工作场景,并面向用户开放限时免费体验。

  • 桌面端应用正式上线: 用户可在本地环境中指定 Workspace 作为工作空间与上下文,使 AI 能够直接理解本地文档、代码仓库、邮件与日程,从而构建一个专属于个人的智能工作环境。
  • 推出「专家 Agents」能力: 用户可构建在特定领域达到「95 分甚至 100 分」水平的专业智能体。这类 Agent 能够在复杂任务链路中稳定执行、主动判断并长期协作。

公司内部数据显示,「Agent 实习生」在过去数周已被接近 100% 的员工使用,并在运维场景中承担了约 80% 的查 Bug 工作量。

MiniMax 表示,AI-native Workspace 标志着 Agent 从「被动执行指令」向「主动感知环境」的形态演进。

公司认为,未来的 Agent 将具备长期记忆、完整职业上下文与跨系统感知能力,成为用户的长期工作伙伴,而非一次性工具。

目前,MiniMax 已开启专家 Agents 的限时免费体验。用户可通过 Web 端直接试用,也可通过官方体验链接获取桌面端安装包。

体验地址:
https://agent.minimaxi.com/

( @APPSO)

3、Crow 发布 AI 智能体框架:支持 OpenAPI 与 MCP 协议,实现「对话即 UI」交互

Crow 近期推出了一套专为 SaaS 产品打造的 AI 智能体基础设施,旨在通过「对话即 UI」的理念重构软件交互模式。该工具的核心逻辑在于将传统的点击操作转化为自然语言指令流,通过接入 OpenAPI 规范或 MCP 协议,使智能体不仅能回答问题,更能直接触发后端 API 调用及前端 UI 导航,从而实现对软件功能的深度控制。

为了解决生成式 AI 不可控的难题,Crow 引入了名为「Journeys」的结构化工作流。开发者可以针对取消订阅、创建报表等特定业务场景,定义确定性的引导路径,确保智能体在执行敏感操作时严格遵循预设的逻辑分支。配合支持文件与文档集成的 RAG 管道,智能体还能充分理解产品特定的业务逻辑与私有数据。

在开发与运维层面,Crow 提供了生产级的观测指标,能够详细追踪每一条指令对应的工具调用路径。其低代码部署方案仅需嵌入单行 Script 标签,官方宣称这能将传统长达半年以上的自研周期缩短至一周以内,并支持与 Claude Code 或 Cursor 等工具集成。目前该产品已正式上线,开发者项目可免费试用,同时针对中大型企业提供了定制化方案。

( @Y Combinator Launch)

4、Thread 发布 Voice AI:实现 MSP 电话自动化分拣与实时工单同步,单人效能提升 30%

Thread 宣布其专为托管服务提供商设计的 Voice AI 正式商用。该产品旨在终结传统 IVR(交互式语音应答)系统的僵化体验,通过语音智能体接管电话接入、分拣与派发的全流程,将高成本的电话渠道整合进结构化的自动化运维体系中。

AI Attendant 与 Overflow Agent 双引擎驱动:

  • AI Attendant:取代传统 IVR,能够即时接听电话并识别来电者身份。它不仅能进行自然的语音交互,还能在后台实时创建工单、匹配技术人员,并完成「热切换」,确保客户在转接给真人时无需重复复述问题。
  • Overflow Agent:专为下班后或线路繁忙场景设计。它能拦截进入语音信箱的电话,自动收集关键信息并进行分类;遇到 P1 级紧急事件时,可直接升级并呼叫待命团队,消除了「下班后盲区」。

Voice AI 的核心价值在于将非结构化的语音高效转化为结构化数据。系统不仅能根据通话内容自动填充工单的标题、类别、优先级和解决摘要,还引入了「自动时间条目」功能,可依据通话时长直接生成计费记录。据官方数据统计,这一特性为每张工单平均节省了 19 分钟的处理时间,从而推动单一技术人员的日均通话处理量从 8-12 通显著提升至 14-20 通。

在生态兼容性方面,该方案作为 Thread AI Service Desk 平台的重要组成部分,已与 ConnectWise、Autotask 和 HaloPSA 等主流 PSA 系统实现了原生集成。这意味着所有通话数据都会实时转化为结构化文档,并无缝同步至企业现有的工作流中,从而确保了整个服务链条的完整性与可追溯性。

据 Thread 统计,通过消除手动记录和人工轮班需求,该系统可使响应速度提升 5 倍,平均解决时间缩短 78%。目前该服务已正式上线。

相关链接:
https://www.getthread.com/voice-ai

( @Mansfield News Journal)

03有态度的观点

1、谷歌前 CEO 施密特:欧洲要么投资开源 AI,要么依赖中国模型

1 月 20 日,据外媒报道,谷歌前 CEO、科技投资人埃里克 · 施密特 (Eric Schmidt) 周二表示,欧洲必须投资建设自己的开源 AI 实验室,并解决能源价格飙升的问题,否则很快就会发现自己对中国的模型产生依赖。 施密特周二在达沃斯世界经济论坛表示:「在美国,企业基本上正在转向闭源,这意味着这些技术将被购买、授权等等。而与此同时,中国在做法上基本是开放权重、开源的。除非欧洲愿意为欧洲自己的模型投入大量资金,否则欧洲最终将会使用中国的模型。」

目前,许多热门 AI 模型都是闭源的,比如谷歌的 Gemini 和 OpenAI 的 ChatGPT,这意味着这些公司不会向外界提供底层代码供下载或审查。虽然这种方式能为用户带来更顺畅、更统一的使用体验,但通常成本更高、灵活性也更低。中国在所谓「开放权重」模型的开发方面处于领先地位,这类模型具有更高的透明度。

为了在开发更强大 AI 模型和智能体的全球竞赛中具备竞争力,欧洲还需要解决高企的能源价格问题,并建设更多可用于训练这些技术的数据中心。施密特曾联合创办一家数据中心公司,致力于应对这类基础设施巨大的能源需求。他也对美国 AI 发展对电力供应的影响表示担忧。

(@IT 之家)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考

摘要

本文为普通人设计了从认知到应用、无代码到有代码、单一到复杂的智能体渐进式学习路径,分 8 个核心板块明确各阶段学习目标、实操方法、工具资源与避坑要点,同时通过高频 QA 解答零基础适配、学习时间投入、场景化学习重点等关键疑问,搭配可直接落地的 12 周学习计划,让不同基础、不同学习场景的学习者都能以 “先实践后理论” 为核心,从搭建简单智能体逐步进阶到开发落地化、甚至商业化的智能体系统,核心学习逻辑为以真实问题驱动实践,按需补充理论知识,快速积累可落地的智能体开发能力。

普通人学习智能体,应遵循 “从认知到应用、从无代码到有代码、从单一到复杂” 的渐进路径,先明确概念与应用场景,再通过零代码平台快速上手,逐步掌握核心技术并进阶实战,最终形成可落地的能力与作品。以下是分阶段的详细指南:

一、认知筑基(1-2 周):先懂 “是什么” 再动手

1. 核心概念理解

  • 明确智能体定义:具备感知、决策、执行能力,能自主完成目标的 AI 系统,区别于普通聊天机器人(后者无长期记忆与工具调用能力)。
  • 掌握关键术语:提示词工程、思维链(CoT)、工具调用、记忆机制、多智能体协作等。
  • 了解应用场景:办公自动化、客服、数据分析、游戏 AI、科研辅助等,结合自身需求选择切入点。

2. 资源推荐

  • 入门读物:《AI 智能体入门与实践》《智能体时代:从对话到协作》,快速建立认知框架。
  • 课程:吴恩达《机器学习专项课程》(Coursera)、DeepMind 强化学习入门视频,夯实 AI 基础。
  • 社区:GitHub Awesome Agentic AI、知乎 “智能体” 话题,跟踪前沿动态与案例。

二、零代码实践(2-4 周):快速做出第一个智能体

1. 平台选择(从易到难)

平台特点适合场景推荐指数
扣子(Coze)国内主流,可视化流程,插件丰富办公助手、知识库问答★★★★★
CrewAI无代码搭建多智能体,协作流程简单团队任务分工、项目管理★★★★☆
LangGraph社区活跃,灵活度高,支持复杂工作流进阶开发、自定义逻辑★★★★☆
Dify开源低代码,支持本地部署企业级应用、数据隐私需求★★★☆☆

2. 实战项目(从简到繁)

  1. 个人助理​:用扣子平台搭建日程管理、邮件总结、文档问答智能体,集成日历、邮箱插件,掌握提示词编写与工具调用。
  2. 知识库助手​:上传 PDF/Word 文档到平台,搭建企业规章制度、产品手册问答智能体,解决实际业务问题。
  3. 多智能体协作​:用 CrewAI 创建 “写作 - 编辑 - 翻译” 团队,分工完成文案生产,理解任务拆分与角色定义。

3. 核心技能

  • 提示词工程:学会写清晰指令(如 “总结收件箱中含‘会议纪要’的邮件,生成三点待办并添加到日历”),提升智能体执行效率。
  • 工具集成:熟悉常用插件(API、数据库、办公软件),掌握参数配置与调试方法。
  • 记忆管理:设置上下文窗口、长期记忆存储,确保智能体 “记住” 历史交互。

三、代码入门(4-8 周):从调用 API 到自定义开发

1. 技术栈准备

  • 编程语言:Python(必备),推荐《Python 编程:从入门到实践》快速上手。
  • 基础库:OpenAI API、LangChain、Streamlit(快速搭建前端)。
  • 数学基础:线性代数(矩阵运算)、概率论(贝叶斯定理)、基础微积分,理解模型原理。

2. 实战项目(代码驱动)

  1. API 调用型智能体​:用 OpenAI Assistants API 开发文档分析工具,实现上传文件 → 提取信息 → 生成报告的自动化流程。
  2. 强化学习小实验​:用 OpenAI Gym+PyTorch 训练 CartPole 平衡智能体,理解状态、动作、奖励机制。
  3. 自定义工作流​:用 LangChain+Streamlit 搭建论文写作助手,集成文献搜索、大纲生成、内容撰写功能。

3. 避坑指南

  • 先调通 API 再优化逻辑,避免过早陷入复杂算法。
  • 善用社区代码模板(GitHub Gist、LangChain Cookbook),减少重复开发。
  • 用 Streamlit 快速做前端,专注核心逻辑而非界面设计。

四、进阶深化(8-12 周):掌握核心技术与多智能体协作

1. 核心技术突破

  • 思维链(CoT)与计划执行(Plan-and-Execute):优化提示词,让智能体拆解复杂任务(如 “写一篇市场分析报告”→“调研行业数据 → 分析竞品 → 撰写结论”)。
  • 工具调用优化:设计工具选择逻辑,解决 “调用哪个工具”“何时调用” 的问题。
  • 记忆与知识库:用向量数据库(Pinecone、Chroma)存储长文本,实现高效检索与上下文关联。

2. 多智能体系统实战

  1. 团队协作模型​:用 AutoGen 搭建 “产品经理 - 开发 - 测试” 智能体团队,完成小型软件项目的需求分析、代码编写、Bug 修复。
  2. 复杂任务处理​:开发 “科研助手” 系统,集成文献检索、数据处理、图表生成、论文写作功能,解决跨领域复杂问题。

3. 资源推荐

  • 书籍:《深度强化学习实战》《LangChain 实战》,深入技术细节。
  • 课程:斯坦福 CS221(人工智能原理)、伯克利 RL Course,提升理论水平。
  • 开源项目:AutoGen、MetaGPT 源码阅读,学习工业级架构设计。

五、工程化与落地(12 周 +):从原型到产品

1. 工程能力建设

  • 部署与监控:用 Docker 容器化智能体,阿里云 / 腾讯云部署,Prometheus 监控性能。
  • 数据安全:敏感信息加密,遵循 GDPR / 个人信息保护法,确保合规。
  • 迭代优化:建立用户反馈机制,用 A/B 测试优化提示词与模型参数。

2. 商业化方向

  • 垂直领域解决方案:为教育、医疗、金融行业定制智能体(如学生辅导、病历分析、投资顾问)。
  • 企业效率工具:开发自动化办公套件,对接 OA 系统,提升团队协作效率。
  • 开源贡献:参与 LangChain、AutoGen 等项目,积累技术影响力。

六、常见误区与避坑建议

  1. 误区​:一上来就啃底层算法(如深度学习、强化学习数学推导)。
    建议​:先通过零代码平台做出可用产品,再按需补数学与算法知识。

    1. 误区​:忽视提示词工程,过度依赖模型能力。

      建议​:提示词是智能体的 “灵魂”,花时间优化指令,比盲目换模型更有效。

      1. 误区​:追求 “大而全”,忽略落地场景。

        建议​:从解决小问题(如 “每日邮件总结”)入手,逐步扩展功能,避免半途而废。

      七、QA 问答:解决学习中的高频疑问

      Q1:零基础、不懂编程,能学会智能体吗?

      A:完全可以。目前主流的零代码平台(如扣子、CrewAI)已实现可视化拖拽操作,无需编写代码就能搭建简单智能体。建议先从这类平台入手,完成 “个人助理”“知识库问答” 等基础项目,积累实战经验后,再根据需求决定是否学习编程进阶。学习的核心是 “解决问题”,而非必须掌握编程技能。

      Q2:学习智能体需要掌握哪些数学知识?必须深入学深度学习吗?

      A:无需一开始就深入学习复杂数学和深度学习。入门阶段(零代码 + 基础 API 调用)几乎不需要数学知识;代码进阶阶段,掌握基础的线性代数、概率论即可理解核心逻辑;只有向 “算法优化”“模型微调” 方向进阶时,才需要深入学习深度学习、强化学习的数学推导。普通人优先聚焦 “应用落地”,数学知识按需补充即可。

      Q3:不同学习场景(办公 / 科研 / 创业),学习重点有什么区别?

      A:需结合场景精准定位:① 办公场景:重点学零代码平台、提示词工程、办公软件插件集成,目标是实现日程管理、文档总结等自动化需求;② 科研场景:侧重文献检索、数据处理、多智能体协作工具(如 AutoGen),提升科研效率;③ 创业 / 商业化场景:除技术能力外,需额外关注垂直领域需求调研、数据安全合规、产品部署与迭代,优先开发能解决行业痛点的落地产品。

      Q4:学习智能体需要投入多少时间?多久能做出可用的作品?

      A:按文中渐进路径,每周投入 5-8 小时,2-4 周就能做出第一个零代码智能体(如个人日程助手);4-8 周可完成基础代码开发,做出 API 调用型工具;12 周左右能开发复杂多智能体系统。关键是 “持续实战”,避免只学理论不落地,哪怕每周只完成一个小功能,也能逐步积累成果。

      Q5:免费资源足够学习吗?需要付费购买课程或工具吗?

      A:免费资源完全能满足入门到进阶需求。免费资源包括:零代码平台的官方文档(扣子、CrewAI 文档)、GitHub 开源项目(LangChain、AutoGen)、吴恩达等学者的免费课程、知乎 / B 站的入门教程。仅当需要 “系统化课程指导”“专属答疑服务” 或 “企业级工具部署” 时,才考虑付费,新手不建议盲目购买高价课程。

      Q6:如何选择适合自己的智能体学习切入点?

      A:核心原则是​贴合自身需求与现有资源​。如果是职场人,优先从办公自动化切入,解决自己的日常工作痛点(如报表制作、信息汇总);如果是学生 / 科研人员,从文献分析、论文写作等科研辅助方向入手;如果想往开发方向发展,从 Python+LangChain 基础 API 调用开始;如果只是兴趣尝试,直接用零代码平台搭建趣味小工具(如智能问答、任务提醒)即可,切入点越贴近自身生活,越容易坚持并获得成就感。

      Q7:多智能体协作是必学的吗?单智能体的应用场景多吗?

      A:多智能体协作并非入门必学,单智能体的应用场景依然非常广泛。单智能体能很好地解决​单一、标准化的自动化需求​,比如个人日程管理、单文档问答、简单数据处理等,这类需求在日常办公、个人使用中占比极高,掌握单智能体开发已能满足大部分普通人的需求。多智能体协作主要用于解决​复杂、多步骤、跨领域的任务​(如项目管理、行业报告撰写),适合有进阶开发需求或特定场景(如科研、企业级应用)的学习者,可在单智能体掌握扎实后再学习。

      八、每周学习计划(示例)

      周次核心任务工具 / 资源输出成果
      1概念学习 + 扣子平台入门扣子文档、吴恩达课程理解智能体核心逻辑
      2搭建个人日程助手扣子 + 日历插件可自动管理日程的智能体
      3-4学习 Python+API 调用《Python 入门》+OpenAI API文档分析工具(代码版)
      5-6多智能体协作实战CrewAI+LangGraph团队任务管理系统
      7-8强化学习小项目OpenAI Gym+PyTorchCartPole 平衡智能体
      9-12复杂系统开发 + 部署Docker + 阿里云企业级知识库智能体

      普通人学习智能体的关键在于​先实践后理论​,通过解决真实问题驱动学习,逐步建立技术栈与作品集。建议从最贴近自身需求的场景(如办公自动化)开始,快速获得成就感,再向更复杂的方向进阶。

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了百度智能云平台产品事业部算法架构师、千帆策略部负责人吴健民,他指出,Agentic 模型训练最大卡点不是模型,是真实环境复刻,外部接口、数据库、登录依赖等真实链路的稳定访问,技术实现门槛极高。在当前,通用全能的 Agentic 模型现阶段不可能实现,业务场景、工具、环境差异过大,通用模型泛化性有限,针对垂直场景的模型定制和持续学习或是破局关键。

在多模态模型发展方面,吴健民指出,视觉生成主流为 模型框架从 Diffusion Model 发展到 Flow Matching,效果、稳定性碾压前代方案,视觉理解模型仍以 ViT Encoder 嫁接语言模型的主流方案,模型能力迭代的主要聚焦在垂直方向的数据合成。虽然工业和学术界有很多尝试,当前未真正实现多模态理解和生成的统一建模,目前分开独立优化效果依旧优于融合建模。

下面是详细对话内容,以飨读者。

“没有模型可以支持所有 Agent 场景”

InfoQ:如何让大模型更好支持 Agent 应用?技术有哪些瓶颈?

吴健民:目前我们的研发目标,是让模型能够在各类 垂直 Agent 场景中更好地发挥作用。其中,最核心、发展也最快的场景是 Coding Agent,包括通用编程以及面向网页开发或特定垂直领域的 Agent 应用。现阶段,我们的工作重点之一就是更具体地聚焦在网页开发相关的 Agent 能力上。

在这一过程中,有一个重要的问题需要回答:SOTA 的通用模型是否能在各种垂直 Agent 场景下都能达到工业级的效果。就目前来看,具备这种能力的通用模型还没有出现。

原因在于,不同 垂直 Agent 所处的场景设定、可使用的工具集合以及运行环境差异极大,而当前的通用模型尚不足以在如此多样的场景中实现稳定泛化。因此,围绕具体应用场景定制模型,反而更容易形成优势。

此外,不同场景对效果的评估标准也存在显著差异,即 Reward 的定义并不通用。如果一个场景能够清晰地定义 Reward,并且该 Reward 判断能够高效自动地完成,那么针对这一场景通过强化学习在通用基座模型上定制训练的 Agentic 模型,往往可以显著超过现有通用模型。

第二个难点在于环境的复杂性。以代码场景为例,其运行环境不仅涉及代码本身,还包括外部接口调用、工具使用、数据库依赖,以及登录、扫码等一系列真实应用中的外部依赖。在训练过程中,这些依赖都必须能够被高并发、稳定地访问,这对技术实现提出了很高要求。

第三个挑战在于强化学习系统本身。当前业内已形成共识,即要实现模型在特定场景中的持续迭代,必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统。由于强化学习系统本身的架构复杂性,也出现了不少 RLaaS 的平台产品,把算法复杂性封装在平台内,业务仅需要聚焦在业务场景定义,Reward 评估方案制定和迭代。这也是百度千帆平台 26 年的重点业务方向。

InfoQ:那现在有没有比较通用、效果较好的强化学习框架?

吴健民:目前开源社区中已有不少强化学习框架,例如 OpenRLHF、TRL 以及 VeRL 等,它们基本覆盖了强化学习流程中的主要环节。但在工业级应用中,这些框架仍然不够成熟,特别是涉及多轮工具调用的 Agentic 场景,往往需要进行深度定制和打磨。

打磨方向主要在两个方面:首先是模型规模支持,严肃应用往往依赖参数量较大的 SOTA 模型,例如百度文心或 DeepSeek 开源的模型,强化框架能否高效支撑这类大模型至关重要;其次是 Agent 训练能力,早期的强化学习多集中于单步任务,例如数学推理,而代码类、客服、DeepReasearch 等 Agent 更依赖多轮工具调用的复杂交互,这就要求强化训练框架能够配合一整套稳定、高效的脚手架系统。

此外,工业级 Agentic 模型的 研发对整体技术栈的要求极高,包括沙盒环境以及高性能、高并发的调度运行能力;若涉及联网搜索,还需要稳定的高并发搜索 API 支持。因此,具备云计算或搜索基础能力的团队往往更具优势。

InfoQ:要在基座模型上增强 Agentic 能力,需要哪些技术支持?

吴健民:这一问题的核心仍然在于强化学习如何在基座模型之上更好地服务于具体场景。强化训练的本质并不是创造全新的能力,而是激发和稳定模型在特定场景中的既有能力。因此,首要前提是基座模型本身在目标场景上具备优势。这种优势通常来源于预训练阶段的数据分布。例如,搜索相关数据占比更高的模型,在代码类 Agent 场景中往往更具潜力,不同场景基座模型的选择,通常观察基座模型在对应场景的 Pass@k 指标,即推理多次能得到正确答案的比例。Pass@k 指标高的模型,有更大空间通过强化学习训练激发并稳定模型在对应场景的表现。

另一个关键依赖是训练效率。强化学习的过程本质上更接近一种搜索机制:模型通过大量尝试生成不同路径,Reward 对每次尝试进行优劣评估,并将表现较好的路径通过强化训练反馈到模型参数中。在这一过程中,生成尝试路径(Rollout)通常占据 80%—90% 的时间成本。因此,是否能够以高吞吐方式高效完成 Rollout,是强化训练成败的关键。这个过程的关键是“训推一体”的技术,实现训推计算资源的高效利用以及训练精度差异的对齐。

InfoQ:另外,现在强化学习的 scaling 在业内似乎未形成共识?

吴健民:的确不像预训练 scaling 一样普遍的共识。过去,强化训练通常只占总体训练很小的一部分,被视为对预训练模型的微调,给预训练模型的蛋糕上放一个樱桃。而现在,强化训练的样本规模已经可以扩展到百万级,系统性地提升了模型推理和复杂问题解决能力。

要实现大规模多场景的强化训练,前提是结果评估能够准确自动完成,且最好能有稠密的评估奖励反馈。在代码或数学等评估相对确定的场景中,这一点相对容易实现,模型在代码和数学解题方向能力也得到显著提升。但在通用问答或复杂垂直场景中,由于缺乏统一、自动化的评估方案,规模扩展变得困难。这也是模型尚未在更通用场景实现泛化的重要原因。

尽管如此,业内普遍认为强化训练依然具有显著的 scaling 效果,问题的焦点转化到可泛化到评估奖励方案设计上。从依赖人工反馈的小规模 RHF,到基于规则甚至更通用奖励方案的 RLVR 强化训练,随着规模扩大,模型效果确实在持续提升,这一点在实际应用中也得到了验证。

InfoQ:通用 Agent 与专用 Agent 之间的能力差距,该如何弥补?

吴健民:当前主要存在两种思路。一种是追求在所有方向上都表现出超过人类的全能模型或 Agent,这本质上指向 AGI。业内对实现 AGI 需要的时间判断差异很大,而我们认为这一目标仍然相当遥远。另一种更现实的路径,是在特定专业场景中不断提升模型和 Agent 能力,能够在局部任务上超过人类水平,这在相当长一段时间内仍将是主流方向。

我们负责研发的全球领先的可商用自我演化超级智能体百度伐谋,为可以准确定义评估验证方案的 NP-hard 问题,提供高效的最优解演化方案,实现超过人类水平的效果。

InfoQ:长上下文能力对 Agent 的支持非常重要,应当如何建设?

吴健民:模型支持的上下文长度与 Agent 能力之间存在直接关系。上下文决定了模型能够记忆和理解的信息规模,而在复杂任务中,Agent 需要不断与环境交互,每一次反馈都会进入上下文,成为下一步决策的依据。因此,交互轮次越多,对模型长上下文理解能力的要求就越高。

在此基础上,业界也在探索通过 Agent 脚手架本身“放大记忆”的方案。类似人类并不会记住所有信息,而是通过笔记、字典或工具进行辅助,Agent 也可以通过工具使用来弥补上下文长度的限制。例如,在审核数百页合同的场景中,即便无法一次性将全文放入上下文,Agent 仍可以借助工具调用逐页查看、回溯关联内容,从而完成整体审核任务。从这个角度看,通过工具增强记忆能力,也是实现长上下文处理的一种有效路径,体现了 Agent 开发中 Progressive Disclosure 的原则。

InfoQ:在一些偏注意力机制的底层架构方面,业内是否做了调整?

吴健民:这个涉及模型网络结构本身的问题了。无论通过何种工具把上下文扩展得更长,模型本身的上下文理解能力始终存在上限。比如目前常见的 128K 或 256K 甚至 1M 上下文,长上下文能力的关键是模型能否准确理解高效处理,这依赖高效的注意力机制设计和实现。

模型利用上下文,在生成下一个 token 时,一个重要的观察是:并非全部上文 token 都对预估当前 token 同等重要,真正起作用的往往只是其中一小部分。基于这一特性,注意力机制可以采用稀疏化策略,不必对全部 128K 的 token 做同等精细的计算,可以采用比如 DeepSeek DSA 方案,先租略进行一次快速扫描,再对相关性高的部分 token 进行精细注意力计算。另一个思路是把上文 token 进行分块,先筛选相关的块,再对相关块内 token 进行精细注意力计算。结合两个方案的优势,也是一个实现的思路。

InfoQ:2025 年 MoE 架构被广泛采用,是否意味着更强模型的整体方向已经基本确定?

吴健民:MoE 架构被广泛应用到搜索、推荐等不同预估场景。大模型提到的 MoE,实际上是稀疏 MoE。其实从去年年初开始,这项技术就在业内受到较多关注。它要解决的核心问题仍然是 Scaling Law:随着模型参数规模不断增大,训练和推理成本也在持续上升,是否能在保持参数规模扩展的同时,控制实际训推计算的成本。

MoE 给出的答案是肯定的。通过这种方式,可以在继续增大模型总参数的同时,让训练和推理所实际使用的参数规模保持次线性增长。具体而言,在 Transformer 架构中,MoE 将原本的全连接层拆分为多个对等的小模块,即“专家”,在每次前向推理只激活其中一部分,从而显著降低计算成本。稀疏 MoE 已逐渐成为业内的主流选择,稀疏比耶做到了 5% 甚至更低的水平,成为推动模型规模继续扩展的一种现实可行方案。

多模态模型架构层逐渐收敛

InfoQ:从单一模态发展到多模态并引入 Agent,在底层架构上发生了哪些变化?

吴健民:一个最显著的变化,是在原有语言模型基础上引入视觉能力,这也是从去年开始 VLM 大量出现的主要方向。实际工作中,核心仍然在语言模型本身:通常是在语言模型训练到一定阶段后,引入视觉编码器,并用图文对其数据与语言模型联合训练,对齐文本和视觉 token,使模型能够理解视觉信号。这种 “桥接”或“嫁接”的方案,逐步成为当前的主流方案。

在多模态领域,一个长期目标是希望视觉模型也能像语言模型一样有很好的Scaling Law,但这一问题至今仍未解决。视觉信号本身的信息密度比较低,它更像是自然世界的直接映射,并不一定承载明确的知识结构。相比而言,互联网上存在的海量文本数据,是人类产生的对世界知识的总结压缩,信息密度很高。这使得仅依赖视觉输入进行大规模训练,难以达到语言模型那样的效果。

因此,现有方案高度依赖图文对齐数据,即为图片配备高质量、细粒度的文本描述,通过充分对齐文本与图片,来提升模型的理解能力。但这类数据难以规模化获取,不易全面覆盖实际的图片分布,目前行业可用的规模大致在 3–5T token,量级上存在明显差距,也限制了多模态模型的进一步 scale。

InfoQ:2025 年文生图、图生图模型更新频繁,突破点主要在哪里?

吴健民:这属于视觉生成方向。从 Sora 开始,这一领域受到了广泛关注,也出现了不少高质量的开源项目,支持生成效果不断提升。但像 Sora 2 或 Nano Banan 等业内 SOTA 的生成模型,其具体实现细节并未完全公开。

从算法角度看,视觉生成方案本身仍在快速演进,从早期的 Stable Diffusion 到当前的 Flow Matching,建模方法和训练效率都得到了显著优化。不过,从能力定位上看,视觉生成模型更偏向专精模型,主要解决“生成”的问题,也有观点认为,生成模型可能进一步发展为所谓的“世界模型”,即在理解物理规律的基础上生成符合现实约束的内容,进而通向 AGI 的实现。

2026 方向:生成与理解的统一建模

InfoQ:在此基础上,未来一段时间,尤其是 2026 年,大家主要会沿着哪些方向继续演进?

吴健民:一个非常重要的方向,多模态生成与理解的统一建模。很多公司都在尝试通过统一的多模态建模方式,让生成能力和理解能力形成协同效应,而不再是彼此割裂。这意味着模型既不是单纯为生成而设计,也不是只服务于理解任务。外界对 GPT-5 等模型也曾寄予类似期待,尽管目前看相关路径尚未完全跑通,但可以确定的是,这一方向仍在持续探索之中。

InfoQ:在专家视角下,生成与理解真正实现统一,应当达到什么样的效果?

吴健民:最终评价标准仍然是结果导向。如果通过统一训练得到的模型,在生成和理解两个维度上的表现,都优于分别独立训练的模型,那么这种统一才是有意义的。举例来说,如果一个生成 - 理解统一模型在生成质量上能够超过当前生成领域的 SOTA 模型,那么就可以认为内生的理解能力确实提升了生成效果。但就目前来看,分开针对生成和理解进行优化,独立效果仍然更好。

InfoQ:也就是说,目前融合后的效果还不如单独优化?

吴健民:是的,至少在现阶段仍是如此。

InfoQ:但很多团队似乎还是在把各种能力揉合进一个模型里。

吴健民:确实存在这种趋势,但并非所有团队都选择同一条路径。不同团队对通用人工智能实现方式的理解并不一致。

一种思路是将多种能力融合到单一模型中,希望模型像人一样具备听、说、读、写等多种模态能力,这是一种全模态模型的路线。

另一种思路则是强调模型学会使用工具。人类智能的显著提升,本质上源于工具使用能力的不断演进,从最原始的简单工具到今天的计算机系统,工具极大放大了人的能力。Agent 的发展,本质上正是沿着“工具使用”这一路径展开的,不同理解会带来不同的技术路线和实现方式,当前没有看到哪条路一定能走通。

InfoQ:2025 年“世界模型”这个概念被频繁提及,从语言模型到动态模型再到世界模型,这条演进逻辑是怎样的?

吴健民:“世界模型”这一说法本身就存在多种理解。最早在 Sora 第一代发布时,其自称为世界模型,核心目标是通过建模来理解物理世界的运行规律,尤其是借助视觉输入,让模型学习空间关系和物理约束,例如生成的视频必须符合基本物理常识。这一路线随后发展得很快,重点在于提升模型的空间感知推理和物理一致性。

但也存在另一种理解路径。例如 Meta 前段时间发布的 CWM 模型,强调的是代码能力和工具调用能力,同样定义为世界模型。在这种视角下,只要模型能够高效使用现实世界中的各种工具,就可以被视为对“世界”的一种建模。

Agentic 模型是今年必答题

InfoQ:展望明年,大模型能力提升的核心突破点可能来自哪些技术路线?

吴健民:明年的变化大概率会延续 2025 年已经显现的趋势。2025 年一个非常明显的方向是 Agentic Model,即模型具备稳定、准确的工具调用能力。代码场景已经率先验证了这一点,明年这一能力很可能扩展到更多应用场景,模型将不再只调用编程相关工具,而是能够使用更广泛的现实世界 API,这是一个较为明确的发展趋势。

InfoQ:那面对复杂环境,大模型将如何应对?

吴健民:通用场景的环境通常非常复杂,模型需要对接的 API 接口、数据库、人际交互界面等系统差异较大。针对后者,目前较为可行的方案,仍然是让模型在特定场景的 Agent 脚手架中学会熟练使用该场景所涉及的工具。尽管应用场景很多,但每个场景对应的工具集合通常是相对有限的。模型通过场景反馈不断优化工具使用方式,就可以逐步适应复杂环境。代码 Agent 场景正是一个典型例子,模型通常只需要掌握十几种工具调用方式,随着打磨程度提升,其在该场景下的表现也会持续改善。

近日,美团 LongCat 团队正式对外发布并开源 LongCat-Flash-Thinking-2601。作为已发布的 LongCat-Flash-Thinking 模型的升级版,LongCat-Flash-Thinking-2601 在 Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型 SOTA 水平。

该模型尤其在工具调用上表现出卓越的泛化能力,在依赖工具调用的随机复杂任务中性能超越了 Claude,可大幅度降低真实场景下新工具的适配训练成本;同时它是首个完整开源并支持在线免费体验「重思考模式」的模型,同时启动 8 个大脑飞速运转,确保思考周全、决策可靠。

目前该功能已经可以在 https://longcat.ai 网站免费体验(仅选择深度思考功能时会触发重思考模式)。

01 创新的「重思考」模式:让模型学会“深思熟虑”

全新升级的「重思考」模式,让模型学会了“深思熟虑”再行动,遇到高难度问题时,模型会把思考过程拆成并行思考和总结归纳两步来做:

并行思考阶段,模型会同时独立梳理出好几条推理路径,就跟人面对难题时会琢磨不同解法一个道理,还会特意保证思路的多样性,生怕漏掉最优解;

总结归纳阶段,对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,我们还专门设计了额外的强化学习环节,针对性打磨模型的总结归纳能力,让 LongCat-Flash-Thinking-2601 真正实现“想清楚再行动”。

02 智能体工具调用能力登顶开源 SOTA

经过全面严谨的评估显示,LongCat-Flash-Thinking-2601 模型在编程、数学推理、智能体工具调用、智能体搜索维度表现全面领先:

  • 编程能力:LongCat-Flash-Thinking-2601 在 LCB 评测中取得 82.8 分,OIBench EN 评测获 47.7 分,成绩处于同类模型第一梯队,展现出扎实的代码基础能力。
  • 数学推理能力:在开启重思考模式后表现突出,LongCat-Flash-Thinking-2601 在 AIME-25 评测中获 100.0 分(满分),IMO-AnswerBench 中以 86.8 分达到当前 SOTA。
  • 智能体工具调用能力:在 τ²-Bench 评测中拿到 88.2 分,VitaBench 评测中获得 29.3 分,均获得开源 SOTA 水平,在多领域工具调用场景下表现优异,适配实际应用需求。
  • 智能体搜索能力:在 BrowseComp 任务中取得 73.1 分(全模型最优),RW Search 评测获 79.5 分,LongCat-Flash-Thinking-2601 具备强劲的信息检索与场景适配能力,达到开源领先水平。

同时,为了更好的测试智能体模型的泛化能力,我们提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务。每个生成的任务都配备了对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性,我们通过评估模型在该类环境中的性能表现,来衡量其泛化能力。实验结果表明,LongCat-Flash-Thinking-2601 在绝大多数任务中保持领先性能,印证了其在智能体场景下强大的泛化能力。

03 核心技术突破:既能“打硬仗”也能“抗干扰”

3.1 环境扩展与多环境强化学习 :从“靶场”到“实战”

传统智能体大多只在几个简单模拟环境里训练,就像士兵只练过靶场,到了真实“战场”就掉链子。而基于“环境扩展+多环境强化学习”核心技术,为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,每套集成 60 余种工具并形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验证明,训练环境越丰富,模型在未知场景中的泛化能力越强。得益于这套方案,LongCat-Flash-Thinking-2601 在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中性能优于 Claude。

同时我们针对性扩展 自研强化学习基础设施(DORA),在保留原有高效异步训练特性的基础上实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率,筑牢能力根基。此外,我们还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,稳居智能体能力第一梯队。

稳定上涨的多环境混合强化学习训练曲线

多环境强化学习训练下不同 OOD 测试集上的 RL Scaling 表现

3.2 噪声环境下的稳健训练:让智能体更“抗造”

现实世界的智能体环境充满不确定性,API 调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,我们在训练数据的过程中主动注入多类噪声,模拟 API 的调用失败、返回错误信息、数据缺失等场景,并用课程学习(Curriculum Learning)的方式循序渐进去做模型的训练,在训练过程中逐步增加噪声的类型与强度——如果类比成教小孩骑车,我们首先在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。

可以看到,带噪声环境下未经过稳健训练的模型的表现会出现大幅衰减,Claude 也无法适应全部的噪声类型。而经过这套系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/ Noise 组)拥有了极强的环境适应能力,哪怕在复杂、不理想的场景中,也能稳定发挥、高效完成任务。

带噪声 / 无噪声评测集下的模型表现对比

开源与部署:低门槛接入,加速智能体应用落地

为降低开发者使用门槛,美团 LongCat 团队同步开放模型权重、推理代码与在线体验能力,支持从快速试用至深度开发的全流程需求:

开源平台

在线体验与调用

欢迎开发者下载、部署并体验 LongCat-Flash-Thinking-2601,同时也欢迎您在 LongCat API 开放平台申请免费调用额度。如果您在智能体开发、大模型推理优化等领域有合作想法或反馈,我们期待与您交流。

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

一、推理模型⾯临的新挑战

随着 OpenAI o1 、 DeepSeek-R1 等大型推理模型(LRMs)的问世, AI 推理能力迎来了「测试时扩展」的新阶段。这些模型通过长链思维(Long Chain-of-Thought, CoT)在数学推理、代码生成、智能体任务等领域展现出强大能力。

然而,现有评测体系存在一个关键盲区:主流基准测试(如 MATH500 、AIME)主要关注独立的单一问题,每个问题相互隔离,模型只需「—问—答」即可。

但现实应用场景往往大相径庭:

  • 软件开发中需要连续处理多个关联代码模块
  • 数学证明需要基于前序推导逐步构建后续结论
  • 智能助手往往需要在多轮交互逐步完成复杂任务

这些真实场景要求模型具备跨任务的长链推理能力——不仅要解决单个子问题,更要在多个关联任务间保持推理—致性、合理分配计算资源、实现跨步骤的反思与纠错。

核心问题:当前大型推理模型的长链推理能力边界到底在哪里?

由于现有评测无法回答这—问题,传统训练数据也难以培养这种能力(如图所示,模型在长程推理场景下表现明显退化)。

图 1:R1  系列模型在长程推理场景下的理论准确率与实际准确率对比

复旦大学与美团 LongCat 联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。

二、方法论:Query Composition 范式

核心创新

R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。

以数学任务为例,该方法包含三个步骤:

1. 信息提取:从独立问题中提取核心数值、变量等关键信息
2. 依赖构建:将前序问题的答案嵌入到后续问题的条件中
3. 链式推理:模型必须顺序解决所有子问题才能获得最终答案

方法优势

  • 灵活扩展:可自由控制推理链长度(n = 2, 4, 8…)
  • 精确可控:可灵活设定问题间的依赖强度
  • 高效低成本:基于现有数据集构建,无需额外人工标注

基于此方法,我们构建了 R-HORIZON Benchmark 用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。

图 2:R-HORIZON 方法流程——从单 — 问题到复杂推理链的转化及应用场景

三、评测基准:R-HORIZON Benchmark

数据集构成

基于 Query Composition 方法,我们构建了涵盖 6 个代表性数据集的 R-HORIZON Benchmark:

评测发现:性能断崖现象

我们评测了 20+ 个主流 LRMs(包括 o4-mini 、Claude-Sonnet-4 、 DeepSeek-R1 等顶级商业模型及开源模型),揭示了—个重要现象。

顶级推理模型在长链推理场景下均出现显著性能下降!

主要发现:

  • 普遍性能退化:所有模型随问题数量增加均出现明显性能下降。DeepSeek-R1 在 AIME25 单问题场景准确率达 87.3%,但在 5 个组合问题场景下骤降至 24.6%。
  • 规模效应:更大规模的模型对多步推理挑战表现出更强的鲁棒性。
  • 任务差异:代码生成任务相比数学任务表现出更陡峭的性能衰退;多数推理模型在网页搜索场景中丧失工具调用能力。

图 3:R-HORIZON Benchmark  评测结果—— 所有模型均出现显著性能衰退

四、机制分析:推理模型的三大瓶颈

为深入理解性能断崖的成因,我们进行了系统的机制分析,识别出当前 LRMs 的三个关键瓶颈:

瓶颈 1:有效推理长度受限

随着相互依赖问题数量增加,LRMs 难以维持原有性能水平。实际准确率与理论准确率之间的差距显著扩大。

深入分析显示:

  • 模型错误集中在特定上下文范围内
  • 7B 模型的主要错误范围在 (4-6K tokens)
  • 32B 模型将范围扩展到 (8-10K tokens)
  • 更大模型具有更长的有效推理边界

图 4:R1-Qwen-7B 和 R1-Qwen-32B  的准确率及错误位置分析

瓶颈 2: 反思机制高度局部化

对模型「反思」行为的分析发现发现:

  • 模型反思频率随问题数量增加而上升并趋于收敛。
  • 超过半数复杂任务 完全缺乏 长程反思 (跨越当前问题的反思)。
  • 当前 LRMs 的反思机制 高度局部化,无法支撑长链场景需求。

图 5:MATH500  数据集上的反思行为分析

瓶颈 3:思考预算分配失衡

最令人意外的发现:包括 DeepSeek-R1 在内的主流 LRMs 无法有效分配思考预算

  • 模型倾向于过度分配 tokens 给早期推理阶段
  • 未能合理分配资源给后续关键问题
  • 这种失衡严重影响整体推理链的完成质量

图 6:不同组合问题数量下各模型的思考预算分配

五、 训练方案:突破能力边界

发现瓶颈后,我们进—步探索:能否通过长链数据的强化学习训练突破这些限制?

训练策略

我们基于 R-HORIZON 构建的长链推理数据,采用 GRPO 算法进行训练:

  • 算法:主流 RLVR 算法 GRPO
  • 数据: R-HORIZON 组合数据(n = 2, n = 4)
  • 实验:不同奖励函数的对比实验

训练效果:双重性能提升

实验结果显示:R-HORIZON 训练不仅显著提升长链任务表现,单问题性能也大幅增强!

核心数据

注:加粗数字表示该列最佳成绩

图 7:不同训练配置下的性能对比

关键发现

  1. 双重提升:使用 n = 2 组合问题训练,多步推理性能大幅提升(AIME24 n = 2 +17.4 分),单问题性能也显著增强(AIME24 单题 +7.5 分)。
  2. 可扩展性:增加组合复杂度(n = 4)增强了模型处理更多推理步骤问题的能力,在 MATH500 (n = 8) 上达到 50.6%。

训练带来的质变

R-HORIZON 训练带来了推理机制的深层改变:

  • 更高效的推理长度:显著改善组合任务性能,更好地泛化到更长推理链,同时缓解「overthinking」现象
  • 更合理的预算分配:学会在多步问题中进行更合理的 token 预算分配
  • 更长程的反思能力:促进了长程反思频率增加,直接改善长链推理性能

图 8:使用标准数据集和组合数据集进行强化学习的效果分析

六、结论与展望

R-HORIZON 标志着大型推理模型研究的范式转变——从「能解决什么问题」到「能走多远」。

技术贡献

  • 首个长链推理评测基准:系统性揭示 LRMs 的能力边界及三大瓶颈。
  • 可扩展训练范式:提供低成本、高效率的能力提升路径。
  • 深度机制分析:为未来推理模型改进指明方向。

AAAI 是人工智能领域顶级的国际学术会议,本文精选了美团技术团队被收录的 8 篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,希望这些论文能对大家有所帮助或启发。

01 Promoting Efficient Reasoning with Verifiable Stepwise Reward

论文类型:Poster

论文下载PDF

论文简介:大推理模型通过强化学习提升了链式推理能力,但输出冗长,导致推理开销增大和用户体验下降,即「过度思考」问题。针对这一现象,本文提出了可验证的过程奖励机制(VSRM),通过奖励有效步骤、惩戒无效步骤,优化模型推理过程。VSRM 首先通过特殊 token 划分推理步骤,并结合三条规则保证每个步骤的内容可读性。各步骤通过插入 token 生成子轨迹,模型根据每步前后正确率变化分配步骤级奖励。为避免奖励信号稀疏,引入前瞻窗口机制,通过折扣因子传播未来正确率变化,使奖励更密集。

实验表明,VSRM 能大幅缩减输出长度,且在多种数学 benchmark 和不同模型、算法下保持甚至提升性能。消融实验证明前瞻窗口机制有效,显式长度惩罚对 VSRM 无益。VSRM 机制可与各类强化学习算法无缝结合,有效抑制无效步骤,鼓励有效推理,是解决过度思考问题、提升模型推理效率的有效方法。

02 Scaling and Transferability of Annealing Strategies in Large Language Model Training

论文类型:Long Paper

论文下载PDF

论文简介:本文深入研究了大型语言模型训练过程中退火策略(Annealing Strategies)对模型性能的影响,提出了一个新的缩放法则公式来预测不同训练配置下的损失曲线。研究发现,即使在相同的训练 token 数量和模型规模下,不同的批次大小(batch size)和学习率调度器也会导致显著不同的训练曲线。为此,作者提出了一个改进的缩放法则公式:

其中 S 表示学习率对训练步数的积分(前向效应),M 表示动量对训练步数的积分(退火动量项),N 代表模型规模。

论文的核心贡献包括:(1) 证明在特定情况下,训练步数比训练 token 数更适合作为追踪损失曲线的指标;(2) 发现最优退火比率(Ropt)随总训练步数增加而减小,遵循幂律关系;(3) 验证了最优退火比率在训练集和验证集上保持一致;(4) 通过在 Dense 模型和 MoE(Mixture-of-Experts)模型上的大量实验,证明小模型可以作为优化大模型训练动态的可靠代理。该研究为大规模语言模型的训练提供了更精确的理论指导,有助于优化训练效率和模型性能。

03 From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling

论文类型:Long Paper (Oral)

论文下载PDF

论文简介:本文系统研究了过程奖励模型(Process Reward Models, PRMs)在提升大型语言模型推理能力方面的作用,特别关注其从数学推理到代码生成任务的跨域泛化能力。研究从训练方法、可扩展性和泛化能力等多个维度对 PRMs 进行了深入分析。

论文的核心发现包括:
- 训练计算资源的影响:研究发现随着 PRM 模型规模的增大,性能提升呈现边际递减效应,强调了在模型规模和计算成本之间寻找平衡的重要性。同时,训练数据集的多样性显著影响 PRM 性能,作者提出的 ASLAF(自动步骤级标注与过滤)方法在多个基准测试中表现优异。
- 测试时扩展策略:论文评估了 Best-of-N 采样、束搜索、蒙特卡洛树搜索(MCTS)和多数投票等多种搜索策略。结果表明,在计算资源充足时 MCTS 效果最佳,而在资源受限情况下 Best-of-N 采样是实用的替代方案。
- 跨域泛化能力:令人惊讶的是,在数学数据集上训练的 PRMs 在代码生成任务上的表现与专门针对代码训练的模型相当,展现出强大的跨域适应能力。通过梯度分析,研究还发现 PRMs 倾向于选择具有相似底层推理模式的响应,这为理解其优化机制提供了新视角。该研究为优化大规模语言模型的训练和部署提供了重要的理论指导和实践参考。

04 Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

论文类型:Poster

论文下载PDF

论文简介:本文对强化学习(RL)中的问题采样策略进行了系统性研究,当前主流采样策略大多直接依赖单步通过率(Pass Rate) 作为问题难度指标,存在 1)对问题难度的估计不够稳定;2)无法有效捕捉模型能力与问题难度的对齐关系的问题。

针对这些问题,本文提出了 CDAS(Competence-Difficulty Alignment Sampling):一种将模型能力与问题难度显式建模并对齐的动态采样方法。CDAS 不依赖单步通过率,而是通过累积历史表现差异来构建更稳定的难度估计;同时定义模型能力,并以不动点系统确保两者在训练过程中共同收敛。基于能力—难度差值构建对齐指标,再通过对称采样策略,选取最匹配模型当前能力的问题,从而提升有效梯度比例与训练效率。CDAS 在数学推理和代码生成场景中均通过 RL 训练 验证,结果显示 CDAS 显著提升了采样效率与模型性能,击败了多种主流采样策略。

05 ViType: High-Fidelity Visual Text Rendering via Glyph-Aware Multimodal Diffusion

论文类型:Oral

论文下载PDF

论文简介:随着文生图模型在电商营销等领域的广泛应用,视觉文本渲染的准确性已成为制约生成质量的核心瓶颈。现有模型因缺乏字形级理解能力,难以精确刻画多语言字符结构,导致海报、商品图等商业场景中文字乱码、字形失真等问题频发,严重阻碍了 AIGC 在智能设计中的实际落地。

针对这一关键挑战,我们提出 ViType 三阶段对齐增强框架:首先通过视觉问答机制实现文本-字形显式对齐,将字符视觉结构注入大语言模型语义空间;其次创新性地将预对齐字形嵌入与文本 token 同步输入多模态扩散 Transformer,通过联合训练建立跨模态特征协同;最后基于高质量图文对进行美学精调,确保生成图像的版式和谐与视觉美感。该框架使字符准确率提升 15%以上,为电商海报、营销物料等高精度视觉内容创作提供了可靠的技术支撑。

06 DSCF: Dual-Source Counterfactual Fusion for High-Dimensional Combinatorial Interventions

论文类型:Poster

论文下载PDF

论文简介:在个性化推荐、数字营销和医疗健康等领域,基于观测数据预测反事实结果对科学决策至关重要。在这些应用场景中,决策过程往往涉及高维组合干预策略,例如多渠道资源捆绑投放或产品组合推荐。面向这类场景,无论是历史策略的效果评估还是新策略的优化,都需要模型能够对历史数据中很少出现甚至从未出现过的策略组合效果进行准确预测。此外,观测数据中源于历史分配策略和倾向性投放的选择偏差会进一步加剧数据稀疏问题,从而影响反事实推断的准确性。

为此,本文提出双源反事实融合模型(Dual-Source Counterfactual Fusion,DSCF),该可扩展框架通过双专家混合架构联合建模观测数据和代理反事实样本,并采用领域引导融合机制,在有效平衡偏差消除与信息多样性的同时,还能自适应地泛化到反事实输入场景。在合成和半合成数据集上的大量实验表明,DSCF 框架能够显著提升高维组合干预场景下的预测准确性,并在不同情境下展现出优异的鲁棒性表现。

07 Compress-then-Rank: Faster and Better Listwise Reranking with Large Language Models via Ranking-Aware Passage Compression

论文类型:Poster

论文下载PDF

论文简介:基于大型语言模型(LLMs)的列表重排序(listwise reranking)已经成为最先进的方法,在段落重排序任务中不断创下新的性能基准。然而,其实际应用面临两个关键挑战:处理长序列时高昂的计算开销和高延迟,以及由于“迷失在中间”等现象导致的长上下文性能下降。

为了解决这些问题,我们提出了一种高效的框架压缩后排序(Compress-then-Rank, C2R),该框架不是直接对原始段落进行列表重排序,而是对其紧凑的多向量代理进行操作。这些代理可以预先计算并缓存,适用于语料库中的所有段落。C2R 的有效性依赖于三项关键创新。首先,压缩模型通过结合文本恢复和文本延续目标进行预训练,生成高保真的压缩向量序列,从而减轻了单向量方法中常见的语义损失问题。其次,一种新颖的输入方案将每个序数索引的嵌入添加到其对应的压缩向量序列前,这不仅划定了段落边界,还引导重排序 LLM 生成排序列表。最后,压缩模型和重排序模型通过联合优化,使压缩过程对排序目标具有排序感知能力。在主要重排序基准上的广泛实验表明,C2R 在提供显著加速的同时,能够实现与全文重排序方法相当甚至更优的排序性能。

08 Multi-Aspect Cross-modal Quantization for Generative Recommendation

论文类型:Oral

论文下载PDF

论文简介:本文提出一种基于多模态融合的生成式推荐框架(MACRec),旨在解决现有生成式推荐方法因模态信息利用不足和跨模态交互缺失导致的性能瓶颈。

针对文本与视觉模态的量化难题,MACRec 引入跨模态量化与多角度对齐机制,通过两阶段技术路线实现优化:1)跨模态残差量化:将对比学习融入分层量化过程,生成兼具语义层次性与模态兼容性的物品标识符,显著降低多模态表征冲突;2)跨模态协同对齐:通过显式-隐式协同对齐策略,分别建模文本与视觉模态的共享特征和互补特征,增强生成式推荐的多模态理解能力。在亚马逊电商推荐数据集上的实验结果表明,MACRec 相较基准模型在推荐性能上有显著提升;各模态的码本分布更均衡、利用率更低,充分验证了跨模态量化与对齐机制在提升生成式推荐有效性方面的优势。

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

一、推理模型⾯临的新挑战

随着 OpenAI o1 、 DeepSeek-R1 等大型推理模型(LRMs)的问世, AI 推理能力迎来了「测试时扩展」的新阶段。这些模型通过长链思维(Long Chain-of-Thought, CoT)在数学推理、代码生成、智能体任务等领域展现出强大能力。

然而,现有评测体系存在一个关键盲区:主流基准测试(如 MATH500 、AIME)主要关注独立的单一问题,每个问题相互隔离,模型只需「—问—答」即可。

但现实应用场景往往大相径庭:

  • 软件开发中需要连续处理多个关联代码模块
  • 数学证明需要基于前序推导逐步构建后续结论
  • 智能助手往往需要在多轮交互逐步完成复杂任务

这些真实场景要求模型具备跨任务的长链推理能力——不仅要解决单个子问题,更要在多个关联任务间保持推理—致性、合理分配计算资源、实现跨步骤的反思与纠错。

核心问题:当前大型推理模型的长链推理能力边界到底在哪里?

由于现有评测无法回答这—问题,传统训练数据也难以培养这种能力(如图所示,模型在长程推理场景下表现明显退化)。

图 1:R1  系列模型在长程推理场景下的理论准确率与实际准确率对比

复旦大学与美团 LongCat 联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。

二、方法论:Query Composition 范式

核心创新

R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。

以数学任务为例,该方法包含三个步骤:

1. 信息提取:从独立问题中提取核心数值、变量等关键信息
2. 依赖构建:将前序问题的答案嵌入到后续问题的条件中
3. 链式推理:模型必须顺序解决所有子问题才能获得最终答案

方法优势

  • 灵活扩展:可自由控制推理链长度(n = 2, 4, 8…)
  • 精确可控:可灵活设定问题间的依赖强度
  • 高效低成本:基于现有数据集构建,无需额外人工标注

基于此方法,我们构建了 R-HORIZON Benchmark 用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。

图 2:R-HORIZON 方法流程——从单 — 问题到复杂推理链的转化及应用场景

三、评测基准:R-HORIZON Benchmark

数据集构成

基于 Query Composition 方法,我们构建了涵盖 6 个代表性数据集的 R-HORIZON Benchmark:

评测发现:性能断崖现象

我们评测了 20+ 个主流 LRMs(包括 o4-mini 、Claude-Sonnet-4 、 DeepSeek-R1 等顶级商业模型及开源模型),揭示了—个重要现象。

顶级推理模型在长链推理场景下均出现显著性能下降!

主要发现:

  • 普遍性能退化:所有模型随问题数量增加均出现明显性能下降。DeepSeek-R1 在 AIME25 单问题场景准确率达 87.3%,但在 5 个组合问题场景下骤降至 24.6%。
  • 规模效应:更大规模的模型对多步推理挑战表现出更强的鲁棒性。
  • 任务差异:代码生成任务相比数学任务表现出更陡峭的性能衰退;多数推理模型在网页搜索场景中丧失工具调用能力。

图 3:R-HORIZON Benchmark  评测结果—— 所有模型均出现显著性能衰退

四、机制分析:推理模型的三大瓶颈

为深入理解性能断崖的成因,我们进行了系统的机制分析,识别出当前 LRMs 的三个关键瓶颈:

瓶颈 1:有效推理长度受限

随着相互依赖问题数量增加,LRMs 难以维持原有性能水平。实际准确率与理论准确率之间的差距显著扩大。

深入分析显示:

  • 模型错误集中在特定上下文范围内
  • 7B 模型的主要错误范围在 (4-6K tokens)
  • 32B 模型将范围扩展到 (8-10K tokens)
  • 更大模型具有更长的有效推理边界

图 4:R1-Qwen-7B 和 R1-Qwen-32B  的准确率及错误位置分析

瓶颈 2: 反思机制高度局部化

对模型「反思」行为的分析发现发现:

  • 模型反思频率随问题数量增加而上升并趋于收敛。
  • 超过半数复杂任务 完全缺乏 长程反思 (跨越当前问题的反思)。
  • 当前 LRMs 的反思机制 高度局部化,无法支撑长链场景需求。

图 5:MATH500  数据集上的反思行为分析

瓶颈 3:思考预算分配失衡

最令人意外的发现:包括 DeepSeek-R1 在内的主流 LRMs 无法有效分配思考预算

  • 模型倾向于过度分配 tokens 给早期推理阶段
  • 未能合理分配资源给后续关键问题
  • 这种失衡严重影响整体推理链的完成质量

图 6:不同组合问题数量下各模型的思考预算分配

五、 训练方案:突破能力边界

发现瓶颈后,我们进—步探索:能否通过长链数据的强化学习训练突破这些限制?

训练策略

我们基于 R-HORIZON 构建的长链推理数据,采用 GRPO 算法进行训练:

  • 算法:主流 RLVR 算法 GRPO
  • 数据: R-HORIZON 组合数据(n = 2, n = 4)
  • 实验:不同奖励函数的对比实验

训练效果:双重性能提升

实验结果显示:R-HORIZON 训练不仅显著提升长链任务表现,单问题性能也大幅增强!

核心数据

注:加粗数字表示该列最佳成绩

图 7:不同训练配置下的性能对比

关键发现

  1. 双重提升:使用 n = 2 组合问题训练,多步推理性能大幅提升(AIME24 n = 2 +17.4 分),单问题性能也显著增强(AIME24 单题 +7.5 分)。
  2. 可扩展性:增加组合复杂度(n = 4)增强了模型处理更多推理步骤问题的能力,在 MATH500 (n = 8) 上达到 50.6%。

训练带来的质变

R-HORIZON 训练带来了推理机制的深层改变:

  • 更高效的推理长度:显著改善组合任务性能,更好地泛化到更长推理链,同时缓解「overthinking」现象
  • 更合理的预算分配:学会在多步问题中进行更合理的 token 预算分配
  • 更长程的反思能力:促进了长程反思频率增加,直接改善长链推理性能

图 8:使用标准数据集和组合数据集进行强化学习的效果分析

六、结论与展望

R-HORIZON 标志着大型推理模型研究的范式转变——从「能解决什么问题」到「能走多远」。

技术贡献

  • 首个长链推理评测基准:系统性揭示 LRMs 的能力边界及三大瓶颈。
  • 可扩展训练范式:提供低成本、高效率的能力提升路径。
  • 深度机制分析:为未来推理模型改进指明方向。

AAAI 是人工智能领域顶级的国际学术会议,本文精选了美团技术团队被收录的 8 篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,希望这些论文能对大家有所帮助或启发。

01 Promoting Efficient Reasoning with Verifiable Stepwise Reward

论文类型:Poster

论文下载PDF

论文简介:大推理模型通过强化学习提升了链式推理能力,但输出冗长,导致推理开销增大和用户体验下降,即「过度思考」问题。针对这一现象,本文提出了可验证的过程奖励机制(VSRM),通过奖励有效步骤、惩戒无效步骤,优化模型推理过程。VSRM 首先通过特殊 token 划分推理步骤,并结合三条规则保证每个步骤的内容可读性。各步骤通过插入 token 生成子轨迹,模型根据每步前后正确率变化分配步骤级奖励。为避免奖励信号稀疏,引入前瞻窗口机制,通过折扣因子传播未来正确率变化,使奖励更密集。

实验表明,VSRM 能大幅缩减输出长度,且在多种数学 benchmark 和不同模型、算法下保持甚至提升性能。消融实验证明前瞻窗口机制有效,显式长度惩罚对 VSRM 无益。VSRM 机制可与各类强化学习算法无缝结合,有效抑制无效步骤,鼓励有效推理,是解决过度思考问题、提升模型推理效率的有效方法。

02 Scaling and Transferability of Annealing Strategies in Large Language Model Training

论文类型:Long Paper

论文下载PDF

论文简介:本文深入研究了大型语言模型训练过程中退火策略(Annealing Strategies)对模型性能的影响,提出了一个新的缩放法则公式来预测不同训练配置下的损失曲线。研究发现,即使在相同的训练 token 数量和模型规模下,不同的批次大小(batch size)和学习率调度器也会导致显著不同的训练曲线。为此,作者提出了一个改进的缩放法则公式:

其中 S 表示学习率对训练步数的积分(前向效应),M 表示动量对训练步数的积分(退火动量项),N 代表模型规模。

论文的核心贡献包括:(1) 证明在特定情况下,训练步数比训练 token 数更适合作为追踪损失曲线的指标;(2) 发现最优退火比率(Ropt)随总训练步数增加而减小,遵循幂律关系;(3) 验证了最优退火比率在训练集和验证集上保持一致;(4) 通过在 Dense 模型和 MoE(Mixture-of-Experts)模型上的大量实验,证明小模型可以作为优化大模型训练动态的可靠代理。该研究为大规模语言模型的训练提供了更精确的理论指导,有助于优化训练效率和模型性能。

03 From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling

论文类型:Long Paper (Oral)

论文下载PDF

论文简介:本文系统研究了过程奖励模型(Process Reward Models, PRMs)在提升大型语言模型推理能力方面的作用,特别关注其从数学推理到代码生成任务的跨域泛化能力。研究从训练方法、可扩展性和泛化能力等多个维度对 PRMs 进行了深入分析。

论文的核心发现包括:
- 训练计算资源的影响:研究发现随着 PRM 模型规模的增大,性能提升呈现边际递减效应,强调了在模型规模和计算成本之间寻找平衡的重要性。同时,训练数据集的多样性显著影响 PRM 性能,作者提出的 ASLAF(自动步骤级标注与过滤)方法在多个基准测试中表现优异。
- 测试时扩展策略:论文评估了 Best-of-N 采样、束搜索、蒙特卡洛树搜索(MCTS)和多数投票等多种搜索策略。结果表明,在计算资源充足时 MCTS 效果最佳,而在资源受限情况下 Best-of-N 采样是实用的替代方案。
- 跨域泛化能力:令人惊讶的是,在数学数据集上训练的 PRMs 在代码生成任务上的表现与专门针对代码训练的模型相当,展现出强大的跨域适应能力。通过梯度分析,研究还发现 PRMs 倾向于选择具有相似底层推理模式的响应,这为理解其优化机制提供了新视角。该研究为优化大规模语言模型的训练和部署提供了重要的理论指导和实践参考。

04 Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective

论文类型:Poster

论文下载PDF

论文简介:本文对强化学习(RL)中的问题采样策略进行了系统性研究,当前主流采样策略大多直接依赖单步通过率(Pass Rate) 作为问题难度指标,存在 1)对问题难度的估计不够稳定;2)无法有效捕捉模型能力与问题难度的对齐关系的问题。

针对这些问题,本文提出了 CDAS(Competence-Difficulty Alignment Sampling):一种将模型能力与问题难度显式建模并对齐的动态采样方法。CDAS 不依赖单步通过率,而是通过累积历史表现差异来构建更稳定的难度估计;同时定义模型能力,并以不动点系统确保两者在训练过程中共同收敛。基于能力—难度差值构建对齐指标,再通过对称采样策略,选取最匹配模型当前能力的问题,从而提升有效梯度比例与训练效率。CDAS 在数学推理和代码生成场景中均通过 RL 训练 验证,结果显示 CDAS 显著提升了采样效率与模型性能,击败了多种主流采样策略。

05 ViType: High-Fidelity Visual Text Rendering via Glyph-Aware Multimodal Diffusion

论文类型:Oral

论文下载PDF

论文简介:随着文生图模型在电商营销等领域的广泛应用,视觉文本渲染的准确性已成为制约生成质量的核心瓶颈。现有模型因缺乏字形级理解能力,难以精确刻画多语言字符结构,导致海报、商品图等商业场景中文字乱码、字形失真等问题频发,严重阻碍了 AIGC 在智能设计中的实际落地。

针对这一关键挑战,我们提出 ViType 三阶段对齐增强框架:首先通过视觉问答机制实现文本-字形显式对齐,将字符视觉结构注入大语言模型语义空间;其次创新性地将预对齐字形嵌入与文本 token 同步输入多模态扩散 Transformer,通过联合训练建立跨模态特征协同;最后基于高质量图文对进行美学精调,确保生成图像的版式和谐与视觉美感。该框架使字符准确率提升 15%以上,为电商海报、营销物料等高精度视觉内容创作提供了可靠的技术支撑。

06 DSCF: Dual-Source Counterfactual Fusion for High-Dimensional Combinatorial Interventions

论文类型:Poster

论文下载PDF

论文简介:在个性化推荐、数字营销和医疗健康等领域,基于观测数据预测反事实结果对科学决策至关重要。在这些应用场景中,决策过程往往涉及高维组合干预策略,例如多渠道资源捆绑投放或产品组合推荐。面向这类场景,无论是历史策略的效果评估还是新策略的优化,都需要模型能够对历史数据中很少出现甚至从未出现过的策略组合效果进行准确预测。此外,观测数据中源于历史分配策略和倾向性投放的选择偏差会进一步加剧数据稀疏问题,从而影响反事实推断的准确性。

为此,本文提出双源反事实融合模型(Dual-Source Counterfactual Fusion,DSCF),该可扩展框架通过双专家混合架构联合建模观测数据和代理反事实样本,并采用领域引导融合机制,在有效平衡偏差消除与信息多样性的同时,还能自适应地泛化到反事实输入场景。在合成和半合成数据集上的大量实验表明,DSCF 框架能够显著提升高维组合干预场景下的预测准确性,并在不同情境下展现出优异的鲁棒性表现。

07 Compress-then-Rank: Faster and Better Listwise Reranking with Large Language Models via Ranking-Aware Passage Compression

论文类型:Poster

论文下载PDF

论文简介:基于大型语言模型(LLMs)的列表重排序(listwise reranking)已经成为最先进的方法,在段落重排序任务中不断创下新的性能基准。然而,其实际应用面临两个关键挑战:处理长序列时高昂的计算开销和高延迟,以及由于“迷失在中间”等现象导致的长上下文性能下降。

为了解决这些问题,我们提出了一种高效的框架压缩后排序(Compress-then-Rank, C2R),该框架不是直接对原始段落进行列表重排序,而是对其紧凑的多向量代理进行操作。这些代理可以预先计算并缓存,适用于语料库中的所有段落。C2R 的有效性依赖于三项关键创新。首先,压缩模型通过结合文本恢复和文本延续目标进行预训练,生成高保真的压缩向量序列,从而减轻了单向量方法中常见的语义损失问题。其次,一种新颖的输入方案将每个序数索引的嵌入添加到其对应的压缩向量序列前,这不仅划定了段落边界,还引导重排序 LLM 生成排序列表。最后,压缩模型和重排序模型通过联合优化,使压缩过程对排序目标具有排序感知能力。在主要重排序基准上的广泛实验表明,C2R 在提供显著加速的同时,能够实现与全文重排序方法相当甚至更优的排序性能。

08 Multi-Aspect Cross-modal Quantization for Generative Recommendation

论文类型:Oral

论文下载PDF

论文简介:本文提出一种基于多模态融合的生成式推荐框架(MACRec),旨在解决现有生成式推荐方法因模态信息利用不足和跨模态交互缺失导致的性能瓶颈。

针对文本与视觉模态的量化难题,MACRec 引入跨模态量化与多角度对齐机制,通过两阶段技术路线实现优化:1)跨模态残差量化:将对比学习融入分层量化过程,生成兼具语义层次性与模态兼容性的物品标识符,显著降低多模态表征冲突;2)跨模态协同对齐:通过显式-隐式协同对齐策略,分别建模文本与视觉模态的共享特征和互补特征,增强生成式推荐的多模态理解能力。在亚马逊电商推荐数据集上的实验结果表明,MACRec 相较基准模型在推荐性能上有显著提升;各模态的码本分布更均衡、利用率更低,充分验证了跨模态量化与对齐机制在提升生成式推荐有效性方面的优势。

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

在“大模型六小虎”成为历史后,王小川终于等来了自己的风口。

 

近日,国内外大厂在医疗领域动作频繁。1 月 8 日,OpenAI 高调入局,除了推出 ChatGPT Health,还收购了医疗保健初创公司 Torch。几乎同期,Anthropic、英伟达、苹果等都有产品和合作发布。国内,蚂蚁阿福自发布后短期内月活用户突破 3000 万,单日提问量超千万。资本市场上,AI 医疗板块逆势走强,成为最近市场热点。

 

在此前大模型竞争激烈的当口,AI 医疗并不是一个很性感的话题。那种不信任来自百川内外。

 

2023 年成立的百川在一年后战略收缩,决定聚焦医疗,成为国内较早专注到医疗的大模型创企。但内部“没有足够传达在医疗上的决心和路径要求,没有让每个团队在医疗价值创造中深度思考 why 和 how,进而导致部分团队工作目标出现了摇摆和偏差。”“去年中途转过来时被骂惨了。”

 

不只内部,业界对 AI 医疗也存有疑虑,连带着对百川的路线选择也有质疑。“2024 年跟医生谈 AI,大家都不信。”王小川直言。

 

直到 2025 年,大家看到 DeepSeek 真的比百度靠谱很多;年末阿福发布,投了 10 亿来砸广告,看到了技术和应用进展;今年 1 月 8 日,OpenAI Health 正式上线,Anthropic 也发布了自己的两个技术能力:医疗计算和 Agent,两个巨头都开始进入医疗。

 

“所以,从市场判断来看,医疗作为 AI‘皇冠上的明珠’这样的高级阶段,已经开始进入应用范畴。”王小川说道。

 

从发布反思信至今 9 个月过去,王小川向 InfoQ 表示,百川如今的护城河主要有三个:一是模型结构的优先级,“医疗安全性”和“诊断准确性”始终是首位;二是切入点选择,百川聚焦严肃、高价的医疗场景,区别于其他企业的健康类打法,这类场景的壁垒更高,且有明确的付费意愿;三是产品形态的差异化,百川身份差异化服务和决策辅助能力,是现有产品不具备的。

 

王小川尤其提到,大厂和创业公司不一样,他们有职业团队,需要的是更安稳的方案。“大创新靠小厂,小创新靠大厂,必须切入我们认为有高价值的事情,共识不是我们优先的突破点,而大厂更多的是注重共识,路线图和产品形态是不一样的。”

 

模型要低幻觉、能问诊,多模态非主战场

 

“去年 8 月发布的 M2 作为百川重新聚焦医疗之后的主力模型,在行业得到很多好评。典型现象就是蚂蚁开始疯狂挖人,从技术人员到财务人员,所以属于小圈子认可技术路线图。”王小川说道。

 

昨天,百川正式开源了新一代医疗大模型 Baichuan-M3。据百川智能模型技术负责人鞠强介绍,Baichuan 系列采用 SCAN 框架,实现临床医生层级的推理与问诊。其核心在于不仅询问疾病类型,更通过定量问题将模糊主诉转化为可定位、可量化的临床证据;并且突破单一症状的局限,进行跨系统关联推理。

 

其次,团队高度重视并主动防控大模型在医疗中的“幻觉”,坚持正确知识并进行原子级事实检验:在模型推理过程中进行逐层事实核查,确保结论基于真实输入。

 

鞠强介绍,在模型训练中,抑制“幻觉”与提升推理能力之间存在明显的“跷跷板效应”,容易陷入两种极端:若过度追求推理表现,其生成内容会更丰富、答对率上升,但幻觉也难以控制;若强力抑制幻觉,模型则会趋向过度保守,回答变得拘谨甚至回避问题,导致实用性下降。这也是团队在 Baichuan-M3 训练中重点攻克的问题。

 

为破解这一矛盾,研发团队引入了 Fact-aware 强化学习技术。该技术核心在于,在强化训练过程中,既对幻觉进行充分压制,又确保推理能力不受损,反而同步提升。

 

结果显示,相比前代模型 M2,百川正式开源新一代医疗大模型 Baichuan-M3 的幻觉率大幅下降,同时在医疗专业评测 HealthBench 上的推理能力得分从 34 分显著提升至 44 分,位列榜首。在不依赖工具或检索增强的纯模型设置下,医疗幻觉率 3.5,超越 GPT-5.2。“这验证了我们通过强化学习方法,在抑制幻觉与增强推理之间取得了有效平衡。”鞠强表示。

 

Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B

 

另外,模型深度集成的问诊能力,从日常症状中识别风险。团队设计了防御性思维追问,以甄别背后潜在的系统性疾病,还会进行组合症状敏锐识别,比如用户描述“情绪激动时左牙疼”时,模型能会关联“牙痛+情绪症状”,优先建议排查心脏系统问题,从而排除重大隐患,而非直接推荐牙医或止痛药。该能力已集成至产品,服务于医生与普通用户。

 

在 AI 医疗中,除了文字,还有影像等信息。不过,王小川认为,多模态并非当前 AI 主战场。

 

他解释道,ChatGPT 之所以令人震撼,正是因为它展现出一种“智力”,而智力的本质,是将具体事物进行抽象的能力,其核心在于符号系统。在这一逻辑下,智能主要依托于三种形式语言:自然语言、数学语言与代码语言。至今,评估一个模型能力的强弱,本质上仍是检验其符号处理与逻辑推理的水平,功能可用并不等同于智力高超。在医疗领域,这一观点尤为关键。医疗的核心是决策,而不仅仅是感知。

 

实际上,未来医学影像的初步解读可由专用小模型完成,许多厂商也已具备相应的图像引擎。但真正的价值在于:将影像符号化之后,如何用语言模型进行综合推理与判断。因此,感知模型与认知模型必须结合。

 

他认为,当前的一些工作,比如将 CT 影像转化为报告,或是专注于胰腺癌筛查的视觉模型,固然有其价值,但它们更像是“挂在智力之树上的叶子”,是整体流程中的一环,而非驱动智能演进的主战场。真正的突破,仍在于如何通过符号与语言,构建能够进行复杂医疗决策的认知核心。

 

“在中国 To C 比 To B 更好”

 

“未来巨大的增量是在院外,不在院内。”王小川说道。其核心是直接服务患者,而不是通过服务医生间接服务患者。

 

反观 OpenAI 的入局是靠打造“个人超级助手”,Anthropic 则从合规性与临床效率上做 B 端突围。对此,王小川的评价是:“美国是 To C 和 To B 都可以干,但在中国 To C 比 To B 更好。”

 

王小川认为,国内的医疗现状是医生供给不足,互联网虽能连接信息却无法创造供给;医患权力不均,双方容易沟通不畅、患者无助;患者更倾向三甲医院,致使基层医疗薄弱;医疗知识分散于各科室,复杂病症往往缺乏整体视角。

 

基于此,他的设想是 AI 可以“造出高质量医生”,但不是要 AI 取代医生。“在某些维度上,AI 超过医生是必然的,比如信息收集的完整性、医学知识的储备量、循证的精准度等。但 AI 不会取代医生的核心执行能力,比如手术、查体等。”

 

在不取代医生的情况下,AI 可以推动“权力让渡”,即帮助患者理解病情与方案,获得更多参与权和知情权。另外,居家通过 AI 进行初步咨询,让“居家首诊”可能,减轻医疗系统负担。此外,复杂问题需要跨科室会诊,以前就是入院即入组,即进入某个科研队列,有了 AI 后能够做到“看病即入组”,更有机会做好生命模型。

 

在实现的产品形态上,百川目前主打还是百小应 App,不过用户进入后可以选择医生和患者两种身份,给出的结果是不一样的:医生版更像 OpenEvidence,答案更加专业、更加强调循证,引用的文章在系统中 100%存在,让其能够做决策、信息够充分;患者版本则强调补充信息,进入启发式端到端的问诊,也给到患者决策能力。

 

“我们与 OpenEvidence 的区别在于,OpenEvidence 只是服务于医生,百川是可复数、可懂、可决策、可行动、能够服务到患者的,这样的产品定位在全球是独一无二的。”王小川补充道。

 

在其看来,做 To C 产品,重点是让产品价值触达真正的目标人群,即有严肃医疗需求、愿意为决策辅助付费的患者。他举例称,达摩院做的胰腺癌平扫 CT 模型,虽然技术门槛高,但解决了核心临床痛点,就有明确的付费方;而泛健康类服务看似覆盖广,但价值不突出,反而难以找到稳定的付费用户。百川目前的做法就是基本全覆盖,重点放在儿科、慢病和肿瘤,优先突破有明确痛点的领域。

 

收费模式上,王小川认为,不是只赚医院或医生的钱,还可以向患者收费,也可以形成服务包,后面的医疗资源和药械以服务包形式收费。

 

“我倒不担心商业模式本身,确实要过了这个门槛、为用户创造价值,之后不管直接收费还是生态收费都是很容易的事情。”王小川说道。目前,百川账上还有 30 亿人民币,这也留给了王小川证明的时间。

 

据王小川透露,今年上半年,百川会完成两款产品的发布和推广,核心是回归决策层面,帮助用户(包括患者和医生)做出更好的医疗决策,最终实现“医生时刻陪伴式”的健康管理。“我们第二个产品已经可以当成院外医生来看了。”此外,百川也有计划硬件产品发布和出海计划,具体日程未定。

 

为了培养用户心智,百川未来也会增加一定的广告宣传投入,另外会重视医生对产品的认可度。“阿福跟我们的路线不一样,老医生都是无感的。我们希望医生和患者一体两面,共享一款产品,要让专家点头,而不只是患者鼓掌。产品做好以后确实能够取得一定的口碑效应。”王小川说道。

 

“今年上市的两家主要还是踩在通用模型技术红利和政策支持的基础上,但目前他们的市值和商业化能力并不匹配,但 AI 医疗今天也是大模型竞争中的一个范式,虽然它的成熟会晚一点,在后面我们肯定也是奔着上市去的。”王小川给了自己两年的时间再看看。

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

0%
icon展开列表
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

图片

上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。

昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。

简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。

他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。

不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。

图片

那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。

图片

看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?

以下是 1X 技术团队对这颗「新大脑」的硬核拆解:

图片

家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。

当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。

因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。

在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。

与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。

这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。

图片

从视频知识到世界模型

如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:

  • 视觉/空间层面:生成的视频是否与机器人的相机内参和自我中心视角一致?是否能够准确保留操控任务所需的深度信息以及精确的空间关系?

  • 运动学层面:生成视频中的机器人动作是否在该具身形态下可实现,是否遵循其结构特性、关节极限、速度约束以及执行器能力?

  • 物理层面:生成过程是否避免了物理上不可能的结果(例如物体瞬移),从而保证其能够转化为现实世界中的成功执行?

原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:

  • 世界模型主干:这是一个文本条件扩散模型:先在互联网规模的视频数据上进行预训练,随后在人类第一视角视频数据上进行中期训练,并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程,在视觉、空间和物理一致性方面表现出色。

  • 逆动力学模型(Inverse Dynamics Model, IDM):通过训练 IDM,将像素空间与执行器控制连接起来,使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制,对生成结果施加运动学约束,从而确保动作在具身层面上的可行性。

在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。

图片

1XWM 的训练与推理流程

1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:

  • 第一视角中期训练:使用 900 小时的人类第一视角视频数据进行训练,使模型对第一人称的操作任务产生对齐。在这一阶段,模型能够学习到通用的操作行为模式,但仍然难以生成由 NEO 执行具体任务的视频。

  • 具身微调:随后,使用 70 小时的机器人数据进行微调,使模型进一步适配 NEO 的视觉外观与运动学特性。

以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。

此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。

在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。

图片

NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。

1XWM 到底能做啥

研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。

在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:

  • 抓取分布内与分布外的物体;

  • 操作此前从未见过、但具备复杂可供性的物体;

  • 完成需要全新动作模式的全新任务。

实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。

抓取:

图片

新动作:清洁

图片

接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。

图片
图片

研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。

图片

能否将视频质量与任务成功率联系起来?

如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。

有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。

1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。

图片

第一视角数据与高质量字幕的重要性

基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。

实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:

  • 分布内数据集:包含与机器人训练数据分布一致的复杂任务和场景,主要是杂乱环境中、物体位置较为困难的抓取与放置任务。

  • 新任务数据集:由一组全新的任务构成,例如搅拌碗、抽纸、相对尺寸判断(选择更大的物体)、双手协同操作等,数据采集于真实世界中的简单背景场景。

  • 分布外 T2I(OOD T2I)数据集:完全由抓取任务组成,其初始帧由文生图模型生成,随机采样分布外的家庭物体与背景场景。

下面是新任务数据示例:

图片

团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。

图片

字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。

引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。

不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。

图片

参考链接:https://www.1x.tech/discover/world-model-self-learning

百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力

icon

0%
icon展开列表
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img
Sakana让AI互相「猎杀」,而它们开始了趋同进化
01月11日
img
不做人形、不跳舞:他家的具身智能凭什么在100+城市卖出400万杯咖啡?
01月11日
img

百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力

昨天,百川智能正式开源新一代医疗大模型 Baichuan-M3,其在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以 44.4 分的成绩夺冠。

这一成绩,不仅刷新了 HealthBench 的最高分,更首次在医疗领域实现了对 GPT-5.2 的全面超越。在 OpenAI 引以为傲的低幻觉领域,M3 也实现了超越,幻觉率 3.5 全球最低。

此外,M3 还首次具备了原生的 “端到端” 严肃问诊能力。它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。

  • Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B
  • GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B


医疗沟通和推理能力超越 GPT-5.2,登顶世界第一


2025 年 5 月份,OpenAI 发布 HealthBench,由 262 位来自 60 个国家的医生共同构建,收录了 5000 组高度逼真的多轮医疗对话,构建了全球最权威、也最贴近真实临床场景的医疗评测集。这一事件,被视为 OpenAI 在医疗领域开始 “重兵投入”,吹响进军医疗的号角。

相当长一段时间里,无论是 HealthBench 总分还是 HealthBench-Hard 子集, GPT 系列模型从未被超越。2025 年 8 月,百川开源医疗增强大模型 M2 在 HealthBench 上力压 gpt-oss-120B、DeepSeek-R1 等同期所有开源模型,并在 HealthBench Hard 上取得 34.7 分的成绩,仅次于 GPT-5,成为全球唯二突破 32 分的模型。

2025 年,强化学习无疑是新一代 Scaling Law 的技术中轴。在 M2 发布后的五个月里,百川智能对强化学习系统进行了全面升级,将原本以患者模拟器和静态 Rubric 为主的半动态反馈,升级为随模型能力不断演进的全动态 Verifier System。随着监督信号持续变细、变难,模型得以不断突破能力上限,使 M3 在复杂医学问题上的表现实现跃迁,不仅在 HealthBench 总分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登顶,成为当前全球医疗沟通和推理能力最强的医疗大模型。


重构幻觉抑制的训练范式,刷新医疗幻觉率底线


幻觉是这一代大模型技术范式的通病,更是 AI 进入严肃医疗的拦路虎。在大多数场景幻觉只是体验问题,而在严肃医疗场景可导致安全事件。

降低幻觉,一直是 OpenAI 最重视的研究方向之一。几乎每一代 GPT 模型的幻觉率均为行业最低。OpenAI 也是第一个单独评测医疗能力和提供医疗服务的通用模型公司。

国内 DeepSeek 等模型的普及,让越来越多人开始使用 AI 并尝试进行医疗健康咨询。但大多数模型公司并没有把 “降幻觉” 提升到与推理、代码等相同的高度。用这样的模型获取健康咨询和诊疗建议,对 AI 医疗的普及和医患信任建立带来很大困扰。

百川 M3 将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,将 “知之为知之,不知为不知” 直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为 M3 自身的基础能力,使其在不借助任何外部系统的情况下,依然能够基于自身医学知识进行稳定、可信的作答。

通过将事实一致性约束融入训练流程,M3 重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率 3.5,超越 GPT-5.2,达到全球最低水平。


构建「严肃问诊」新能力,端到端问诊超越真人医生


除了强推理和低幻觉,端到端的问诊能力是本次 M3 最重要的一项突破。2025 年行业的技术共识是,用户提供更完整的上下文,模型才有更好的表现。可在医疗领域,患者很难完整表达自己的病症,需要模型像医生一样有能力把患者的混乱叙述转变成可做诊疗决策的信息。

HealthBench 代表了 OpenAI 对临床场景的认知高度,然而它本质上是一个切片式的评测,考核的更像是 “AI 会不会回答问题”,而不是带着诊疗目标,完整的患者信息收集。这也正说明了行业对问诊重要性和建模思路的理解不足。

应用实践中,通过 prompt “你是一位经验丰富的医生”,激活模型的 “角色扮演” 是更常见的做法。这种方式得到的是模型的表演行为,而非内生能力,激活的是模型应该提问的行为,而不是必须获取关键信息的思考。例如,临床医生面对患者的第一反应,永远是先排除危急重症,再考虑常规诊疗,这是刻在职业本能里的安全优先级。但常见的 “角色扮演” 的问诊方式,无法将 “红旗征识别与处置” 作为核心行动原则。这种不围绕关键风险点展开的信息收集,即便对话看似完整,也难以支撑安全、可靠的临床判断,从根本上偏离了医疗 “安全第一” 的原则。

针对这一行业困境,百川智能提出了 “严肃问诊范式” 与 “SCAN 原则”,通过 Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与 Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地 “白盒化”。

围绕 SCAN 原则,百川智能借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,该体系以真实临床经验作为 “标准答案”,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的动态评测新范式。

同时,百川智能还使用原生模型训练方法取代角色扮演 prompt,针对 GRPO 无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。

在实验过程中发现,问诊准确度每增加 2%,诊疗结果准确度就会增加 1%。评测结果显示,M3 在 SCAN 的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型,成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。

从 1 月初 OpenAI 发布医疗产品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 医疗正在全球范围内提档加速,竞争也正式进入深水区。在这场竞速中,作为国内唯一专注医疗的大模型企业,百川持续突破低幻觉率、端到端问诊和复杂临床推理等核心能力,已从 “跟随者” 跃迁为行业 “引领者” 与新范式的 “定义者”,正以硬核实力扛起中国 AI 医疗发展的旗帜。

百川智能的医疗应用 “百小应” 已同步接入 M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。