标签开源模型下的文章

学界大佬吵架金句不断，智谱和 MiniMax 太优秀被点名，Agent 竟然能写 GPU 内核了？！

作者: 纯情
时间: 2026-01-23
分类: 资讯
评论

“如果一个 AI 能解 IMO，但解决不了任何现实问题，那它不是通用人工智能。”

这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家，蒂姆·德特默斯对 AGI 给出的判断，他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI 从神坛上拽了下来。

有意思的是，几天后，加州大学圣地亚哥分校助理教授、Together AI 内核副总裁丹·傅，给出了完全相反的判断。他写了一篇 《通用人工智能终将成为现实》，说 我们也许早就已经实现了 AGI。

于是，两篇文章，一场关于 “AGI ” 的争论，被带进了播客现场。

这场讨论并非空谈，两位嘉宾都是同时深耕学术界与产业界的一线研究者。

蒂姆·德特默斯长期深耕深度学习量化领域，即模型压缩，如何在更低精度、更少算力下，让模型保持可用性能。

在蒂姆·德特默斯看来，判断 AGI 是否成立，首先要回到一个常被忽略的前提：计算是物理的。

在他看来，内存迁移、带宽、延迟，以及冯·诺依曼瓶颈，决定了算力不可能无限扩张。他说 “几乎所有指数增长，最终都会撞上资源和物理极限”。 所以，指数增长终将放缓，Scaling Law 也不例外。

但丹·傅显然不这么看。在他看来，现在谈“算力见顶”，还太早了。丹·傅每天都在和 GPU 内核、算力利用率打交道，在他看来，“我们甚至还没真正用好上一代硬件。”

在现实系统中，算力其实被严重低估和浪费了， 大量性能消耗在内核调度、系统开销和工程细节上。更关键的是，人们今天评测和使用的“最强模型”，往往是基于一到两年前的算力集群训练出来的，它们并不能代表当下硬件和大规模集群所能达到的真实上限。

他因此提出了一个直观的估算思路，用来说明算力增长的潜力来自多个维度的叠加：

新一代硬件带来约 2–3 倍的性能提升；
系统与工程优化将算力利用率提升约 3 倍；
更大规模的集群再带来约 10 倍的规模效应。

这三者相乘，意味着可用算力在理论上可以提升接近 90 倍。这并不是纸面上的推算，而是正在产业中逐步发生、逐步兑现的现实潜力。

有意思的是，当争论继续推进，两人反而在一个问题上开始靠拢：AGI 到底是什么？

关于 AGI 的定义，大致有两种主流视角：

一种从认知能力出发，看模型能否覆盖足够多的认知任务；

另一种则从经济角度出发，看它是否真的改变了生产方式。

这一点上，双方达成一个共识：AGI 是什么并不重要，重要的是，它有没有改变我们工作的方式。

在访谈后后半部分，大家从未来拉回到了现实，Agent 成为了关键话题。

丹·傅在节目中提到一个有趣的时间点：2025 年 6 月， 那是他第一次意识到，Agent 可能真的越过了拐点。

他当时发现机器学习工程中最难的技能之一、编程领域的终极难题——“GPU 内核编程” 被代码智能体啃下来了。他自己亲测：原本一个 GPU 内核功能开发得磨一周，那天靠着代码智能体，一天就搞定了三四个，工作效率直接提升了 5 倍。而他的团队用上后，那些原本需要整支团队耗数月的复杂系统开发，也变得轻装上阵。

这让丹·傅想起了自己对自动驾驶的态度变化，从长期怀疑到真正坐上 Waymo，他意识到技术的突破可能藏在某个猝不及防的瞬间。

针对 Agent 的爆发式潜力，蒂姆·德特默斯曾发布了一篇掷地有声的文章 《要么善用 Agent，要么被时代淘汰》。在他看来，代码 Agent 本身就是高度通用的 Agent，因为代码几乎可以描述和解决所有数字化问题。他甚至直言，“超过 90% 的代码和文本，本就应该由 Agent 来生成。但同时他也强调，“人类必须对最终结果承担责任，而非盲目依赖 AI 的输出。”

两人将 Agent 形象地比作“需要精细化管理的实习生”，只要给它明确背景信息、拆解任务边界、设定执行约束，人类无需过度干预其执行过程，而是把注意力聚焦在把控方向上，用专业判断力校验结果。而在 Agent 时代，真正吃到红利的将是有深厚积累的专家，其专业基础越深厚，Agent 能为其创造的效率增量就越显著。

在节目的最后，关乎对 AI 行业未来的预判，双方抛出了一系列深刻洞见。

在他们看来，小模型会成为行业新热点、开源模型会进一步飞跃；新硬件、多模态、端侧 AI 都会有进一步发展。

其中，硬件赛道将走向多元化发展，模型训练与推理环节的专业化分化会进一步加剧。

更值得关注的是，Transformer 架构独霸天下的时代会落幕，各类新架构会登上时代舞台。

他们还特别提到了中国的 GLM-4.7、MiniMax、DeepSeek 等优秀模型，对中国大模型的快速进步表达了高度认可。

在他们看来，相比技术路线相对集中的美国，中国团队反而更敢于探索多种可能性，比如状态空间模型、线性注意力以及混合架构等，通过架构创新或极致性能，让开源模型脱颖而出。

同时，他们也指出，中国的模型团队在技术路线上更务实。与“先做出最强模型，再等待应用出现”的硅谷思路不同，中国团队更关注模型是否真正能落地、是否能在现实场景中产生价值。正是这种务实的发展思维，可能会在未来深刻影响人工智能的技术形态以及它所能创造的社会价值。

以下是播客全文，更多精彩细节，欢迎来看：

“AGI 能否成为现实”之争

主持人：蒂姆，几周前你发表了一篇极具争议性的精彩博文，标题是 《通用人工智能为何不会成为现实》。而丹，你在几天后也发布了一篇同样引人入胜的回应博文，标题为 《通用人工智能终将成为现实》。我想先了解一下二位的背景，你们都有着一个有趣的特点，就是兼具产业界和学术界的从业经历。蒂姆，不如你先讲讲吧。

蒂姆・德特默斯：我是卡内基梅隆大学机器学习与计算机科学系的助理教授，同时也是艾伦人工智能研究所的研究科学家。

我过往的研究主要聚焦于高效深度学习量化技术，简单来说就是模型压缩， 把大模型从 16 位精度压缩到 4 位精度左右，这方面我做了不少核心研究。比如一种高效的微调方法，我们将模型压缩至 4 位精度，在模型上使用适配器，这样所需的内存相比全精度模型能减少多达 16 倍。

目前我正致力于代码 Agent 的研究， 我们将在约两周后发布一项非常令人振奋的成果，打造出了目前最先进的 Agent，它能快速适配私有数据，在任意代码库上都能实现出色的性能表现，这一成果真的让人充满期待。

主持人：丹，该你了。

丹・傅：我是加州大学圣地亚哥分校的助理教授，同时担任合聚人工智能公司的内核副总裁。

在产业界，我的工作主要集中在提升模型的运行速度，GPU 内核正是将模型转化为实际在 GPU 上运行程序的关键，你可以把它理解为专门的 GPU 程序。

我的博士阶段以及实验室的大量研究都围绕这一方向展开，比如我研发了快速注意力机制，这是一款针对当下多数语言模型核心运算的高效内核。我还研究了 Transformer 架构之外的替代架构， 比如状态空间模型等。

在合聚人工智能，我主要关注如何打造当下最优的语言模型，以及如何进一步提升它们的运行速度。

就在本期节目录制的今早，我们还和库尔索公司联合发布了一篇博文，介绍了我们如何为其多款模型实现加速，并助力他们在英伟达的布莱克韦尔（Blackwell） GPU 上推出了作曲者 2.0 模型，这大概就是我的工作内容。

从 AGI 的定义，聊到对 AGI 的现实判断

主持人：接下来我们聊聊通用人工智能的话题，节目后半段再探讨 Agent 和代码 Agent，以及二位的相关见解。通用人工智能这个术语被大家广泛使用，但我想大家都认同，目前还没有人能准确定义它。为了本次探讨，二位认为什么样的通用人工智能定义是实用的？

丹・傅：当然。我和蒂姆在这一系列博文中 反复探讨的一个问题，就是通用人工智能的定义。

就我而言，我最近一直在思考，以当下的模型发展水平，尤其是语言模型，再结合后续会谈到的 Agent 来看，以 5 年前、10 年前，甚至我和蒂姆刚开始读博时任何人给出的通用人工智能定义，我们其实已经实现了当时的设想。如今的模型能写代码、能生成人类语言，即便有时用词上会有些小瑕疵，但确实能完成这些令人惊叹的任务。我还会思考，这种技术发展到何种程度，会引发一场新的工业革命，真正改变我们当下的工作方式，并产生巨大的经济影响。

在软件工程领域，我觉得我们已经身处这样的变革中，或者说即将迎来全面变革。虽然在一些高度专业化的领域，比如模型未必能写出世界上最优质的福兰语和钴语言代码，但在网页开发，甚至很多底层系统工程方面，它们的表现已经非常出色。

我写那篇博文的一个原因就是，审视当下的发展，我们或许已经实现了通用人工智能，或者说某种形式的通用人工智能。即便尚未完全实现，下一代正在训练的模型，只要比当下的模型表现更好，我们就已经取得了令人惊叹的突破。

蒂姆・德特默斯：我写那篇博文时发现，自己竟然忘了在文中给出通用人工智能的定义，尽管整篇文章都围绕这个主题展开。我想这在某种程度上也反映了我们对通用人工智能的思考现状 —— 我们并未认真去界定它。当然，目前存在多种定义，各有优劣，正如你所说，没有一个定义能获得所有人的认同。

我简单提几种比较主流的，一种是将通用人工智能视为认知能力、认知任务的集合，关注模型能完成哪些认知层面的工作。 软件工程、文本创作都是高度依赖认知的任务，而让机器人在空间中移动则更偏向操作层面，当然也有人认为肢体移动的规划也属于认知范畴，但多数人会将其区分开来，认为所有数字化的任务都属于认知领域，物理层面的操作则超出了这一范畴。

另一种我认为很有意义的定义视角是经济层面，看人工智能是否能引发一场新的工业革命，是否具备广泛的实用性，能应用到各个领域，推动各类工作的效率提升，就像计算机的出现那样。当然，计算机刚出现时，生产率其实出现了下降，直到其在经济中广泛普及，生产率才重新回升。通用人工智能的发展或许也会经历类似过程，在软件工程等领域，其带来的效率提升已经十分显著。

主持人：我们直接切入核心争论吧。蒂姆，你曾提到 AGI 的相关构想的起源，这一点让我觉得很有意思，你能展开讲讲吗？

蒂姆・德特默斯：好的。先梳理一下整体的背景，当下关于 AGI 的一些观点，根植于特定的思维模式，主要来源于有效利他主义社群和理性主义社群。

我 15 年前也曾是这些社群的一员。在推特上，总能看到有人说 “两年内就能实现通用人工智能”，一年后又有人说 “两年内就能实现通用人工智能”，年年如此。我觉得这种想法有些草率，也体现出一种信息茧房的状态，持这种观点的人很少接触不同的想法。这也是我写那篇博文的主要动机，我希望提出一些不同的观点，为当下主流的思考提供一种反视角。

算力是否见顶

主持人：你核心的观点是，这些构想与实际的计算现实之间存在矛盾，这样概括准确吗？

蒂姆・德特默斯：没错。这其中既涉及物理层面的限制，也有理论层面的问题，而这两方面都存在 一个共同的规律 —— 收益递减。所有指数级增长的事物最终都会放缓，因为发展需要资源，而资源总会耗尽，这里的资源可以有多种解读。

从物理层面来看，技术的进一步发展会变得越来越困难，几乎所有研究和开发领域都是如此。前期的进展往往容易实现，而后续要取得突破，需要投入更多资源，发展速度也会越来越慢。

再看计算设备的物理现实，以及计算本身的结构， 其实有用的计算主要包含两个环节：

首先是将数据从不同位置收集起来，汇聚到指定位置，然后对这些信息进行整合，完成信息的转化处理。简单来说，就是结合已知信息，计算出未知的新信息。有用的信息，必然是从已有的信息中转化而来的。如果只是大量转移信息，却不进行处理，就无法产生新信息；如果只是对现有信息进行大量计算，又会错失跨领域的洞察和间接的启发。我认为这一点与我们当下的神经网络架构高度契合。

早期的卷积神经网络表现出色，原因就在于它们几乎不怎么移动内存，而是专注于大量计算，这意味着这类设备需要强大的浮点运算能力，而内存带宽则没那么重要。当发展到大规模密集计算、大矩阵运算阶段，就到了当下神经网络的发展方向，但此时仍保留着循环机制的特点，需要关注之前的状态。不过由于循环的特性，计算的内存复用率极低。

而 Transformer 架构，先是通过大矩阵将前一层的输入信息进行转化，再通过注意力机制实现跨时间或空间的信息关联。我认为这是处理信息最根本的两种方式：一是让信息之间建立关联，或对信息进行转化；

二是让信息与关联较远的其他信息建立联系，也就是挖掘长期关联，并基于已有信息进行转化。

主持人：你认为这一发展进程正在放缓，对吧？你的博文中有一句非常引人注目的话，称 “图形处理器的发展将不再有实质性突破”，这是核心观点，能说说原因吗？

蒂姆・德特默斯：这个观点包含两层含义，首先是一个非常根本的物理问题，也就是我刚才提到的内存转移和计算的关系。

计算要产生价值，就必须将内存数据转移到进行计算的本地区域，这其实是一个几何问题。你需要一个大容量的信息存储区，然后将其中的信息转移到计算区域。而我们已经找到了实现这一过程的最优物理方式：配备大容量但速度较慢的动态随机存取存储器，再将数据转移到高速缓存中。

从几何结构来看，这是实现高速运算的最优解，针对特定规模的计算任务，这种架构的效率是最高的。如果是矩阵乘法这类不同规模的计算任务，就需要使用图形处理器而非中央处理器，因为图形处理器虽然延迟更高，但吞吐量更大，能传输更多数据，只是速度稍慢。我们可以对缓存的结构、大小，以及核心的共享方式做一些微调，但归根结底，核心的问题始终存在 —— 这是一个几何难题，空间的利用方式是有限的，这就决定了数据的访问模式和延迟始终存在固定的限制，其中最大的延迟来自大容量的动态随机存取存储器，这也是主要的性能瓶颈。这一瓶颈也被称为 冯・诺依曼瓶颈，几乎所有计算机都受此限制，具体来说，就是需要将程序传输到执行区域才能运行。对于神经网络而言，就是要将权重和输入数据传输到张量核心这一执行单元。

想要绕开这一瓶颈的方法寥寥无几，唯一的途径是进行本地内存存储和本地计算，市面上也有一些处理器尝试实现这一点，比如存算一体处理器，能在很大程度上在芯片内部解决冯・诺依曼瓶颈问题，但这类处理器仍需要从外部向芯片内传输数据，这就使得冯・诺依曼瓶颈从芯片内部转移到了存储设备或网络层面，问题只是发生了转移，本质并未改变。你仍需要通过网络将存储在磁盘或内存中的程序加载到芯片中，这还是同一个物理问题，只是调整了几个变量而已。这是问题的第一个层面，目前还没有能解决这一问题的架构。

第二个层面，也是我的核心观点所在：想要突破瓶颈，需要依靠新技术，但当新技术的潜力被充分挖掘后，又需要新的技术实现进一步突破。

比如，我们从动态随机存取存储器发展到了高带宽存储器，也就是堆叠式的动态随机存取存储器，速度大幅提升，但这种存储器的堆叠层数有限，因为其制造和测试的难度极高，良品率很低。到 2026 年，高带宽存储器的产能将会不足，无法实现规模化生产，因为制造难度实在太大。我们已经见证了诸多技术创新，张量核心的出现是一大突破，8 位精度、4 位精度的量化技术也相继落地，我和其他研究者的研究都表明，这些技术在信息论层面和实际应用中都是接近最优的。

如果基于足够多的数据进行训练，4 位精度是不够的，实际需要 8 位精度，这意味着量化技术已经发展到了极限。硬件的潜力也被挖掘殆尽，目前没有新的技术可以突破，我们能做的只是优化制造工艺，降低成本，却无法提升速度。各项功能的开发也已到极致，稀疏化技术是很多人尝试的方向，这一研究已经持续了 50 年，我自己也做过相关尝试，这或许是最后一个可探索的方向，但 4 位精度的量化技术已经意味着量化领域的发展走到了尽头。

简单来说 ，功能和硬件都已被开发到极限，这就是我们当下的处境。

主持人：太有意思了。丹，你对这些观点有什么看法？

丹・傅：我非常认可蒂姆的这篇博文，因为当下有不少关于通用人工智能的讨论，只是简单地按照指数增长的趋势去推演，认为到某个时间点，人工智能会发展到掌控整个宇宙的程度，我一直觉得这种思考方式有些片面。我认同蒂姆从实际物理限制角度出发的分析，正如他所说，这些都是依赖物理输入、进行实际物理计算的系统。

我的观点是，看看当下的系统和我们训练的模型，我们甚至连上一代硬件的潜力都远未充分挖掘，更不用说新推出的硬件了。

从技术层面，我在博文中主要提出了两个核心观点：

第一，看看当下那些表现出色的模型，我在博文中主要以开源模型为例，因为开源领域会更多地披露模型的训练过程和所耗资源，而开放人工智能和思存人工智能等公司并未公开相关数据。

以 DeepSeek 模型为例，这是目前最优秀的开源模型之一，它在 2024 年底完成训练，使用的是上一代的英伟达 H800 GPU，这款显卡因出口限制做了性能阉割，并非原版 H100。根据公开报告，该模型的训练使用了约 2000 块 H800 显卡，耗时约一个月。计算一下实际的算力利用情况会发现，芯片的有效利用率仅约 20%，行业内将这一指标称为模型浮点运算利用率。而在 21 世纪 20 年代初，我们在旧硬件上训练不同架构的模型时，轻松就能实现 50% 甚至 60% 的模型浮点运算利用率。如果能将这一指标提升，再加上我的好友崔最近发布了一系列能优化模型训练的新内核，单是这一项优化，就能让算力利用率提升 3 倍。

第二，需要意识到的是，这款 2024 年年中开始训练的 DeepSeek 模型，在 2026 年初仍是众多优秀开源或类开源模型的基础。而从那之后，我们已经搭建了全新的算力集群，搭载了当下最新的硬件，比如英伟达的布莱克韦尔系列显卡。普尔赛德、瑞弗莱克申等公司都在搭建包含数万个 B200、GB200 芯片的算力集群。

对比来看，新一代硬件即便保持和之前相同的精度、相同的配置，运算速度也能提升 2 至 3 倍，算力集群的规模更是扩大了 10 倍，再加上 3 倍的纯技术优化空间，整体的可用算力能提升 3×3×10，也就是 90 倍。这还没有考虑未来的算力集群建设，只是当下已经落地、有人正在用于模型训练的集群。

我的核心观点是，单从这些基础的硬件条件来看，就能发现可用算力相比我们当下所依赖的模型，还有多达两个数量级的提升空间，也就是 100 倍。 当然，我们可以争论算力规模扩大是否会带来收益递减，缩放曲线是否依然有效，但现实的算力潜力就摆在眼前。

这还没考虑蒂姆提到的那些点，比如目前的训练大多采用 8 位精度，而 4 位精度的训练方法才刚刚开始形成相关研究成果；GB200 芯片有 72 个连接速度极快的核心，而我们甚至还没看到基于这款芯片训练的首个预训练模型。开放人工智能的报告中提到，GPT-5.2 是首个基于 H100、H200 和 GP200 芯片训练的模型，这在我看来，意味着它的预训练其实是在老旧的算力集群上完成的，只是在新的 GP200 芯片上进行了一些微调。

主持人：你提到，不仅硬件的利用率不足，模型本身也是硬件发展的滞后指标，对吧？

丹・傅：没错。我们当下能使用、能体验到的模型，都是在一两年前搭建的算力集群上完成预训练的。

因为搭建一个算力集群需要时间，完成大规模的预训练需要时间，后续的微调、人类反馈强化学习等后训练环节也需要时间。所以我们当下所看到的、用来衡量模型质量的这些模型，其实都是在一年半前的硬件上训练的。而在这之后，我们已经搭建了规模大得多的算力集群，不难想象，这些集群会被用于训练新一代模型。

也就是说，我们当下所依赖的优质模型，训练所使用的硬件其实已经相当老旧，而我们拥有了新一代的硬件、更多的软件优化方案，更不用说架构层面的创新了。

蒂姆刚才提到，处理数据的核心是先转移、再计算，而变形金刚架构其实一直在发展，只是在研究者看来，发展速度稍慢。但我们能看到，计算的核心方式已经在发生变化，哪怕再找到 1.5 倍或 2 倍的优化空间，整体的可用算力就能达到 100 甚至 150 倍。所以当下还有大量的算力潜力可以挖掘，用来训练更优质的模型。

预训练是综合训练，后训练是专项训练

主持人：我理解这场讨论的核心是预训练，也就是我们能否用更多的数据和算力训练出更大的模型。但在本播客之前的对话中，很多人都强调后训练的重要性，以及构建结合预训练和强化学习的人工智能系统的意义。这一点在当下的讨论中该如何定位？

丹・傅：这是个非常好的问题，我和蒂姆的博文其实都没有重点探讨这一点。我喜欢这样比喻，预训练就像是在健身房进行的综合力量训练，通过大重量训练提升整体的力量和能力；而后训练就像是针对特定项目的专项训练，让你在具体任务上表现更出色。

从算力消耗来看，历史上预训练消耗的算力占绝对主导，其目的是打造具备通用能力的模型，让模型掌握大量知识，能完成多种任务，甚至拥有比普通人更多的知识储备，比如我自己的知识量肯定比不上聊天生成预训练转换器。

而后训练的作用，一方面是让模型变得更实用，比如聊天生成预训练转换器，能理解用户的需求，并尽力完成任务；另一方面，我们也发现，后训练正越来越多地被用于培养模型的特定技能。比如擅长辅助编程的模型，虽然依托于预训练积累的大量知识，但正是通过后训练，才让它在编程领域具备了出色的能力；同理，擅长法律工作的模型，也是在预训练的基础上，通过后训练实现了专业领域的优化。

从纯计算的角度来看，预训练的算力消耗通常远大于后训练。 后训练的工作，我虽然不是这方面的专家，但感觉更多地像是如何打造一款实用的产品，如何获取用户反馈，诸如此类。

当然，也有一种可能是，下一代预训练模型的基础能力已经足够强大，只要针对经济领域的各个垂直赛道进行后训练，就能打造出极具实用性的模型。所以这也是计算领域的另一个重要维度，或许我们根本不需要那 100 倍的额外算力，更多的是需要像培养人类一样，深入理解问题，找到合适的训练方法 —— 就像你如何培养一名实习生完成特定任务，如何让一个能力强大的预训练模型发挥出实际价值，这正是后训练要解决的问题。

主持人：二位都提到了 “实用性” 这个概念，这或许是你们观点的交汇点。通用人工智能的定义众说纷纭，但最终的关键还是看它在产业中的实际实用性。所以即便由于收益递减，我们无法实现那个大家都无法准确定义的、理想化的通用人工智能，也无关紧要，因为我们还有巨大的潜力可以挖掘，足以让人工智能在整个经济领域发挥真正的价值，而不仅限于编程领域。

蒂姆・德特默斯：没错。我那篇博文的核心结论正是如此，我们不必过分纠结于通用人工智能的定义，更应该思考如何让人工智能发挥最大的实用价值，而这不仅关乎模型本身，丹刚才提到后训练是产品化的过程，这一点很重要。计算机的发展历程告诉我们，技术在经济中的普及需要一种截然不同的思维模式。

美国的思维模式往往是 “打造出最优的模型，自然会有人使用”，而中国的思维模式则更注重务实，思考如何让技术惠及更多人。我认为这种务实的思维模式至关重要。谈及实用性，一方面是模型的能力，另一方面就是这种发展思维。

我相信我和丹，以及大多数人都会认同一个观点：如果一个人工智能能完成数学奥林匹克竞赛这类高难度任务，却无法解决任何实际问题，那它算不上通用人工智能。而当下的模型已经具备了实用性，所以不会出现那种 “有能力却无用处” 的情况。

我们真正追求的，是实用性极强的模型，而这样的模型我们已经拥有，并且还能不断优化。我认为按照某些定义，我们或许无法实现通用人工智能，但人工智能必将产生巨大的社会影响。

丹・傅：我想补充一点，蒂姆你提到了经济领域的物理性工作和知识性工作的划分，美中两国在这方面的差异非常有意思。

最近有一本丹・王写的书很火，探讨了制造型经济、工程型经济与偏法务型经济的区别。美国有大量优秀的知识性工作有待人工智能去赋能，而从经济的实际产业结构来看，医疗、教育占了很大比重，科技领域虽然也是重要组成部分，引领着股市的走向，但还有更多领域等待挖掘。

现在有很多优秀的研究者正在尝试用新一代模型研发新药、推动医疗领域的实际变革；如果机器人技术能实现突破，助力完成一些体力劳动 —— 未必是建造房屋这类重活，而是日常的家务劳动，那将挖掘出经济领域的巨大潜力。这些方向的发展已经能看到初步的成果，自动驾驶的发展历程对我很有启发。

在我读博初期，大概 2018、2019 年，我对自动驾驶持非常怀疑的态度，当时大家总说自动驾驶 “再有一两年就能实现”，专家则说 “五年内有望落地”。但去年我乘坐了威莫的自动驾驶车辆，如今在加州湾区，我甚至能使用威莫的高速自动驾驶服务。理论上，我现在甚至可以卖掉自己的车 —— 当然我不会这么做，因为我个人喜欢开车。

但技术的进步就是这样，在这之前一直毫无起色，突然有一天就实现了突破，你会发现它不仅表现出色，甚至比优步、出租车这类人工服务还要好。如果人工智能在家庭清洁、洗碗这类家务劳动上也实现这样的突破，那将是非常令人振奋的，也会彻底改变人们的看法。我自己并非机器人领域的研究者，但一直密切关注着这个领域的发展。

多硬件、多芯片的未来方向

主持人：丹，借着这个话题，我想问问，从你的观察来看，人工智能领域是否会朝着多硬件、多芯片的方向发展？显然英伟达的发展势头迅猛，还有赛博拉斯等公司，以及众多从底层技术切入的专用集成电路企业。从你深耕底层技术的视角，你怎么看这一趋势？

丹・傅：这是个很棒的问题，我在实验室的工作中会花大量时间思考这个问题，产业界的工作中也会密切关注。当下正处于一个非常令人振奋的阶段：英伟达的芯片性能强劲、稳定性高，围绕其构建的软件生态也非常完善；而 AMD 的芯片也开始展现出同样的潜力，相关的研究也在推进。

比如在实验室，我的好友西姆龙・奥罗拉主导开发了一个名为希普基滕斯的库，核心就是探索如何设计合适的软件抽象层，实现 AMD GPU 的编程。研究发现，AMD GPU 和英伟达 GPU 的软件抽象层存在明显差异，即便这两款 GPU 的参数规格相对接近 —— 更不用说和格罗克、赛博拉斯、萨博诺瓦等公司的芯片相比了，它们的编程方式也截然不同。

现在越来越多的人开始关注这一领域，投入时间和精力进行研究。英伟达收购了格罗克，当下张量处理单元也备受关注，赛博拉斯和开放人工智能也刚宣布达成合作。所以未来必然会涌现出更多的硬件方案，英伟达无疑会继续保持良好的发展态势，甚至在本期节目录制时，其市值已经突破 5 万亿美元，但硬件领域的多样性会大幅提升，尤其是在模型推理层面。

训练和推理是两种截然不同的计算过程，因此需要的芯片也大相径庭。在推理层面，模型可能需要在手机、笔记本电脑等本地设备上运行。 我的手机是一款几年前的苹果手机，但其运算能力已经超过了我读博初期使用的一些 GPU，硬件算力的增长速度令人惊叹。

2025 年 6 月是 Agent 的拐点

主持人：丹，你刚才提到自动驾驶实现突破的那个节点，Agent 的发展是否也已经到了这样的时刻？你还提到过 “软件奇点”，我们当下是否正处于 Agent 发展的关键突破点？

丹・傅：我认为是的。就我个人的经历而言，这个突破点出现在 2025 年 6 月左右。

给大家做个背景介绍，我在合聚人工智能的日常工作就是编写这些 GPU 内核，在机器学习领域，GPU 内核的编程被认为是最难掌握的技能之一，它需要高度的并行化设计，使用的是 C++ 这种资深工程师使用了数十年的老牌语言，而非 Python 这类易用的语言。招聘能编写 GPU 内核的工程师难度极大，这是一项极具挑战性的技能，无疑是编程能力的顶尖体现。

而 2025 年 6 月，我们有了一个非常有趣的发现：云代码、库尔索 Agent 这类代码 Agent，在编写 GPU 内核方面的表现非常出色。那一周，我完成了三四个原本各自需要一周时间才能完成的功能开发，全部工作一天就搞定了。 当时我就意识到，这个工具让我这个内核领域的专家，工作效率提升了 5 倍。

我让团队都开始使用这个工具，现在团队借助它搭建了许多复杂的系统，能快速完成原本需要整个团队耗时数月才能实现的功能开发。而 GPU 内核编程，正是编程领域最难的 “终极挑战”，所以在我们看来，代码 Agent，尤其是在高难度的 GPU 内核编程领域，已经实现了关键性的突破。

几个月前，我在斯拉什大会上做了一场演讲，提出了 “软件奇点” 的概念，核心就是意识到在软件工程领域，即便是这类非常小众的高难度技能，人工智能的表现也已经超越了普通程序员，甚至能为资深程序员带来效率的大幅提升。就本期节目录制的当下而言，让 Agent 独立完成开发，可能还无法产出完美的结果，但如果资深程序员借助这些工具，工作效率能提升 10 倍，这是一个非常令人振奋的发展阶段。

要么善用 Agent，要么被时代淘汰。

主持人：聊到 Agent，蒂姆，你最近还发表了一篇精彩的博文，标题是《要么善用 Agent，要么被时代淘汰》，其中探讨了代码 Agent 和适用于其他各类任务的 Agent。从代码 Agent 的出色表现，到 Agent 在日常生活各领域发挥实用价值，这一发展进程当下处于什么阶段？

蒂姆・德特默斯：我写这篇博文，也是因为发现使用代码 Agent 能为各类任务带来巨大的生产效率提升。作为一名教授，我平时的编程工作并不多，但借助代码 Agent，编程变得前所未有的轻松，这在以往是难以想象的。

当然，Agent 在非编程任务上的表现也同样出色。从我自身的体验来看，生产效率的提升幅度不一，有时是两三倍，有时甚至能达到 10 倍，而且工作质量没有下降，甚至有时还能提升。Agent 的能力或许未必比我强，但它不会疲惫，不会犯低级错误，也不会在整合复杂信息时出现认知上的困难 —— 这和丹刚才提到的 GPU 内核编程的情况是一样的。

我认为马特你将其分为代码 Agent 和通用 Agent，但在我看来，代码 Agent 本身就是通用 Agent。代码 Agent 能编写程序解决各类问题，而代码的通用性极强，任何数字化的问题都能通过代码解决。代码 Agent 让解决问题的过程变得无比轻松，让我们能以以往无法想象的方式和速度解决各类问题，实现多任务并行处理。Agent 不会疲惫，可以持续工作，让工作变得轻松很多。

我的博文中有一个观点我自己很认同，开篇我先区分了炒作和现实，而后基于自己在直播中测试 Agent 的实际体验得出结论 ：超过 90% 的代码和文本都应该由 Agent 来生成，不这么做，就会被时代淘汰。 我想对于很多工程师来说，这一点已经成为现实。

有些人认为，Agent 生成的代码和文本质量一定低下，但关键在于，你需要对 Agent 的输出进行检查和编辑。你所做的这 10% 的工作，能带来巨大的改变。通过这种对输出内容的检查、编辑和优化，让成果成为属于自己的作品。

人工智能生成的内容，并不比你自己写的内容缺乏个性。比如我借助 Agent 撰写科研基金申请，成品会让我觉得充满生命力，能感受到其中的吸引力，相信评审人看到后会觉得 “这是一项优秀的研究，值得资助”。现实就是如此，如果你只是让 Agent 生成内容，不做任何检查就直接使用，那肯定无法达到预期效果；但如果你能快速审核内容、调整优化，发现不妥之处并进行修改，最终就能得到优质的成果，这会成为未来的常态。

而适应这种工作方式所需的技能，大多数人还未完全掌握，我自己也在学习中，目前仍处于探索阶段。 模型在更新，框架在迭代，我们需要不断适应、持续学习，虽然要学的东西很多，但一旦掌握，带来的回报是巨大的。

曾经有人认为软件工程师会因此消失，但现在大家都不再这么想了。Agent 极大地提升了生产效率，而掌握使用 Agent 的能力，正是当下最需要学习的技能。善用 Agent，能让你完成更多工作，这是核心所在。如果不懂得如何有效使用 Agent，你就会被淘汰，这将成为一项必备的核心技能。

蒂姆・德特默斯：我认为最关键的是保持务实，思考需要解决的问题，并尝试用代码实现。

当然，对于非程序员来说，编程本身就有很高的门槛，会觉得 “我从没写过代码，根本做不到”。但如果和 Agent 互动，它能直接帮你搭建程序，你只需要进行少量的学习 —— Agent 还会为你讲解相关知识，很快就能上手，实现程序的运行、网站的搭建等，还能快速获得反馈，现在做这些事情已经不再困难。

当然，我之前提到过需要检查 Agent 的输出，但如果你只是为自己搭建一些简单的工具提升工作效率，其实往往不需要这么做，Agent 生成的代码质量已经足够高。如果是在公司工作，需要将代码整合到正式的代码库中，那肯定需要进行审核；但如果只是搭建个人使用的小程序，提升自己的工作效率，那非常容易。

举个随机的例子，我会录制自己和 Agent 互动的视频，视频中会有我讲解的片段，也有我查看输出、思考分析的片段。我借助 Agent 搭建了一个工具，它能识别语音，记录我说话的时间戳，然后对视频进行剪辑，只保留我讲解的部分，去掉无意义的片段。这个工具我只用了 20 分钟就搭建好了，我相信所有人都能做到，因为我甚至没有检查 Agent 生成的代码，直接使用后，剪辑出的视频效果非常好。

只要建立起 “提出需求 — Agent 生成 — 获得反馈” 的循环，你根本不需要自己编程，只需要学会检查输出内容，或者掌握 Python 程序、bash 脚本的基本运行方法，就能实现工作的自动化。

主持人：那该如何选择要自动化的工作呢？该从哪些角度思考生活中的自动化需求？

蒂姆・德特默斯：我在博文中也探讨过这个问题，其实可以分为 直觉层面和精细化分析层面。

直觉层面很简单，就是思考哪些工作自动化后会带来便利，哪怕是一些复杂的需求，比如 “我想要一个能实现某某功能的安卓或苹果应用”，一开始你可能觉得这很难，但只要向 Agent 提出需求，它能立刻实现。你可以充分发挥想象力，打造任何自己想要的工具，那些以往没人开发、自己又迫切需要的产品，现在都能借助 Agent 实现。

这种思维方式能让你打造出实用的工具，提升生产效率，同时也能锻炼你使用 Agent 的能力。当然，有时尝试后可能会失败，这时你会明白 Agent 的局限性，以及自己还需要学习哪些知识才能解决问题。

这是直觉层面的方法，能让你快速入门，从最初的兴奋，到面对现实的冷静，再到继续尝试，最终会发现自己的生产效率在一天天提升。

而精细化分析层面的方法，来自我在德国自动化行业三年的工作经历，当时主要负责工厂的自动化改造，这是一种非常严谨的计算方法：先梳理自己的工作流程，为每个步骤计时，然后分析如果将某个步骤自动化，能带来多少收益、节省多少时间，再计算开发这个自动化工具需要投入多少时间，通过这种成本收益分析，快速判断哪些工作的自动化改造是有价值的。

我的博文中提到，邮件的自动化处理效果并不好，还有一些事情也是如此，比如创建会议日历邀请，没人喜欢做这件事，但仔细想想，人们对会议的安排有很多个性化的需求，比如某天想多安排会议，某天想把会议安排在午饭前，这些需求 Agent 无法感知。即便你向 Agent 详细说明这些需求，它生成的日历邀请也未必能符合预期，最终的效率提升其实非常有限。

通过这种精细化的分析，能让我们避开这些无意义的尝试，找到真正能通过自动化提升效率的工作。

主持人：丹，从你的角度来看，在 Agent 的应用中，哪些方法是有效的，哪些目前还不成熟但未来有望实现，又该如何管理 Agent？

丹・傅：我发现 Agent 的有效应用，主要有两个核心要点。

第一，让 Agent 发挥效用的方式，和管理团队中的初级员工、公司里的实习生非常相似。 比如，你不会对一个刚来的实习生说 “去把公司的营收提升一倍”，或许你会尝试一次，但显然不可能得到想要的结果。相反，你会给实习生安排一些简单的入门任务，让他们熟悉复杂的代码库，并告诉他们可能会遇到的问题 —— 因为你自己有过相关的经历。当你给 Agent 提供这样的背景信息，让它能接触到相关的资料，它通常就能顺利完成任务。

另外，对待新员工，你不会直接把生产环境的所有权限、数据库信息都交给他们，而是会给他们足够的工具，让他们能开展工作。对待 Agent 也是如此，有些人会担心 Agent 误删生产环境的所有数据，于是对其处处限制，每一步都进行监控，但如果用这种方式对待人类员工，他们根本不可能高效工作。这是一个很重要的点，当下的 Agent，至少可以把它当作实习生或初级员工来对待。

第二，我发现一个非常有趣的现象，尤其是从教授的教育视角，思考如何培养学生适应这个 Agent 成为工作核心的未来，那就是：一个人的专业知识越扎实，比如蒂姆在流程自动化领域的专业积累，或是我在 GPU 内核编程领域的深耕，Agent 能为其带来的能力提升就越大。

因为专业知识扎实的人，能在更高的抽象层面开展工作，知道工作的核心要点、方向，了解常见的问题和陷阱，知道哪些事情容易实现、哪些事情有难度，知道如何将复杂任务拆解为多个步骤。

之前有一段时间，大家一直在讨论 Agent 是否会取代所有软件工程师，或者取代所有初级员工，而从当下的发展来看，显然不会出现这种情况。 如果一个工具能让我的团队工作效率提升 10 倍，我不会解雇 90% 的员工，而是会让他们去完成更有价值的工作，实现 100 倍的效率提升。这是一方面。

另一方面，成为某个领域专家的路径，其实和以往并没有太大区别：你需要深入学习、深入理解相关知识，需要亲手实践、真正解决问题。在当下这个时代，聊天生成预训练转换器能教你很多东西，我自己就尝试过让它教我汽车的各类工作原理，虽然目前效果还一般，但不可否认，现在学习知识的难度比以往低了很多，哪怕是两三年前，都没有这么便捷的学习方式。

所以总结来说，对待 Agent，要像扮演管理者的角色，帮助它解决遇到的问题，不能只是把问题丢给它就撒手不管；同时，你需要不断提升自己，成为更优秀的 “管理者”，积累更多的领域知识，更深入地理解工作内容。

主持人：也就是说，成为专家、持续学习的需求并没有改变，这一点很有意思，也很有道理。但有一个问题，如果一名年轻的内核工程师第一天入职，以往的培养方式是先安排简单的任务，第二年再安排更复杂的工作，那在 Agent 时代，这种实操性的职场培训该如何开展？

丹・傅：我们在合聚人工智能也一直在思考这个问题，即便在模型和 Agent 如此强大的当下，我们仍在积极招聘人才。

我们的做法是：首先，我以教授的身份，录制了一系列关于 GPU 工作原理的课程，要求所有新员工都必须学习；然后，我会给他们布置一个从零开始的任务，比如修改快速注意力机制的内核，实现某个新功能，具体的功能可以由他们自己选择。Agent 的优势在于，能让新员工更快地参与到高价值的工作中。

对于一名初级工程师来说，第一次尝试管理他人是非常有意义的经历，因为这会让他们开始用更精准的语言思考问题。比如，软件工程师常会遇到这种情况：产品经理给出一个需求，写了长长的需求文档，但当你让别人去实现这个需求时，才会发现描述一个功能需要多么精准的表达。

而 Agent 的出现，让这一过程得以简化，初级工程师不需要真正成为管理者，依然可以作为工程师开展工作，但能以管理者的思维方式，甚至产品经理的视角来思考问题。因为和 Agent 沟通时，你必须精准地描述自己的需求。我发现，团队中那些刚从大学或硕士毕业的年轻员工，只要积极学习和使用人工智能 Agent，他们的沟通能力会比以往的工程师强很多，对知识的理解和掌握速度也会大幅提升，并且能以以往 5 到 10 年都难以想象的速度搭建工具、完成工作。

蒂姆・德特默斯：我从教育的角度补充一点，这一点其实和丹的观点形成了一定的对比，也很有意思。我一直强调 “要么善用 Agent，要么被时代淘汰”，这一点对学生也同样适用，但正如丹所说，使用 Agent 的前提是具备一定的领域知识。

我们发现，如果允许学生使用 Agent，他们的学习效率会非常高，但有时他们借助 Agent 完成的解决方案，表面上看起来没问题，实际上却漏洞百出，而学生自己却意识不到。

当下我们正面临一个困境：很难同时培养学生的领域知识和 Agent 使用能力，这两者的平衡很难把握。 我们既不想培养出对知识一知半解的学生，也希望学生能掌握 Agent 的使用方法，否则他们进入职场后将无法胜任工作。

丹提到，具备扎实知识基础的人，借助 Agent 能实现能力的飞跃，但对于刚开始学习计算机科学的学生来说，该让他们学习多少专业知识，又该让他们在多大程度上借助 Agent 完成工作，这是一个非常棘手的问题，目前还没有完美的解决方案。

如果让学生过度依赖 Agent，他们的基础知识点掌握会非常薄弱；如果让学生完全靠自己完成所有学习任务，不使用 Agent，他们又无法掌握这项核心技能，进入职场后缺乏竞争力。

或许一个解决方案是：先让学生扎实掌握基础知识，再学习使用 Agent。但学生并不会这样做，他们能轻易接触到这些人工智能工具，并且会因为其便捷性而频繁使用。

所以或许真正的解决之道，是培养学生一种全新的信息处理和知识学习的思维方式，这种能力甚至超越了批判性思维 —— 学生需要学会识别自己不知道的未知事物，也就是那些自己没有考虑到、不理解，甚至从未想过的问题。只有具备这种能力，才能跟上 Agent 的发展步伐。因为在未来，我们很可能会面对自己无法理解的问题，而 Agent 却能理解，我们需要找到一种方式，跟上 Agent 的节奏，这无疑是一大挑战。

小模型是未来趋势

主持人：二位对 2026 年人工智能的发展有哪些具体的期待？认为哪些趋势会成为现实，哪些则不会？

蒂姆・德特默斯：我觉得自己的看法比较矛盾，一方面，我认为很多领域的发展会趋于平淡，不会有太多创新；另一方面，又会有一些意想不到的突破出现。而在前沿模型领域，我认为不会有太多惊喜。

当下一个公开的事实是，预训练数据已经耗尽，正如丹所说，我们可以通过合成数据来弥补这一缺口，代码 Agent 的训练，就是在各类环境中生成大量合成数据，并进行数据融合，我们在这方面会取得一些进展，但整体来看，机器学习领域的发展已经显现出疲态。

我认为代码 Agent 的性能不会有太大提升，主要的进步会体现在用户体验的优化上。 当下各款模型的性能已经趋于同质化，比如我使用 GLM-4.7 的配置时，一度以为自己用的是 Opus 4.5，后来才发现是不同的模型，因为它们的表现实在太相似了。

所以 前沿模型的性能发展会陷入停滞，而小模型领域则会迎来快速发展。 如果针对特定的专业数据训练小模型，其性能会非常出色，而且小模型的部署难度低，能力却不容小觑。

比如 1000 亿参数的模型，能轻松实现部署，即便是 RTX 6000 这类售价 6000 美元的入门级数据中心 GPU，也能胜任。我认为对于很多企业来说，这会是一个极具吸引力的选择，它们不再需要依赖前沿的大模型，定制化的小模型甚至能表现出更优的性能，因为其针对特定领域做了优化。

当下存在一个很大的问题，正如 Anthropic 首席执行官所指出的，市面上有很多性能强大的开源模型，但实际使用的人却很少，原因就在于 部署难度极高。一旦模型的部署需要超过 8 块 GPU，不仅需要用户进行大量的效率优化，还涉及复杂的系统工程问题，而目前还没有能实现这一功能的开源系统，需要实现推理任务的解耦、跨序列长度的拆分等技术。或许我们能为异构 GPU 设备、小模型打造这样的部署系统，届时 1000 亿参数模型的运行效率，将能媲美当下的前沿大模型。

小模型兼具效率和灵活性的优势，再加上能通过大模型的知识蒸馏实现性能提升，这些因素结合起来，将彻底改变人工智能的发展格局。

丹・傅：我也对小模型的发展充满期待，认为它们会释放出更多的能力。

我会密切关注开源模型的发展，GLM-4.7 的出现，已经让开源模型的性能开始媲美当下最优秀的前沿模型，我认为 2026 年开源模型的能力会实现又一次大的飞跃。

我也非常期待新硬件的推出，目前已经有一些关于英伟达下一代 NVIDIA Rubin GPU、AMD 400 系列显卡的消息，即便我们还未充分挖掘当下硬件的潜力，我也很想看看下一代硬件能带来怎样的性能突破。

此外，我还期待多模态领域的发展，去年视频生成模型迎来了发展的小高峰，比如 Sora 2、Gemini、Veo 等模型都表现出色，我很想看看它们后续的发展。

最后，我也期待能看到，在笔记本电脑、手机这类终端设备上，人工智能的智能水平能达到怎样的高度， 能被推进到什么程度。我想说，当下投身人工智能领域，恰逢最激动人心的时刻。

主持人：二位早些时候提到了状态空间架构（SSM），你们认为这会是人工智能的近期发展方向吗？也就是说，我们会逐渐走出 Transformer 架构的时代，向状态空间模型、世界模型等新架构发展吗？这是否是你认为值得期待且势在必行的发展趋势？

丹・傅：我认为在很多领域，新架构已经落地应用了。比如当下全球最优秀的一些音频模型，就部分基于状态空间模型打造。英伟达最近也发布了多款优秀的混合架构模型，比如神经变形金刚，就是其中的代表。

所以相关的研究已经取得了很多不错的成果，架构的进化还会继续。比如 DeepSeek 的模型压缩技术，就借鉴了状态空间模型的一些理念；MiniMax 的一款模型，则采用了线性注意力的思路。

所以未来人工智能的架构会变得更加多元，这一趋势已经显现。

而中国的实验室在这方面会有更多的探索和突破，因为中国并没有像开放人工智能那样，集产品、模型、营收于一体的巨头企业，也就没有统一的技术发展范式。所以中国的实验室会更敢于尝试，想要让自己的开源模型脱颖而出，架构创新就是一个重要的方向，当然，纯性能的提升也是一个途径。因此，未来人工智能的架构会迎来爆发式的创新。

参考链接：

https://www.youtube.com/watch?v=XCCkgRzth6Q、

8B 端侧写作智能体 AgentCPM-Report 开源，DeepResearch 终于本地化

作者: 纯情
时间: 2026-01-23
分类: 开源
评论

1 月 20 日，由清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 8B 端侧写作智能体 AgentCPM-Report 正式开源。

在当前深度研究场景中，企业与科研人员常面临两难抉择：依赖云端大模型虽能获得顶级调研能力，却需承担核心数据泄密风险；选择断网或本地小模型保障安全，又往往因性能局限导致报告逻辑浅薄、实用性不足。

为此，AgentCPM-Report 以端侧模型为核心，来实现本地化部署与 SOTA 性能的双重突破，力求无需昂贵算力集群，也无需上传任何信息，即可在本地构建专家级调研助手。

据悉，该智能体的核心亮点集中在两大维度。

第一，极致效能与“以小博大”的突破：通过平均 40 轮深度检索与近 100 轮思维链推演，AgentCPM-Report 以仅 8B 的参数规模，实现了对复杂信息的全方位挖掘与重组，能够产出逻辑严密、洞察深刻的万字长文，在深度调研任务上性能对标顶级闭源系统。

第二，物理隔绝的本地安全保障：专为高隐私场景设计，支持完全离线的敏捷部署，彻底杜绝云端泄密风险；依托开源的 UltraRAG 框架，可高效挂载并理解本地私有知识库，让核心机密数据在"不出域"的前提下，转化为高价值的专业决策报告。

在 DeepResearch Bench、Deep Consult、DeepResearch Gym 三大主流深度调研评测基准中，其综合评分达到甚至超越顶级闭源系统：在最考验核心能力的洞察性指标上排名第一，全面性指标位居第一梯队，仅次于基于 Claude 的复杂写作框架。其中在 DeepResearch Gym 评测中，AgentCPM-Report 以 98.48 的综合得分领跑，在深度、广度、洞察力等关键维度均斩获满分。

官方展示的实战场景中，该智能体可基于《三体》原文知识库，完成从线索挖掘、大纲规划到万字长文撰写的全流程，精准生成"面壁计划"深度调查报告。

部署便捷性方面，AgentCPM-Report 支持 Docker 一键启动，无需编写代码即可通过拖拽方式将 PDF、TXT 等本地文档导入后台，系统自动完成切片与向量化索引，用户输入研究课题后，即可生成结构化、带引用的专业报告，实现沉浸式深度调研体验。

技术层面，两大创新支撑其“以弱胜强”的表现：一是“写作即推理”模式，通过“起草-深化”两阶段循环与渐进式优化，将长篇写作拆解为微小目标，避免小模型逻辑崩塌；二是“多阶段智能体学习”，拆解智能检索、流畅写作、科学规划、精准决策四大核心能力，通过有监督微调、原子能力强化、全流程优化三阶段训练，实现端到端全链路能力提升。

目前，AgentCPM-Report 已在 GitHub、HuggingFace、ModelScope、GitCode、魔乐社区等多个平台开源，UltraRAG 框架也同步开放获取。

UltralRAG 框架开源地址：https://github.com/OpenBMB/UltraRAG

GitHub：https://github.com/OpenBMB/AgentCPM

HuggingFace：https://huggingface.co/openbmb/AgentCPM-Report

ModelScope：https://modelscope.cn/models/OpenBMB/AgentCPM-Report

GitCode：https://gitcode.com/OpenBMB/AgentCPM

魔乐社区：https://modelers.cn/models/OpenBMB/AgentCPM-Report

微软开源 VibeVoice-ASR 模型，支持一小时长音频处理；苹果首款 AI 设备：AirTag 尺寸胸针，双摄三麦丨日报

作者: 纯情
时间: 2026-01-23
分类: 开源
评论

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术

1、Microsoft 开源 VibeVoice-ASR 语音识别模型：支持 60 分钟单次长音频处理，集成 64K 上下文与热词自定义

Microsoft 发布「VibeVoice-ASR」语音识别模型，突破了传统 ASR 依赖短音频切片的限制，支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口，在单一推理过程中联合完成识别、说话人日志与时间戳生成。

60 分钟单次推理能力：放弃传统的短音频切片模式，避免了因切片导致的全局语义丢失和跨片段说话人追踪失败问题。
64K Token 级长上下文支持：利用超长上下文窗口，实现 ASR、Diarization（说话人日志）与 Timestamping（时间戳）的端到端联合输出，生成包含「Who， When， What」的结构化转录文本。
Customized Hotwords 动态引导：允许用户在识别时注入特定专有名词、技术术语或背景词汇，显著提升特定领域或低频词的识别准确率。
DER 与 cpWER 综合性能优化：通过联合训练，模型在说话人错误率和带时间戳的字错误率等指标上具备竞争优势。
标准化部署环境：支持 NVIDIA PyTorch Container（验证版本 24.07 至 25.12），核心计算依赖 Flash-Attention 以优化超长序列的推理效率。

已在 Hugging Face 开源并提供测试 Demo，采用 MIT 开源协议。

HuggingFace:
https://huggingface.co/microsoft/VibeVoice-ASR

GitHub:
https://github.com/microsoft/VibeVoice

( @GitHub)

2、FlashLabs 发布 Chroma 1.0：开源原生 Speech-to-Speech 模型，TTFT 降低至 135ms

FlashLabs 推出「Chroma 1.0」开源端到端的 Speech-to-Speech 大模型。该模型跳过了传统的语音识别（ASR）与合成（TTS）阶段，直接在音频 Token 维度完成推理，为开发者提供了一个可私有化部署的 OpenAI Realtime 模型替代方案。

原生端到端语音架构：弃用「ASR → LLM → TTS」的级联管道，采用单一闭环处理音频 Token。该架构原生支持全双工中断，并能完整保留对话中的语调、情感和节奏。
135ms 极低响应延迟：模型 TTFT（首字音频延迟）小于 150ms；在启用「SGLang」优化后，TTFT 进一步降低至 135ms，实时系数保持在 0.47–0.51 之间，推理速度达实时语速的 2 倍以上。
4B 参数量与高保真克隆：模型基于「Qwen 2.5-Omni-3B」与「Mimi」构建，仅需数秒音频样本即可实现高保真语音克隆。其相似度指标 SIM 达到 0.817，较人类基准（0.73）提升约 11%。
集成双层 RAG 架构：内置双层 RAG 机制，可直接挂载向量数据库与知识图谱，实现由智能体驱动的事实检索与语音生成分离，提升对话准确性。

模型权重（Chroma-4B）与推理代码已在 Hugging Face 和 GitHub 全面开源，支持通过 FlashAI 平台直接部署。

HuggingFace:
https://huggingface.co/FlashLabs/Chroma-4B

( @flashlabsdotai\@X)

3、Inworld AI 发布 TTS-1.5 语音模型：P90 延迟降至 130ms，推理成本仅为同类产品 1/25

「Inworld AI」正式推出 TTS-1.5 语音合成模型，旨在解决实时语音交互中的延迟与成本瓶颈。通过优化强化学习算法，该版本在显著提升表现力的同时，将 P90 延迟压缩至 250ms 以内，并实现了极低廉的定价策略，直接面向大规模商用语音智能体市场。

生产级实时延迟：TTS-1.5 Mini 模型的 P90 首包延迟低于 130ms，Max 模型低于 250ms，响应速度较前代提升约 4 倍，突破了人类自然对话约 300ms 的感知间隔。
稳定性与表现力优化：通过规模化强化学习训练，词错率降低 40%，大幅减少了长文本合成中的幻觉、断句和杂音；同时语音表现力提升 30%。
极具竞争力的定价结构：交互成本低至 0.5 美分/分钟，每百万字符定价为 $5-$10，对比行业头部方案（$120+/百万字符）成本降低逾 25 倍。
扩展功能与部署灵活性：支持 15 种语言（重点优化了印地语）；专业级声音克隆功能正式开放 API 调用；并为企业用户提供 On-prem（本地化）部署选项。
API 平滑迁移：现有开发者可通过更改 modelId 为 inworld-tts-1.5-mini 或 max 实现快速接入，已整合至 Voximplant 等第三方平台。

已正式上线，开发者可通过「Inworld AI」官网 API 或集成合作伙伴平台接入；提供开源/闭源方案及企业级私有化部署。

02 有亮点的产品

1、苹果首款 AI 穿戴设备曝光：AirTag 尺寸胸针，双摄、三麦克风

1 月 22 日消息，科技媒体 The Information 发布博文，报道称苹果正在研发一款尺寸类似 AirTag 的「AI 佩戴式胸针」，计划最早于 2027 年发布。

这款设备目前的开发代号尚未公开，但其形态被描述为「类似 AirTag 大小的圆形圆盘」。项目仍处于早期阶段且存在取消风险，不过消息称苹果工程师正全力推进，目标定于 2027 年推向市场。

在硬件规格方面，这款 AI 胸针混合铝合金与玻璃外壳材质，厚度略高于 AirTag。为了实现环境感知，该设备正面集成了两颗摄像头（标准镜头与广角镜头），不仅能拍摄照片，还能实时捕捉用户周边的视频信息。

设备内置了三个麦克风用于精准收音，配备了一个扬声器进行语音反馈，并在边缘设置了一枚实体按键，背部采用了与 Apple Watch 相似的磁吸感应充电接口。

（@IT 之家）

2、苹果首款 AI 智能家居中枢爆料：带屏幕、会转头，最早今春登场

科技媒体 The Information 今天发布博文，爆料称苹果计划最快今年春季发布新款智能家居中枢（Home Hub），采用「机器人旋转底座」设计，根据声音或动作让设备自动转向用户。

消息称这款智能家居中枢不仅配备了小型显示屏和高保真扬声器，更引入了具身智能的关键组件「机器人旋转底座」，让设备能够物理转动，改变传统智能音箱被动静止的交互模式。

尽管爆料未详细阐述旋转底座的技术原理，但科技媒体 MacRumors 认为其核心目的是实现「视觉追随」。结合苹果在传感器领域的布局，该设备预计将搭载阵列式传感器，用于精准识别用户在房间内的位置。

例如用户发出语音指令或移动后，底座驱动屏幕自动转向用户，不仅能提供更好的视频通话视角，还能通过物理动作模拟注视感，赋予 AI 助手一种「视觉人格」，从而提升交互的沉浸感与自然度。

发布日期方面，供应链消息指出，其上市时间窗口将与 iOS 26.4 的发布时间高度重合。硬件上的灵动转向配合软件上的更智能 Siri，苹果有望重新定义智能家居的控制中心。

（@IT 之家）

3、字节 AI 硬件传人事变动：Oladance 创始人李浩乾或离职，新一代耳机与眼镜曝光

据蓝鲸新闻消息，字节跳动 Flow 旗下 Ocean 团队核心骨干、原 Oladance 创始人李浩乾或将离职。知情人士透露，目前内部人事调整仍存变数，不排除转岗等可能。 李浩乾曾任职于 Bose 并带领研发 QC35，后于 2019 年创立 Oladance 主攻开放式耳机。2024 年中旬，字节跳动以约 5000 万美元全资收购 Oladance，李浩乾随团队加入字节，职级定为 5-1，负责代号为「D 线」的 AI 可穿戴设备业务。

在收购完成后，字节跳动迅速整合资源，于 2024 年 10 月推出了首款搭载豆包大模型的智能耳机 Ola Friend，预售价 1199 元。该产品深度集成了豆包的语音交互能力，并于 2025 年 5 月上线了 AI 外教智能体「Owen」，支持英语对话、双语点评及职场模拟等功能，试图通过垂直场景切入教育硬件市场。然而，有消息显示该产品后期的市场反响未达团队预期。

面对硬件赛道的挑战，字节跳动正在加速调整产品布局。供应链信息指出，字节正研发新一代豆包 AI 耳机，由歌尔股份专门设立事业群负责代工，产品核心思路将转向与手机的深度协同。此外，豆包 AI 眼镜（无屏版）预计将于 2026 年第一季度面世，首批规划量约 10 万台，将采用邀请制发售。

（@多知）

03 有态度的观点

1、马斯克喊话「不要让亲人用 ChatGPT」，奥特曼回应：超过 50 人死于 Autopilot

昨天，特斯拉 CEO 伊隆 · 马斯克在 X 转发一则帖子，直言「不要让你的亲人使用 ChatGPT」。该帖子声称 ChatGPT 自 2022 年发布以来，已与 9 起死亡案例相关联。

OpenAI CEO 山姆 · 奥特曼随后对此进行回应，强调 OpenAI 在保护脆弱用户与确保产品可用性之间面临艰难平衡。

他表示「我们需要保护脆弱用户，同时确保所有用户都能从工具中受益」，并指出马斯克此前曾抱怨 ChatGPT 的内容审核「过于严格」。

在回应中，奥特曼还回击了特斯拉汽车的 Autopilot 自动驾驶功能。

他表示，自己曾乘坐搭载该系统的车辆，「第一反应是这远不是特斯拉应该发布的安全产品」，并暗示马斯克旗下 xAI 的 Grok 在内容安全上也存在争议。

《商业内幕》报道指出，围绕 ChatGPT 的安全性，OpenAI 目前已面临至少 8 起与心理健康恶化、自杀或暴力事件相关的诉讼；

而特斯拉 Autopilot 也卷入多起致死事故诉讼，包括一起发生于 2019 年、最终由陪审团裁定特斯拉承担 33% 责任的案件。

这场公开争执发生在双方长期法律纠纷的背景下。马斯克此前起诉了奥特曼及 OpenAI 高层，指控其偏离最初的非营利使命，并称自己曾为 OpenAI 的早期发展投入 3800 万美元。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考

阶跃星辰开源多模态模型 Step3‑VL‑10B，小模型实现大模型能力；华为或将发布首款 AI 眼镜，支持同传拍照丨日报

作者: 纯情
时间: 2026-01-22
分类: 开源
评论

开发者朋友们大家好：

本期编辑：@瓒an、@鲍勃

01有话题的技术

1、阶跃星辰开源 Step3‑VL‑10B：10B 模型对标 200B 能力

昨天，阶跃星辰宣布正式开源旗下 10B 参数量多模态模型 Step3‑VL‑10B。该模型在多项核心基准测试中达到同规模 SOTA 水平，部分能力甚至超越 10–20 倍体量的大模型。

Step3‑VL‑10B 主打「小模型实现大模型能力」，在视觉感知、逻辑推理、数学竞赛题、多模态对话等任务中表现突出。

阶跃星辰称，Step3‑VL‑10B 的性能已接近甚至超越部分百亿级开源模型（如 GLM‑4.6V 106B‑A12B、Qwen3‑VL‑Thinking 235B‑A22B），并在部分场景中达到顶级闭源旗舰模型（如 Gemini 2.5 Pro、Seed‑1.5‑VL）水平。

官方强调，该模型的关键突破来自三项核心设计：

全参数端到端多模态联合预训练：在 1.2T 高质量多模态数据上训练，实现视觉与语言的深度对齐；
大规模多模态强化学习：经历超过 1,400 次迭代，使模型在识别、推理与对话能力上持续提升；
并行协调推理机制：通过并行探索与证据聚合提升复杂任务的准确度，尤其在数学推理、OCR、计数与空间拓扑任务中效果显著。

Step3‑VL‑10B 同时提供 SeRe（顺序推理）与 PaCoRe（并行推理）两种范式，覆盖 STEM 推理、OCR、GUI Grounding、空间理解与代码等多项能力维度。

当前，Step3‑VL‑10B 已开放 Base 与 Thinking 两个版本，社区可在 HuggingFace 与 ModelScope 获取模型并进行微调。

项目主页：
https://stepfun-ai.github.io/Step3-VL-10B/

Hugging Face:
https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope:
https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

论文链接：
https://arxiv.org/pdf/2601.09668

（@阶跃星辰、@APPSO）

2、showlab 开源 whisperVideo：集成 SAM3 与 TalkNet 实现长视频「音视对齐」的说话人转录

showlab 近期开源了名为 whisperVideo 的项目，专门致力于解决长视频场景下「谁在说话」的身份归属难题。该工具打破了传统方案仅依赖音频的局限，通过融合视听双重特征，实现了语音内容与画面特定人脸的精准对齐。

为了突破纯音频方案在多人混响或近距离交谈时常见的识别漂移问题，whisperVideo 构建了一套紧密的多模态级联架构。它集成了 WhisperX 负责语音转录、Pyannote.audio 处理声纹分离，并引入 SAM3 进行人脸分割以及 TalkNet 判定主动说话人。这种组合拳方式，确保了机器能像人类一样同时「听」和「看」，从而做出更准确的判断。

针对小时级素材中常见的跨场景挑战，工具特别引入了「长时身份一致性」机制。利用视觉嵌入与轨迹聚类技术，系统能在漫长的视频时间轴上记住每一张脸，确保同一说话人的 ID 在不同场景切换中始终保持稳定。

在工作流设计上，whisperVideo 追求全自动化体验。内置的 SceneDetect 能够自动进行场景切割与分段处理，无需人工干预即可完成时间戳、文本与视觉 ID 的三方对齐。最终生成的成果不仅包括带说话人 ID 的字幕，还支持可视化的面板模式，并将底层数据以。pckl 格式开放给开发者。

目前，项目已在 GitHub 开源，需使用 CUDA GPU 环境，依赖 HuggingFace Token 调用 Diarization 模型，支持 Python 命令行一键推理。

GitHub:
https://github.com/showlab/whisperVideo

( @aigclink\@X)

3、Bolna 获 630 万美元种子轮融资：自研 SLM 语音智能体，支持「印式英语」混说

总部位于班加罗尔的初创公司「Bolna」近日完成了由 General Catalyst 领投的 630 万美元种子轮融资。这家公司致力于通过自研的专用小模型（SLM）技术，打破多语言环境下的自动化通信瓶颈。

为了适应印度极其复杂的语言生态，Bolna 构建的语音智能体不仅将端到端响应延迟控制在 500 毫秒以内，更实现了深度的本地化适配。它能够流畅处理包括印地语、泰米尔语在内的 10 余种本土语言及 50 多种地区口音，甚至针对印度特有的语言混合现象，专门优化了对「印式英语（Hinglish）」的语义理解与生成能力。

在技术架构上，Bolna 摒弃了昂贵的通用大模型方案，转而采用针对事务性查询优化的 SLM 与智能路由架构。这种策略有效平衡了计算成本与响应速度，使其更适合大规模商业落地。配合其提供的无代码控制台，企业可自主设计并监控智能体。目前，该平台的日呼叫处理量已从 1,500 通激增至 20 万通以上，广泛应用于购物车挽回、货到付款确认及招聘筛选等场景。

平台现已正式上线，主要面向印度企业提供订阅制的自助服务。

( @AI Tech Suite)

02有亮点的产品

1、消息称华为首款 AI 眼镜将在上半年发布：搭载鸿蒙 OS，支持同传翻译与拍照

1 月 20 日多家媒体消息，华为的第一款「AI 眼镜」暂定在今年上半年推出，支持拍照和音频，鸿蒙系统 + 跨端无缝协同，同传翻译等功能。 AI 眼镜被誉为「下一代 AI 终端超级入口」，已然是大厂必争之地，百度、小米、阿里、理想等早已进场，并推出了 AI 拍照眼镜，字节也即将推出 AI 眼镜，作为国内消费类智能终端龙头的华为自然不会落后于人。

据 @数码闲聊站爆料，华为 AI 眼镜将采用鸿蒙 OS 系统与轻量化设计，内置 3 块锂电池，支持跨端无缝协同，进一步拓展使用场景。并提供流光银、钛银灰、摩登黑三款配色，支持拍照、拍视频、音频播放以及同声传译等功能。

虽然目前具体细节尚未公布，但结合华为在 AI 技术领域的探索，预计将内置华为 AI 助手小艺，产品可能涉及 AI 识物、智能场景推荐等功能。

经查询发现，华为曾推出带有音频功能的智能眼镜，主打听音乐、打电话、健康播报等。如今随着 AI 的兴起，智能眼镜行业也纷纷上马 AI，以及自带摄像头、显示屏的 AI 眼镜也不断推新。

据 IDC 预测，智能眼镜产品成为 2025 年消费电子赛道的黑马，相应产品在中国市场出货量预计达到 290.7 万台，同比增长 121.1%。业内人士普遍认为，这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

汇丰控股认为，智能眼镜市场仍处于加速扩张阶段。分析师预计，智能眼镜的用户规模将在未来十多年内迎来爆发式增长，到 2030 年代末将达到 2.89 亿人，较 2025 年的 1500 万用户增长超过 18 倍。

（@即智 Ultra、@IT 之家）

2、MiniMax 推出「Agent 实习生」，AI-native Workspace 全面升级

昨天，MiniMax 官宣，AI-native Workspace 迎来两项核心升级，进一步推动 AI 深度嵌入真实工作场景，并面向用户开放限时免费体验。

桌面端应用正式上线： 用户可在本地环境中指定 Workspace 作为工作空间与上下文，使 AI 能够直接理解本地文档、代码仓库、邮件与日程，从而构建一个专属于个人的智能工作环境。
推出「专家 Agents」能力： 用户可构建在特定领域达到「95 分甚至 100 分」水平的专业智能体。这类 Agent 能够在复杂任务链路中稳定执行、主动判断并长期协作。

公司内部数据显示，「Agent 实习生」在过去数周已被接近 100% 的员工使用，并在运维场景中承担了约 80% 的查 Bug 工作量。

MiniMax 表示，AI-native Workspace 标志着 Agent 从「被动执行指令」向「主动感知环境」的形态演进。

公司认为，未来的 Agent 将具备长期记忆、完整职业上下文与跨系统感知能力，成为用户的长期工作伙伴，而非一次性工具。

目前，MiniMax 已开启专家 Agents 的限时免费体验。用户可通过 Web 端直接试用，也可通过官方体验链接获取桌面端安装包。

体验地址：
https://agent.minimaxi.com/

( @APPSO)

3、Crow 发布 AI 智能体框架：支持 OpenAPI 与 MCP 协议，实现「对话即 UI」交互

Crow 近期推出了一套专为 SaaS 产品打造的 AI 智能体基础设施，旨在通过「对话即 UI」的理念重构软件交互模式。该工具的核心逻辑在于将传统的点击操作转化为自然语言指令流，通过接入 OpenAPI 规范或 MCP 协议，使智能体不仅能回答问题，更能直接触发后端 API 调用及前端 UI 导航，从而实现对软件功能的深度控制。

为了解决生成式 AI 不可控的难题，Crow 引入了名为「Journeys」的结构化工作流。开发者可以针对取消订阅、创建报表等特定业务场景，定义确定性的引导路径，确保智能体在执行敏感操作时严格遵循预设的逻辑分支。配合支持文件与文档集成的 RAG 管道，智能体还能充分理解产品特定的业务逻辑与私有数据。

在开发与运维层面，Crow 提供了生产级的观测指标，能够详细追踪每一条指令对应的工具调用路径。其低代码部署方案仅需嵌入单行 Script 标签，官方宣称这能将传统长达半年以上的自研周期缩短至一周以内，并支持与 Claude Code 或 Cursor 等工具集成。目前该产品已正式上线，开发者项目可免费试用，同时针对中大型企业提供了定制化方案。

( @Y Combinator Launch)

4、Thread 发布 Voice AI：实现 MSP 电话自动化分拣与实时工单同步，单人效能提升 30%

Thread 宣布其专为托管服务提供商设计的 Voice AI 正式商用。该产品旨在终结传统 IVR（交互式语音应答）系统的僵化体验，通过语音智能体接管电话接入、分拣与派发的全流程，将高成本的电话渠道整合进结构化的自动化运维体系中。

AI Attendant 与 Overflow Agent 双引擎驱动：

AI Attendant：取代传统 IVR，能够即时接听电话并识别来电者身份。它不仅能进行自然的语音交互，还能在后台实时创建工单、匹配技术人员，并完成「热切换」，确保客户在转接给真人时无需重复复述问题。
Overflow Agent：专为下班后或线路繁忙场景设计。它能拦截进入语音信箱的电话，自动收集关键信息并进行分类；遇到 P1 级紧急事件时，可直接升级并呼叫待命团队，消除了「下班后盲区」。

Voice AI 的核心价值在于将非结构化的语音高效转化为结构化数据。系统不仅能根据通话内容自动填充工单的标题、类别、优先级和解决摘要，还引入了「自动时间条目」功能，可依据通话时长直接生成计费记录。据官方数据统计，这一特性为每张工单平均节省了 19 分钟的处理时间，从而推动单一技术人员的日均通话处理量从 8-12 通显著提升至 14-20 通。

在生态兼容性方面，该方案作为 Thread AI Service Desk 平台的重要组成部分，已与 ConnectWise、Autotask 和 HaloPSA 等主流 PSA 系统实现了原生集成。这意味着所有通话数据都会实时转化为结构化文档，并无缝同步至企业现有的工作流中，从而确保了整个服务链条的完整性与可追溯性。

据 Thread 统计，通过消除手动记录和人工轮班需求，该系统可使响应速度提升 5 倍，平均解决时间缩短 78%。目前该服务已正式上线。

相关链接：
https://www.getthread.com/voice-ai

( @Mansfield News Journal)

03有态度的观点

1、谷歌前 CEO 施密特：欧洲要么投资开源 AI，要么依赖中国模型

1 月 20 日，据外媒报道，谷歌前 CEO、科技投资人埃里克 · 施密特（Eric Schmidt）周二表示，欧洲必须投资建设自己的开源 AI 实验室，并解决能源价格飙升的问题，否则很快就会发现自己对中国的模型产生依赖。 施密特周二在达沃斯世界经济论坛表示：「在美国，企业基本上正在转向闭源，这意味着这些技术将被购买、授权等等。而与此同时，中国在做法上基本是开放权重、开源的。除非欧洲愿意为欧洲自己的模型投入大量资金，否则欧洲最终将会使用中国的模型。」

目前，许多热门 AI 模型都是闭源的，比如谷歌的 Gemini 和 OpenAI 的 ChatGPT，这意味着这些公司不会向外界提供底层代码供下载或审查。虽然这种方式能为用户带来更顺畅、更统一的使用体验，但通常成本更高、灵活性也更低。中国在所谓「开放权重」模型的开发方面处于领先地位，这类模型具有更高的透明度。

为了在开发更强大 AI 模型和智能体的全球竞赛中具备竞争力，欧洲还需要解决高企的能源价格问题，并建设更多可用于训练这些技术的数据中心。施密特曾联合创办一家数据中心公司，致力于应对这类基础设施巨大的能源需求。他也对美国 AI 发展对电力供应的影响表示担忧。

（@IT 之家）

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

作者提示: 个人观点，仅供参考

飞书联手安克发布首款硬件 AI 录音豆；ElevenLabs 新一轮融资估值或达 110 亿美元丨日报

作者: 纯情
时间: 2026-01-20
分类: 资讯
评论

开发者朋友们大家好：

本期编辑：@瓒an、@鲍勃

01 有话题的技术

1、无界方舟 AutoArk-AI 发布 GPA 语音大模型：0.3B 轻量化架构实现 ASR/TTS/VC 统一建模

在克隆参考音频样本的音色的同时，从文本合成语音。

无界方舟 AutoArk-AI 正式推出通用音频模型「GPA」。该模型基于统一的自回归 Transformer 架构，在单一的大语言模型框架下，集成了语音识别（ASR）、语音合成（TTS）和语音转换（VC）三大核心任务。

该模型的设计初衷在于改变传统语音系统碎片化的 Pipeline 设计模式。通过 0.3B 的轻量化参数量级，GPA 旨在实现端侧的高效部署以及跨任务的泛化能力。

在技术架构上，GPA 放弃了任务特定的输出头，转而采用统一的离散音频 Token 空间。这一设计将理解、生成与编辑任务收敛至单一自回归模型中，从而减少了跨任务处理过程中的性能损耗。

交互方式上，模型采用指令驱动机制，通过文本指令来引导任务行为。它支持零样本语音克隆，用户无需调整架构或进行针对性微调，即可在 ASR、TTS 和 VC 之间进行动态切换。

针对边缘计算场景，官方提供了优化的 0.3B 参数版本。该版本兼容性广泛，支持 vLLM、llama.cpp、SGLang、MLX-LM 以及端侧硬件框架 RKNN。

在流式推理的延迟指标方面，测试数据显示：在 TTS 任务中，单并发平均 TTFC（首包延迟）为 258.8ms，RTF（实时率）为 0.197；在 ASR 任务中，单并发平均 TTFT（首 Token 延迟）为 157.5ms，能够支持高并发吞吐场景。

在性能对标测试中，针对中文 SEED 数据集的 TTS 零样本测试显示，GPA-0.3B 的 CER（字符错误率）为 0.95%。数据显示，该成绩优于同参数量级的 F5-TTS 模型。

目前，该模型的代码已开源，相关论文与 Demo 即将上线。使用许可方面，模型目前仅供学术研究与个人教育使用。

GitHub:
https://github.com/AutoArk/GPA

( @GitHub)

2、ElevenLabs 洽谈新一轮融资：估值或达 110 亿美元，有望成英国最有价值 AI 初创公司

据英国《金融时报》报道，AI 语音生成公司 ElevenLabs 正洽谈新一轮融资，计划从投资者处募集数亿美元资金。若交易达成，其估值或将在数月内翻倍至 110 亿美元。

这一跃升将使 ElevenLabs 超越估值约 80 亿美元的自动驾驶公司 Wayve，成为英国最有价值的人工智能初创公司；同时，也将使其跻身欧洲顶尖行列，逼近法国 AI 模型公司 Mistral 约 120 亿美元的估值水平。

此次融资谈判距离公司上一次二级股份出售仅过去四个月，当时的估值为 66 亿美元。据悉，目前的会谈仍处于早期阶段，具体情况可能存在变数。

ElevenLabs 于 2022 年由波兰企业家 Mati Staniszewski 和 Piotr Dabkowski 在伦敦创立，目前已获得红杉资本（Sequoia）、Iconiq、Andreessen Horowitz、NEA 及 FT Ventures 等多家知名风投机构的支持。为了便于获取美国资本，公司已在美国注册，并在伦敦和纽约设有双总部。

在业务层面，ElevenLabs 专注于利用 AI 生成逼真的语音，广泛应用于客服、文本转语音及多语言配音等场景。公司业绩增长迅猛，去年年度经常性收入（ARR）已达到 3.3 亿美元，较 9 月份公布的 2 亿美元有显著提升。

宏观来看，尽管全球投资者对 AI 初创企业的兴趣持续高涨，但欧洲公司在募资规模上仍滞后于美国。作为对比，美国巨头 OpenAI 据传估值已达 5000 亿美元，并正商谈最高达 800 亿美元的新一轮融资，投后估值可能突破 8000 亿美元。

( @Benchmark Studio)

3、红杉资本「覆盖赛道」押注 Anthropic，新一轮融资目标约 250 亿美元，预计最快今年 IPO

据《金融时报》报道，红杉资本计划加入对 AI 初创公司 Anthropic 的新一轮重磅融资。此举打破了风险投资界通常避免在同一领域支持竞争对手的传统惯例，因为红杉此前已同时投资了 OpenAI 和埃隆·马斯克的 xAI。

本轮融资由新加坡政府投资公司（GIC）和美国投资机构科图（Coatue）领投。 据报道，两家机构各出资 150 亿美元。Anthropic 计划以 3500 亿美元的估值筹集 250 亿美元或更高资金，这一估值较四个月前的 1700 亿美元已翻了一番以上。此外，微软和英伟达据称已承诺共同出资最高 1500 亿美元。

红杉此次的投资时机颇受外界关注。OpenAI CEO 萨姆·奥尔特曼此前曾明确表示，虽然不禁止投资者投资竞品，但若投资者对竞争对手进行「非被动投资」，其接触 OpenAI 机密信息的权限将被终止。

尽管面临潜在的利益冲突，红杉仍选择进一步深化在 AI 领域的布局。 此前，红杉不仅支持了奥尔特曼创立的 Loopt 和其引荐的 Stripe，也通过投资 xAI、X、SpaceX 及 Neuralink 等公司与马斯克建立了广泛联系。

这一策略转变发生在该机构经历戏剧性的管理层变动之后。近期，红杉全球掌门人罗洛夫·博塔（Roelof Botha）离职，由林君睿（Alfred Lin）和帕特·格拉迪（Pat Grady）接手。这种多点押注的策略，与 2020 年红杉因利益冲突而放弃 Finix（Stripe 竞对）投资的历史立场形成了鲜明对比。

此外，报道还透露，Anthropic 正在积极筹备首次公开募股（IPO），最快可能在今年年内进行。

( @Z Potentials、@TechCrunch)

4、NVIDIA 发布 PersonaPlex：基于 Moshi 架构的 7B 全双工对话模型，支持混合 Prompt 定制

NVIDIA ADLR 团队近日正式发布了 PersonaPlex，这是一个参数量为 7B 的原生全双工语音对话模型。该模型通过摒弃传统的 ASR→LLM→TTS 级联架构，实现了超低延迟的实时语音交互，并着重解决了全双工模型在角色与音色自定义方面的局限性。

在架构设计上，PersonaPlex 基于 Kyutai 的 Moshi 架构及 Helium 语言模型构建，并采用了 24kHz 采样率的 Mimi 神经音频编解码器。该架构支持模型同时处理音频输入流与输出流，从而具备了实时打断、背向渠道（Backchanneling，如「嗯」、「噢」）以及自然的轮替节奏等全双工特性。

为了提升定制化能力，模型引入了混合提示机制。 该机制包含双路输入控制：通过音频嵌入提取参考音频的声学特征，以控制发音风格与韵律；同时利用文本指令来定义角色的设定、背景知识及交互逻辑。

在训练数据方面，团队采用了脱耦与融合策略。模型使用了 1,217 小时的 Fisher English 真实对话语料来学习打断、情绪反馈等交互行为，并结合了约 2,250 小时由 Qwen3-32B 和 Chatterbox TTS 生成的合成数据，以强化指令遵循能力。

评测结果显示，在 FullDuplexBench 及新增的 ServiceDuplexBench 测试中，PersonaPlex 在顺滑轮替和暂停处理等指标上优于 Gemini 2.0 Flash Live 等商业模型。此外，在未见过的极端场景（如太空紧急状况响应）中，模型也展现出了技术推理与情绪同步能力。

目前，该项目的代码采用 MIT 开源协议，模型权重则采用 NVIDIA Open Model License 协议。相关的测试集 ServiceDuplexBench 也将于近期开放。

HuggingFace:

https://huggingface.co/nvidia/personaplex-7b-v1

( @NVIDIA ADLR Blog)

02有亮点的产品

1、飞书发布首款硬件「AI 录音豆」：联手安克创新，争夺更近的上下文入口

据「智能涌现」报道，飞书联合安克创新发布首款智能硬件产品「AI 录音豆」，这也是飞书自 2017 年成立以来的首次硬件尝试。该产品被定义为飞书内部的探索性项目，由飞书团队负责软件部分的研发。

在此次合作中，飞书团队主要负责软件层面的研发。该设备通过极轻量化的设计捕捉物理场景语音，并结合豆包大模型，旨在实现办公上下文的自动化沉淀与结构化处理。

在硬件形态上，AI 录音豆单体重量仅为 10g，含充电仓总重 48g，内部搭载了双 MEMS 麦克风阵列。产品采用了豆状设计，支持背夹或磁吸佩戴。这一设计旨在降低录音过程中的仪式感，以便更好地覆盖通勤、拜访等碎片化使用场景。

在续航与存储配置方面，配合充电舱使用，该设备可提供 32 小时的总续航时间，并支持快充技术，充电 10 分钟即可录音 2 小时。机身内置 8GB 存储空间，可存储约 250 小时音频，并支持蓝牙与 Wi-Fi 双模式传输。

核心功能方面，设备内置了豆包大模型，支持实时多模态纪要。具体能力涵盖发言人识别、待办事项自动提取以及柱状图等图例的可视化生成，用户可在录音过程中实时查看 AI 总结。

此外，该产品实现了与飞书生态的闭环打通。录音内容会自动沉淀至飞书知识库，用户随后可通过 AI 助手，以自然语言交互的方式对历史音频记录进行语义检索、提问及二次创作。

目前，该产品被定位为飞书内部的探索性项目，具体定价及正式发售日期暂未披露。

（@36 氪）

2、银河通用发布重载机器人 Galbot S1：50kg 双臂负载突破瓶颈，零遥操切入核心产线

「银河通用」正式发布工业级具身智能重载机器人「Galbot S1」。该机器人实现了 50kg 的双臂持续作业负载，并搭载全自主、零遥操的「具身搬运模型」。目前，产品已成功进入宁德时代等头部企业的核心产线，承担重型物料搬运及部件装配任务。

在负载能力上，Galbot S1 实现了显著突破。它拥有 50kg 的双臂持续负载能力，不仅对标人力搬运的极限，更突破了具身智能机器人普遍低于 10kg 的负载瓶颈，有效填补了轻型协作机器人与大型固定吊装设备之间的重载作业空白。

技术层面，该机器人采用了全自主的具身搬运模型。基于纯视觉感知方案，Galbot S1 无需依赖二维码或反光板等外部标记，即可支持动态光照、局部遮挡及人机混行等复杂工况，实现了零遥操下的端到端作业。

针对工业环境的适配性，整机具备 IP54 防水防尘等级，作业高度覆盖 0 至 2.3 米区间，能够适配从地面物料到高位货架的全场景搬运需求。

在续航与安全性方面，Galbot S1 支持 8 小时单次续航及自主换电功能，可实现 7×24 小时连续运转。同时，系统配备了毫秒级安全响应机制与 360° 全向避障能力，确保作业安全。

此外，银河通用通过在宁德时代、博世、丰田等真实产线的长期运行，构建了场景数据闭环，持续强化具身智能大脑在严苛节拍下的稳定性。

目前，公司已完成 21 亿元融资，估值突破 200 亿元，正积极推进千台级的工业部署。

（@量子位）

3、全球首个全年龄段覆盖，京东京造第二批 AI 玩具上线

近日，京东京造正式宣布上线第二批自研 AI 玩具。此次发布的新品在此前针对儿童开发的陪伴玩具基础上，进一步推出了面向年轻人及老年群体的 AI 玩具，实现了全球首个全年龄段用户需求的覆盖。

京东 JoyInside 为硬件注入了「长期记忆」与「情境感知」能力，能够理解对话的上下文，也成为首个根据不同年龄段用户的偏好与习惯进行优化的系统平台。

这项能力被深度应用于不同年龄层的需求设计中：系统能识别婴幼儿的哭声并给予安抚，为儿童提供启蒙引导并识别潜在风险，与年轻人进行有深度的主题聊天，也能用方言陪伴老年人，并关注他们的健康与社交需求。

回顾市场表现，首批 AI 玩具上市后，被用户视为「游戏搭子」、「情绪树洞」及「知识导师」，在帮助儿童减少电子屏幕依赖方面发挥了作用。数据显示，接入 JoyInside 的智能硬件平均对话轮次提升超过 120%，多款产品上线即售罄，且保持了极低的退货率。

截至目前，京东 JoyInside 已携手超过 40 家硬件品牌，涵盖 AI 玩具、机器人等品类。

（@IT 之家、@京东黑板报）

03有态度的观点

1、DeepMind CEO：AGI 5-10 年内实现

日前，Google DeepMind CEO Demis Hassabis 接受了 CNBC 的节目采访，与主持人共同讨论了缩放定律的重要性以及发展通用人工智能（AGI）的持续追求。

Demis 表示，自己依然认为 5 到 10 年内 AGI 能得以实现。

其指出，包括 AI 在内的 AGI 将涉及 LLMs 和世界模型的组合，而不是一个组件取代另一个组件。

Demis 认为，AI 可能需要更好的推理、长期规划和「世界模型」的概念，以更好地理解物理学并进行模拟，反映人类科学家的工作。其也强调，除了世界模型之外，AGI 可能还需要其他类型的技术和能力。

同时他也表示，为了使 AI 在科学能力方面取得进步，它需要能够提出新的假设和想法，而不仅仅是解决现有的猜测。

( @APPSO)

04社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、招聘 AI Agent 开发工程师

22-35K·13 薪深圳 5-10 年本科

岗位职责：

负责 AIAgent 系统的架构设计与工程实现，包括智能体的任务规划、决策逻辑、工具调用以及记忆管理等核心模块。
深入集成与优化大语言模型（LLM），通过提示工程、微调等技术路径，持续提升 AI 助手的对话质量、逻辑推理能力及任务执行准确性。
为 AI 助手连接并管理各类外部工具与 API（如搜索、数据库、第三方服务），构建其实际解决问题的能力，同时确保执行过程的安全与可控。
建立针对 AI 助手性能的评估、监控与迭代闭环，通过数据分析驱动产品体验的持续优化。5.编写高质量、可维护的代码，并将 AIAgent 系统部署至生产环境，保障其高可用性与低延迟。

任职要求：

计算机科学、软件工程或相关专业本科及以上学历，具备 3 年以上后端或 1 年以上 AI 应用开发经验。
熟悉 PyTorch、TensorFlow 等主流深度学习框架，具备扎实的工程能力和良好的编码习惯。
对大语言模型及 AIAgent 技术栈有深入理解和实际项目经验。
拥有强烈的产品意识和用户同理心，关注技术落地对用户体验的实际影响，具备优秀的数据分析能力和问题解决技能。
有成功的 ToC 互联网产品或 AI 产品（如智能助手、对话机器人）开发及上线经验者优先。

联系人：李先生

联系方式：26905841@qq.com

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

作者提示：个人观点，仅供参考

美团 LongCat-Flash-Thinking-2601 发布，工具调用能力登顶开源 SOTA！

作者: 纯情
时间: 2026-01-20
分类: 开源
评论

近日，美团 LongCat 团队正式对外发布并开源 LongCat-Flash-Thinking-2601。作为已发布的 LongCat-Flash-Thinking 模型的升级版，LongCat-Flash-Thinking-2601 在 Agentic Search（智能体搜索）、Agentic Tool Use（智能体工具调用）、TIR（工具交互推理）等核心评测基准上，均达到开源模型 SOTA 水平。

该模型尤其在工具调用上表现出卓越的泛化能力，在依赖工具调用的随机复杂任务中性能超越了 Claude，可大幅度降低真实场景下新工具的适配训练成本；同时它是首个完整开源并支持在线免费体验「重思考模式」的模型，同时启动 8 个大脑飞速运转，确保思考周全、决策可靠。

目前该功能已经可以在 https://longcat.ai 网站免费体验（仅选择深度思考功能时会触发重思考模式）。

01 创新的「重思考」模式：让模型学会“深思熟虑”

全新升级的「重思考」模式，让模型学会了“深思熟虑”再行动，遇到高难度问题时，模型会把思考过程拆成并行思考和总结归纳两步来做：

并行思考阶段，模型会同时独立梳理出好几条推理路径，就跟人面对难题时会琢磨不同解法一个道理，还会特意保证思路的多样性，生怕漏掉最优解；

总结归纳阶段，对多条路径进行梳理、优化与合成，并将优化结果重新输入，形成闭环迭代推理，推动思考持续深化。

除此之外，我们还专门设计了额外的强化学习环节，针对性打磨模型的总结归纳能力，让 LongCat-Flash-Thinking-2601 真正实现“想清楚再行动”。

02 智能体工具调用能力登顶开源 SOTA

经过全面严谨的评估显示，LongCat-Flash-Thinking-2601 模型在编程、数学推理、智能体工具调用、智能体搜索维度表现全面领先：

编程能力：LongCat-Flash-Thinking-2601 在 LCB 评测中取得 82.8 分，OIBench EN 评测获 47.7 分，成绩处于同类模型第一梯队，展现出扎实的代码基础能力。
数学推理能力：在开启重思考模式后表现突出，LongCat-Flash-Thinking-2601 在 AIME-25 评测中获 100.0 分（满分），IMO-AnswerBench 中以 86.8 分达到当前 SOTA。
智能体工具调用能力：在 τ²-Bench 评测中拿到 88.2 分，VitaBench 评测中获得 29.3 分，均获得开源 SOTA 水平，在多领域工具调用场景下表现优异，适配实际应用需求。
智能体搜索能力：在 BrowseComp 任务中取得 73.1 分（全模型最优），RW Search 评测获 79.5 分，LongCat-Flash-Thinking-2601 具备强劲的信息检索与场景适配能力，达到开源领先水平。

同时，为了更好的测试智能体模型的泛化能力，我们提出了一种全新的评测方法——通过构建一套自动化任务合成流程，支持用户基于给定关键词，为任意场景随机生成复杂任务。每个生成的任务都配备了对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性，我们通过评估模型在该类环境中的性能表现，来衡量其泛化能力。实验结果表明，LongCat-Flash-Thinking-2601 在绝大多数任务中保持领先性能，印证了其在智能体场景下强大的泛化能力。

03 核心技术突破：既能“打硬仗”也能“抗干扰”

3.1 环境扩展与多环境强化学习：从“靶场”到“实战”

传统智能体大多只在几个简单模拟环境里训练，就像士兵只练过靶场，到了真实“战场”就掉链子。而基于“环境扩展+多环境强化学习”核心技术，为模型打造了多样化的“高强度练兵场”，构建了多套高质量训练环境，每套集成 60 余种工具并形成密集依赖关系图谱与复杂联动，支撑起高度复杂的任务场景。实验证明，训练环境越丰富，模型在未知场景中的泛化能力越强。得益于这套方案，LongCat-Flash-Thinking-2601 在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中性能优于 Claude。

同时我们针对性扩展 自研强化学习基础设施（DORA），在保留原有高效异步训练特性的基础上实现大规模多环境智能体的稳定并行训练，通过均衡搭配多环境任务、按难度与训练进度智能分配算力，最大化提升训练效率与资源利用率，筑牢能力根基。此外，我们还从复杂度、多样性双维度严控训练任务，配套专属数据库及优化方案，杜绝模型“偏科”与训练漏洞，让这套全流程方案持续赋能模型，稳居智能体能力第一梯队。

稳定上涨的多环境混合强化学习训练曲线

多环境强化学习训练下不同 OOD 测试集上的 RL Scaling 表现

3.2 噪声环境下的稳健训练：让智能体更“抗造”

现实世界的智能体环境充满不确定性，API 调用失败、返回异常信息、观测数据不完整等“噪声”问题，极易导致模型决策失误。为此，我们在训练数据的过程中主动注入多类噪声，模拟 API 的调用失败、返回错误信息、数据缺失等场景，并用课程学习（Curriculum Learning）的方式循序渐进去做模型的训练，在训练过程中逐步增加噪声的类型与强度——如果类比成教小孩骑车，我们首先在平坦路面做练习，等技能成熟后再逐步增加路面的复杂度。

可以看到，带噪声环境下未经过稳健训练的模型的表现会出现大幅衰减，Claude 也无法适应全部的噪声类型。而经过这套系统化的抗干扰训练，LongCat-Flash-Thinking-2601（Training w/ Noise 组）拥有了极强的环境适应能力，哪怕在复杂、不理想的场景中，也能稳定发挥、高效完成任务。

带噪声 / 无噪声评测集下的模型表现对比

开源与部署：低门槛接入，加速智能体应用落地

为降低开发者使用门槛，美团 LongCat 团队同步开放模型权重、推理代码与在线体验能力，支持从快速试用至深度开发的全流程需求：

开源平台

GitHub：https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601
ModelScope：https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601

在线体验与调用

官网：https://longcat.ai
API 开放平台：https://longcat.chat/platform/usage

欢迎开发者下载、部署并体验 LongCat-Flash-Thinking-2601，同时也欢迎您在 LongCat API 开放平台申请免费调用额度。如果您在智能体开发、大模型推理优化等领域有合作想法或反馈，我们期待与您交流。

| 关注「美团技术团队」微信公众号，在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者使用。任何商用行为，请发送邮件至 tech@meituan.com 申请授权。

美团发布 LongCat-Image 图像生成模型，编辑能力登顶开源 SOTA

作者: 纯情
时间: 2026-01-19
分类: 开源
评论

当前 AI 图像生成技术需求旺盛，但行业陷入 “两难困境”：闭源大模型性能强劲但无法自行部署或二次定制开发，开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点，制约商业创作与技术普惠。为此，美团 LongCat 团队正式发布并开源 LongCat-Image 模型，通过高性能模型架构设计、系统性的训练策略和数据工程，以6B参数规模，成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果，为开发者社区与产业界提供了 “高性能、低门槛、全开放” 的全新选择。

技术亮点

LongCat-Image 采用文生图与图像编辑同源的架构设计，并结合渐进式学习策略，在仅 6B 的紧凑参数规模下，实现了指令遵循精准度、生图质量与文字渲染能力的高效协同提升。尤其在单图编辑的可控性和文字生成的汉字覆盖度方面独具优势。

模型架构

亮点一：图像编辑高度可控

LongCat-Image 在图像编辑领域的多个重要基准测试中（如GEdit-Bench、ImgEdit-Bench）均达到开源SOTA水平，实现性能突破的背后在于一套紧密协同的训练范式和数据策略。为有效继承文生图模型的知识和美感，同时避免文生图后训练阶段收窄的状态空间对编辑指令多样性的限制，基于文生图Mid-training阶段模型进行初始化，并采用指令编辑与文生图多任务联合学习机制，深化对复杂多样化指令的理解。此外通过预训练阶段的多源数据及指令改写策略，以及SFT阶段引入人工精标数据，最终实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。

风格迁移与属性编辑能力对比

结构编辑与构图编辑的能力对比

亮点二：中文文字生成精准覆盖

针对中文文本渲染这一行业痛点，LongCat-Image 通过课程学习策略来提升字符覆盖度和渲染精准度：预训练阶段基于千万量级合成数据学习字形，覆盖通用规范汉字表的8105个汉字；SFT 阶段引入真实世界文本图像数据，提升在字体、排版布局上的泛化能力；RL 阶段融入 OCR 与美学双奖励模型，进一步提升文本准确性与背景融合自然度。此外通过对 prompt 中指定渲染的文本采用字符级编码，大幅降低模型记忆负担，实现文字生成学习效率的跨越式提升。通过该项能力加持，有效支持海报设计、商业广告作图场景中复杂笔画结构汉字的渲染，以及古诗词插图、对联、门店招牌、文字Logo等设计场景的生僻字渲染。

文字生成能力对比

此外，LongCat-Image通过系统性的数据筛选与对抗训练框架，实现了出图纹理细节和真实感的提升。预训练和中期训练阶段严格过滤AIGC数据，避免陷入“塑料感”纹理的局部最优；在SFT阶段，所有数据均经过人工精筛来对齐大众审美；在RL阶段，创新性地引入AIGC内容检测器作为奖励模型，利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感。

图像生成综合能力对比

性能验证

客观基准评测

客观基准测试性能对比

全面的客观基准测试充分验证了 LongCat-Image 的核心竞争力：图像编辑任务中，ImgEdit-Bench（4.50分）、 GEdit-Bench 中英文得分（7.⁶⁰⁄₇.64分）分别达到开源SOTA水平，且逼近头部闭源模型水平；文字渲染方面，ChineseWord 评测以 90.7 分的成绩大幅领先所有参评模型，实现常用字、生僻字的全量精准覆盖；文生图任务上，GenEval 0.87 分、DPG-Bench 86.8 分的表现，使其在生图基础能力上相比头部开源与闭源模型依然具备强竞争力。

综合主观评测

在衡量模型的通用能力时，我们始终将用户的真实体验放在首位。为此，我们采用业界公认的主观评价方法，对LongCat-Image在“文生图”与“图像编辑”两大核心场景下的表现进行了系统评估。

在文生图方面采用大规模的人工主观评分（MOS）方法，核心覆盖文本-图像对齐、视觉合理度、视觉真实度、美学质量4个维度，LongCat-Image 的真实度相比主流开闭源模型表现出色，同时在文本-图像对齐与合理度上也达到开源SOTA水平。在图像编辑方面采用严格的并列对比评估（Side-by-Side, SBS）方法，聚焦于综合编辑质量、视觉一致性这两个用户体验的维度，评测结果表明，LongCat-Image 虽然与 Nano Banana、Seedream 4.0 等商业模型存在一定差距，但显著超越了其他开源方案。

人类主观评分（MOS）对比& 并列对比评估胜率（SBS）

开源开放

为了构建一个更透明、开放、协作的开源生态系统，我们全面开源文生图的多阶段模型（Mid-training、Post-training）和图像编辑模型，旨在无缝支持从前沿研究到商业应用的全流程。我们坚信，真正的技术进步源于社区的集体智慧。诚邀广大开发者体验模型、参与共建，让我们共同基于这个高效能模型，探索视觉生成的更多可能。

🔗 资源链接：

| Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image

| GitHub: https://github.com/meituan-longcat/LongCat-Image

零门槛解锁 AI 创作新可能

LongCat APP：一键生成专业级图像

继文生图功能上线后，「LongCat APP」全新升级图生图能力！上传任意素材（风景照、自拍照、草稿线稿均可），模型将精准捕捉核心元素，按需求生成全新图像。同步上线 24 个零门槛图片玩法模板，涵盖海报设计、人像精修、场景改造等多重场景，点击 “AI 创作” 直接套用，彻底告别 “提示词焦虑”，小白也能快速产出专业级作品。

LongCat.ai：网页端高效创作入口

进入https://longcat.ai/点击「图片生成」，可上传参考图、自由调整比例、选择心仪风格，无需复杂配置即可快速获得高质量生成结果。无论是商业设计初稿、社交媒体素材，还是个性化创意创作，都能高效完成。

扫描下方二维码即可体验 Web 端及下载 LongCat APP 安卓版本（iOS 用户可直接在 APP Store 中搜索“LongCat”）

快翻出相册里压箱底的素材，即刻使用 LongCat-Image 解锁图片创作的无限可能～

美团 LongCat-Video-Avatar 正式发布，实现开源 SOTA 级拟真表现

作者: 纯情
时间: 2026-01-19
分类: 开源
评论

今年 8 月，美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现，迅速成为语音驱动虚拟人领域的主流工具，吸引全球数万名开发者的使用。10月底，LongCat 团队开源了 LongCat-Video 视频生成模型，尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上，LongCat 团队针对实际场景中的核心痛点持续优化，正式发布并开源 SOTA 级虚拟人视频生成模型 ——LongCat-Video-Avatar。该模型基于 LongCat-Video 基座打造，延续 “一个模型支持多任务” 的核心设计，原生支持 Audio-Text-to-Video（AT2V）、Audio-Text-Image-to-Video（ATI2V）及视频续写等核心功能，同时在底层架构上全面升级，实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破，为开发者提供更稳定、高效、实用的创作解决方案。

点击查看产品介绍视频

开源地址：

GitHub：https://github.com/meituan-longcat/LongCat-Video
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project：https://meigen-ai.github.io/LongCat-Video-Avatar/

一、技术亮点

1.1 开源 SOTA 拟真度：让虚拟人“活”起来

告别“僵硬”，迎接“鲜活”。还记得以前那些虚拟人吗？只有嘴巴在动，头和身体却像没通电，看起来既尴尬又不自然。全新的 LongCat-Video-Avatar 彻底改变了这一点。它像一位全能导演，不仅指挥嘴型，还同步指挥眼神、表情和肢体动作，实现丰富饱满的情感表达，让虚拟人真正“演”了起来。

点击查看效果对比

连“不说话”的时候，都很像人：真人说话是有停顿和呼吸的。我们通过一种独特的训练方法 Disentangled Unconditional Guidance（解耦无条件引导），让模型明白了“静音”不等于“死机”。现在，哪怕是在说话的间歇，虚拟人也会像你我一样，自然地眨眼、调整坐姿、放松肩膀。

这种技术让 LongCat-Video-Avatar 成为首个同时支持文字、图片、视频三种生成模式的全能选手。从口型精准到全身生动，虚拟人从此有了真正的生命力。

各类训练策略的对比分析

1.2 长时序高质量生成：让视频“稳”下来

上一代 InfiniteTalk 在长视频生成中会出现视觉质量退化的现象，而VAE 的反复编解码是正是视觉质量退化的主要原因。现有方法通常将上一段生成结果解码为像素，再将末尾帧重新编码为潜变量，作为下一段的条件——这一“解码→再编码”循环会持续引入累积误差，导致色彩偏移与细节模糊。

点击查看效果对比

LongCat-Video-Avatar提出了Cross-Chunk Latent Stitching（跨片段隐空间拼接）训练策略以根本性解决此问题。在训练阶段，我们从同一视频中采样两个连续且部分重叠的片段，在隐空间内直接进行特征替换，让模型学会在潜空间中无缝衔接上下文。在推理时，系统直接将前一段生成的 latent 序列末尾部分作为下一段的 context latent，全程无需解码到像素域。该设计不仅消除 VAE 循环带来的画质损失，还显著提升推理效率，并有效弥合训练与推理之间的流程差异（train-test gap）。实验显示，LongCat-Video-Avatar 在生成5分钟约 5000 帧视频时仍保持稳定色彩与清晰细节。

LongCat-Video-Avatar 的整体架构

1.3 商用级一致性：精准锚定角色，让演绎生动自如

点击查看效果对比

为维持长视频中的身份（ID）一致性， InfiniteTalk 采用注入参考帧的方式，但有时会导致色彩偏移（color shift）或动作僵化（“复制-粘贴”效应）。LongCat-Video-Avatar 从以下两方面进行系统升级：

基座升级：视频基础模型迁移到 LongCat-Video，后者在大规模长视频预训练中具备了更强的身份保持与色彩一致性先验。
参考机制创新：我们引入了带位置编码的参考帧注入模式。推理时，用户可通过指定RoPE中的索引位置，灵活控制参考帧在生成块中的插入位置。更重要的是，我们设计了Reference Skip Attention机制，在参考帧相邻的时间步，屏蔽参考帧对注意力计算的直接影响，仅允许其提供身份语义先验，而不主导具体动作生成。这套机制在确保ID一致性的同时，有效抑制了动作的重复与僵化，使长视频既稳定又富有变化。

Reference Skip Attention 机制的示意图

二、模型性能

2.1 客观基准评测

在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等权威公开数据集上的定量评测表明，LongCat-Video-Avatar 在多项核心指标上达到SOTA领先水平。

在 HDTF、CelebV-HQ 与 EMTD 数据集上的定量对比

在衡量唇音同步精度的 Sync-c/Sync-D指标上，LongCat-Video-Avatar 在各个数据集上均取得 SOTA 成绩；在一致性指标方面（FID、FVD、CSIM）也表现优异。

2.2 综合主观评测

为贴近真实用户体验，我们基于 EvalTalker 基准组织了大规模人工评测，从“自然度与真实感”维度对生成视频进行盲测打分（5分制）。

在涵盖商业推广、影视娱乐、新闻时事、日常生活和知识教育五大场景的单人对话测试中，LongCat-Video-Avatar 的综合评分领先于包括 InfiniteTalk、HeyGen、Kling Avatar 2.0 在内的众多主流开源与商业模型。

通过基于EvalTalker基准的严谨人工评测（共492名参与者），LongCat-Video-Avatar在多个细分维度获得显著正向反馈：

静音段表现：绝大多数评审者指出，LongCat-Video-Avatar 在静音段能保持如呼吸、眨眼等自然微动作；
长视频稳定性：在长序列生成中，相较 InfiniteTalk，该模型展现出更优的身份一致性与视觉连续性，有效缓解了长期存在的漂移问题；
动作多样性：得益于创新的参考帧机制，其生成的动作被普遍认为更为丰富、自然，避免了明显的重复或“复制-粘贴”效应；
语言表现：LongCat-Video-Avatar 在中文和英文语言中均优于所有对比方法，体现出稳健的跨语言性能和精准的音画同步效果；
应用场景表现：LongCat-Video-Avatar 在影视娱乐、日常生活和知识教育场景中表现最优，展现出在多样应用场景下的强泛化能力。

三、One More Thing，开源是为了更好的共创

LongCat-Video-Avatar 是我们继 InfiniteTalk 之后，在数字人生成方向上的持续迭代。我们关注开发者在长视频生成中遇到的实际问题——身份漂移、画面卡顿、静音段僵硬，并尝试从模型层面给出改进。

这次开源的不是一个“终极方案”，而是一个进化的、可用的技术基座。它们都基于真实反馈与长期实验，代码和模型均已开放。我们坚持开源，是因为相信工具的价值在迭代中产生，而迭代需要更多人的使用、验证与共建。如果你正在探索数字人相关应用，或对生成技术有想法，欢迎关注我们的项目，更欢迎留下你的反馈。

开源地址：

GitHub：https://github.com/meituan-longcat/LongCat-Video
Hugging Face：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project：https://meigen-ai.github.io/LongCat-Video-Avatar/

现在，轮到你来创造“千人千面”的数字世界了。

美团发布 LongCat-Image 图像生成模型，编辑能力登顶开源 SOTA

作者: 纯情
时间: 2026-01-18
分类: 开源
评论